DX関連ニュースや事例、セミナー、コンサルティング会社のご案内。

Google、ボイスマッチで音声IDの幕開け

Googleが先月声だけで購入できる機能をパイロットプログラムとして公開した。これは始まりにすぎない。生体と認証の未来に来たことを歓迎する。

顔認識技術が活発に活用されている。アップルがフェイスIDを披露しながら、顔認識を通じたスマートフォンのロック解除が普遍化された。顔認識技術は、ここで止まらなかった。 

その後クリアビューAI(Clearview AI)というスタートアップが開発したシステムの人々は驚愕を禁じえなかった。顔写真を上げれば、わずか数秒で、その人のすべての情報を見つけることができたからである。そして最近、中国と米国のいくつかの企業は、マスクを着用した顔も認識することができる顔認識システムを開発した。顔認識技術が瞬く間に話題に浮び上がった。 

現在の状況でのみ見ると、顔認識が今後20年の間には、バイオメトリクス市場で支配的な地位を占めると予想される。しかし、顔認識の対抗馬がいる。まさに声だ。ボイスIDは、今後10年以内に非常に重要になるだろう。 

ボイスIDの登場 
Googleが最近「ボイスマッチ(Voice Match)」と呼ばれる新しいグーグルアシスタント機能を披露した。これは、ユーザーの声に本人を確認決済までできる機能である。 

ボイスマッチは、AndroidスマートフォンやiPhoneのGoogleのアシスタントアプリで使用みることができる。現在パイロットプログラムの状態では、Googleプレイの購入やレストラン注文など、いくつかのカテゴリーにのみ限定的に使用することができる。 

この機能は、2017年ピクセル2スマートフォンとスマートスピーカー、Googleホームを介して最初に紹介された。当時ボイスマッチは、Googleアシスタントが話し手を識別し、適切なカレンダー、電子メール、メディアサービスを選択できるようにした。去る5月にGoogleは、ボイスマッチをアップグレードし、精度を向上させた。 

もちろん、広く知られているスマートスピーカーはすべてのユーザーの声を認識している。アマゾンのAlexaのは、誰かが音楽を流してもらうことと、そのユーザーの音楽のプレイリストを確認しようと声を認識している。アップルのホムパトも同様の機能がある。 

ボイスマッチが新しい点は、単にカスタムコンテンツを提供することを越えて決済認証に声を使用することである。スマートフォン、タブレット、ノートパソコンでは、指紋IDと顔IDを決済認証手段として利用することができましたが、スマートスピーカーでは、これを使用することができなかった。今、スマートスピーカーでもボイスマッチのようなボイスIDシステムを使用できるようになった。  

ボイスIDがスマートスピーカーまたは個人秘書市場では、新しく長いが、事実上の金融業界では、そうではない。数百箇所の銀行や金融機関が音声セキュリティと認証企業ピンドロップ(Pindrop)のサービスや同様のサービスを使用しています。金融業界では、ボイスIDはすでに大勢だ。 

英国HSBC銀行は4年前からコールセンターに音声認識機能を適用し、これにより、約5億ドルほどの金融詐欺を防止した。例えば1万7,000件のボイスフィッシングの試みを識別することができた銀行側は付け加えた。 

セキュリティとプライバシーの問題 
、金融業界ではすでに使用されているが大衆レベルではボイスIDの懸念が引き続き提起されてきたし、このような指摘は、昨年さらに深化された。 

アナリスト兼メディアボイスボトダトエーアイ(Voicebot.ai)の創設者であるブレットキンセラは「最近の調査によると、過去1年間のセキュリティとプライバシーへの懸念が確実に増加した」と述べた。 

続いて彼は、音声ベースのデバイスを購入していない回答者がその理由で、セキュリティとプライバシーを言及した。すなわち、セキュリティ上の問題は、ボイスIDの導入を増やしたい企業に一つの障壁である。 

生体セキュリティスタートアップ名アルエンディ(ID R&D)が進行したアンケート調査によると、米国の成人の3分の2は、ハッカーが自分の声を操作して、個人のアカウントにアクセスすることができると懸念した。また、ピューリサーチセンター(Pew Research Center)は、スマートスピーカーユーザーの半数以上が、個人データのセキュリティとプライバシーのために、より強化されたパーソナライゼーション機能を不要というアンケート調査の結果を発表した。 

Googleはボイスマッチに関するセキュリティとプライバシーの懸念を克服しようと声モデル(音声データ)をクラウドではなく、ローカル機器に保存されるように設計した。もちろん使用時には、クエリと声モデルの両方アップロードされますが、その後の声モデルと比較データは、すぐに削除される。一般的に、ボイスIDは記録されたユーザーの音声の固有のプロパティを「声プリント(voice print)」または「声モデル(voice model)」と呼ばれるアルゴリズムのテンプレートに変換させる。

ただ声モデルをクラウドに置くよりも、使用するたびに毎回クエリと声モデルを公共のインターネットを介してクラウドにアップロードすることがなぜより安全かどうかを理解することはできませんが、Googleは筆者の要求に応答しなかった。 

とにかくボイスIDがセキュリティを脅かしてプライバシーを侵害することを心配と懸念は妥当である。今後の声を操作しようとするハッカーとの声が本物かどうか、または合成と録音されたかどうかを把握しようとする技術の間の競争を目撃する可能性が大きい。ユーザ名アルエンディ(ID R&D)は、すでに「リアルタイム検出(liveness detection)」技術を提供していることもある。 

また、ボイスIDは、全世界の警察と諜報機関で広く使われている。インターポールは「話し手識別統合プロジェクト(Speaker Identification Integrated Project、SiiP)」と呼ばれるシステムを使用する。米国国家安全保障局(NSA)は、2006年から最先端のボイスID技術を導入したことが分かった。 

これらの情報機関は、収集された音声データが悪用される可能性を実証した。YouTubeは、電話、監視用タップなどで採取された声がボイスIDに必要な声モデルを生成するために使われることができるわけだ。

これはボイスIDと顔認識が持つ共通の問題である。「生体データ」は、スキャンされた人がこれを許可していなくても、あるいは認知していない場合でも、リモートで簡単にキャプチャすることができるというものである。そして、その人を認証するために、その分、または容易に使用することができる。 

今後ボイスIDは議論の中心に立つ可能性が高い。しかし、最終的には、大衆化されると期待する。非常に便利で簡単だからだ。 

ボイスIDの明るい未来 
コロナ19事態がすべてを変えている。IT分野で、今回のファンデミクは、既存の遅く導入された技術を急速に普及させている。 

キーンデッラは「コロナウイルスの時代から人々は、指紋リーダーに手を当てては嫌だ。また、マスクの着用で顔認識方式で不快感を経験している。したがってボイスIDの導入が加速化されることができる」と述べ、「このような利便性のためにボイスIDが、特に自動車や家庭で主に普及するだろう」と述べた。 

しかし、筆者はボイスIDが浮上することになる理由で、今日、私たちの生活の中で最も大きな割合を占めている「スマートフォンの衰退と没落」を挙げたい。今後、スマートフォンの重要性がしおれなる可能性が大きい。一方、ウェアラブルの重要性がますます大きくなるだろう。 

例えば専用のSIMカードが入るスマートウォッチがますます増加するだろう。アップルは今後5年以内に、スマートグラスを主流に安着させるものである。人工知能ベースのイヤホンを指すヒアブル(hearable)の人気がますます高まるだろう。筆者はさらに、スマートリングも同じだと思う。これは、病気を早期に検出するくれるのはもちろん、スマートグラスのポインタとしても使用されることもできる。 

ウェアラブルを勘案すればボイスIDが顔認識と指紋より適切な認識と認証方式である。いくつかのウェアラブルは、指紋認識のためのスペースを確保できないことがあります。また、ほとんどのウェアラブルは、顔認識のためのカメラやセンサーを搭載していない。しかし、ほとんどすべてのウェアラブルにボイスIDを処理するマイクが内蔵されているものである。 

そして、最も良い点がある。ユーザーが多数のウェアラブル(スマートウォッチ、スマートリング、スマートグラス、スマート衣類など)を着用している場合は声で一度にロックを解除することができるという点である。 

スマートウェアラブル時代が到来するだろう。そして、これと共に、ユーザーを認識し、行動を可能にする主要な方法で「ボイスID」の時代が開かれるだろう。