
リアルタイム音声偽造技術の概要と実験結果
米国のサイバーセキュリティ企業NCC Groupは、AIを活用した音声のディープフェイク(音声偽造)技術が、ついに「リアルタイム」で実行可能な段階に到達したと発表し、警鐘を鳴らしました。
従来の音声クローンツールは、ターゲットとなる人物の音声データを数分から数時間にわたって学習させる必要があり、生成された音声も事前に録音されたファイルを出力する形式が一般的でした。しかし、最新のシステムは通話中に相手の発話をリアルタイムで解析し、即座に模倣することが可能です。
この手法は「ディープフェイク・ヴィッシング(Deepfake Vishing)」と呼ばれ、攻撃者は対象人物のわずかな音声サンプルをAIモデルに読み込ませるだけで、カスタムインターフェースを通じてワンクリックでクローン音声を起動できます。さらに、必要な計算リソースも比較的軽量であり、NVIDIAのRTX A1000クラスのGPUを搭載した一般的なノートPC1台で、遅延を0.5秒未満に抑制可能。通話時に発生する不自然な「間」がほぼ解消されています。
実証実験で示された驚異的な詐欺成功率
NCC Groupのセキュリティ顧問であるPablo Alobera氏は、社内で実施した許可済みの実証実験の結果を公表しました。実験では、リアルタイム音声偽造と電話番号偽装(ソーシャルエンジニアリングを組み合わせた発信元偽装)を併用したシナリオが検証されました。
結果として、実験に参加した被験者の「ほぼ100%」が偽装された通話に騙されるという驚異的な結果となりました。音声のトーンや発話速度、感情の起伏までリアルタイムで調整できるため、被害者が違和感を抱くことは極めて困難です。
さらに、低品質な録音ソースからでも高精度なクローン音声を生成できるため、専門的な機器を持たない攻撃者であっても、一般的なスマートフォンやPCだけで同様の攻撃を実行できるリスクが浮き彫りになりました。
動画ディープフェイクとの対比と技術的ハードル
音声のリアルタイム化が急速に進む一方で、リアルタイムでの動画ディープフェイク生成は依然として高いハードルが存在します。
現在話題となっている高性能な動画生成モデル(Alibabaの「Wan2.1」やGoogleの「Gemini」ファミリーを活用した映像表現など)は、静止画や人物の動きを別の映像シーンに移植する能力に優れています。しかし、通話中のインタラクティブな対話において、表情のミクロな変化や感情表現の不一致、音声との完全なリップシンク(同期)をリアルタイムで破綻なく処理するには、まだ技術的なラグや視覚的違和感が発生しやすいのが現状です。
テクノロジーアナリストのTrevor Wiseman氏は、「リアルタイムの動画偽装はまだ発展途上だが、音声偽造の技術的完成度が高まっただけで、社会的なフィッシング詐欺のリスクは飛躍的に拡大した」と指摘しています。
グローバルにおける法規制と防御策の必要性
AIを用いた詐欺行為は世界中で深刻な問題となっています。特にデジタルエコシステムが極めて発展している中国市場では、AI生成コンテンツ(AIGC)に関する規制整備が進められており、「人工知能生成コンテンツ管理条例」などを通じて、偽装音声や映像の不正利用に対する取り締まりを強化する方針が掲げられています。しかし、個人レベルの攻撃ツールがオープンソース化、あるいは低コスト化しているため、実効性のある防止策の確立は急務です。
中国の通信事業者やセキュリティ企業は、通話の発信元をネットワークレベルで検証するシステムの導入を模索していますが、暗号化されたVoIP通話や番号偽装技術を組み合わせた高度なAIヴィッシングを完全に遮断することは困難とされています。
専門家が推奨する新たな本人確認手段「暗号認証」
前述のWiseman氏は、音声や映像通話だけで相手の身元を信用する時代は終わったと断言しています。同氏は、スポーツの試合などで使われる「サイン(暗号)」から着想を得た、事前に家族間や企業内で共有された「秘密のフレーズ(ワンタイムコード)」を対話中に用いる防御策を提唱しています。
また、音声のやり取りだけに頼らず、テキストメッセージでの多要素認証(MFA)や、生体認証、ハードウェアキーと組み合わせることで、AIによるなりすまし攻撃の成功率を大幅に引き下げることが可能です。企業や金融機関は、既存の電話対応プロトコルを抜本的に見直す必要があるでしょう。
出典: IT之家
コメント
...