Apple のパーソナル音声アシスタント Siri に、自分の話をずっと聴いているのか尋ねたことはありますか?
Siri は次のような返事を返してきます。
I only listen when you’re talking to me.(聴くのは話しかけられたときだけです。)
実際は話しかけられたとき以外も Siri はユーザーの話を聴いています。Apple の契約業者として働いている内部告発者によれば、Siri などの音声アシスタントデバイスは四六時中誤って起動されています。
この契約業者はガーディアン紙に対し、誤って Siri が起動される率は非常に高いと話しています。特に Apple の Apple Watch と HomePod スマートスピーカーが顕著で、この 2 つのデバイスでは偶発的に起動された Siri が極めて重要なデータを取得して、Apple に送信しています。そして Apple では、契約業者の人間が名前や住所などの個人情報を含むあらゆる種類の録音を聞き、分析を行っています。
ガーディアン紙は内部告発した業者の言葉を次のように引用しています。
(引用文日本語訳)[Apple Watch] が偶発的にトリガーされる頻度は非常に高く、30 秒のスニペットを録音できます。30 秒は長い時間ではありませんが、さまざまな情報を収集することができます。
内部告発者は、Apple の音声アシスタント Siriが誤って「ウェイクワード」を認識し、「医師と患者の会話、ビジネスの取引、犯罪行為、性的な接触」などを録音する事例が「無数に」あったと述べています。多くの場合、そうした録音には個人を特定できる情報が含まれています。
(引用文日本語訳)これらの録音には、位置情報、連絡先、アプリデータが付随しています。
「今に始まった問題ではない」と思われた方は、これらのデバイスが本来録音するべきではない音声を録音していることや、ベンダーがこのプライバシー違反の問題に懸念をほとんど示していないことを報じるニュースをご存知ないのかもしれません。
この数か月の間に、主要な音声アシスタントベンダー 3 社(Apple、Google、Amazon)で作業している契約業者が、音声ファイルを書き起こす際にユーザーの話を聴いているというニュースが報じられました。複数の内部告発者が報告しているとおり、Google Assistant、Amazon Alexa、および Siri は、よく似た単語や近くを通る人の会話などの偶発的な音によってデバイスがトリガーされた後、ユーザーが意図しないところで音声をキャプチャしています。
偶発的録音は「技術的な問題」か「プライバシーの侵害」か
これは、ベンダーの音声認識機能の改善を目的に行われている作業であり、意図していない録音を識別することもその一環です。しかし、Apple はスタッフに対し、偶発的な起動を「技術的な問題としてのみ」報告するよう指示しており、機密性の高い録音の対処に関する具体的手順は一切無い、と内部告発者は述べています。
(引用文日本語訳)契約業者は、目標を達成し、できるだけ早く作業を完了するように言われています。聴いている録音の内容を報告するのは、技術的な問題に対応するためだけのようです。内容の報告については何も言われていません。
例外なくユーザーの話を聴いている大手ベンダー
契約業者の人間が録音データを聞いていると最初に言ったのは、Amazon の内部告発者でした。次が Google で、そして今回の Apple です。
7 月初めにベルギーの放送局 VRT News が公開したレポートには、Google の契約業者は Google Assistant が録音した非常に個人的な会話(寝室や診察室での会話など)を聞くことができるとする 3 人の Google インサイダーからの情報が含まれていました。
VRT が内部告発者の助けを得て音声ファイルをいくつか聴いたところ、Google Home のトリガーフレーズが発声されていなかったにもかかわらず、録音内容から複数のオランダ人とベルギー人の住所を特定することができました。VRT が録音を再生した際、あるカップルは聞こえてきたのが孫たちの声であったため驚きと不快感を覚えました。
Google Assistant の録音をリークした内部告発者は、Google の下請業者として働いており、音声認識機能の改良のために音声ファイルを書き起こしていました。この内部告発者が VRT にコンタクトしたのは、Bloomberg が 4 月に報告したように、ユーザーが Alexa に話していることを Amazon の従業員が聞いているという記事を読んだことがきっかけでした。
聴いた後の音声は必ずしも削除されていません。Amazon は今年 6 月、情報提供を求めた議員への書簡の中で、ユーザーから明示的な削除要求がない限り、Alexa デバイスによる録音とその記録を永久に保存することを認めています。
「スタッフはかなりの量のデータに自由にアクセスできます」
内部告発者はガーディアン紙に対し、この件を公表したのは個人情報が悪用されるのを心配したからだと述べています。特に Apple は契約業者による適切なデータ処理を保証していません。
(引用文日本語訳)Apple で作業するスタッフのチェックはほとんど行われておらず、スタッフはかなりの量のデータに自由にアクセスできます。偶発的に住所、名前などが収集された場合などは特に、人物を特定することは難しくありません。
Apple の外注先は離職率も高く、スタッフはユーザーのプライバシーを考慮することを奨励されてもいません。悪意のある人物がいた場合、[会話が録音されたユーザー] を特定することは難しくありません。
内部告発した契約業者は、人間が音声を聞いているという事実を Apple がユーザーに明らかにすることを望んでいます。また、話を常に聴いているのかどうかを尋ねたときの Siri の明らかに真実ではない応答を止めることを Apple に求めています。
この件について、Apple がガーディアン紙に送った回答は次のとおりです。
(引用文日本語訳)Siri へのリクエストのごく一部は、Siri およびディクテーションの改善のために分析されます。ユーザーのリクエストは、ユーザーの Apple ID に関連付けられていません。Siri の回答は安全な施設で分析され、すべてのレビュー担当者は Apple の厳格な機密保持要件を遵守する義務があります。
また Apple は、1 日の Siri アクティベーションの 1% に満たない非常に小さくてランダムなデータの一部が「格付け」(品質管理)に使用されており、通常使用されているのは数秒の長さのデータだと述べています。
一方 Google も、確かに人間が聴いてはいるが、大した量ではないと言っています。7 月初めに内部告発者のニュースが大きく報道された後、Google は人間が聴いているのはすべての音声クリップの 0.2% にすぎないと述べています。また、当該の音声クリップからは個人を特定できる情報(PII)が削除されている、と述べています。
Apple ID がなくても話者の特定は可能
こうしたベンダーの言い訳は説得力が足りません。Google は、従業員が聴いている音声クリップからは PII が削除されていると述べていますが、Apple は、音声記録はユーザーの Apple ID と関連付けられていないと述べています。
しかし、これらは適切なプライバシー対策とは言えません。その理由はいくつかあります。第一に、ビッグデータの手法を用いれば、個々は無害なデータポイントであっても、集約すれば非常に強力で情報をもたらすデータになる可能性があります。
数年前 MIT の大学院生が、匿名化されたトランザクションログをソースとする 3 か月分のクレジットカードデータからユーザーをどれだけ特定できるのかを調査しました。その結果、10 件のトランザクションデータさえあれば、80% 以上の精度で人物を特定することができました。毎朝同じ店でコーヒーを買い、毎日同じ場所に駐車し、同じ新聞売り場で新聞を買っていれば、そうしたデータは簡単に収集できます。
結局のところ、偶然録音された音声データの中でユーザーは名前や住所を声に出しており、そこから簡単に人物を特定することができます。
恋人と一緒にいるときや医師と話しているときに、Apple Watch を身につけていたり HomePod の近くにいたりしていませんか?
リスニングデバイスの近くでは音に慎重になることをお勧めします。リスニングデバイスはその名のとおり耳をすませており、さらには人間が聞いている可能性もあります。
人間が「あなたの」音声をサンプリングする確率は非常に小さい、とベンダーは言いますが、その小さい確率に賭けてプライベートな会話をするかどうかを判断するのは各自の責任です。