📝
【技術】K-匿名性について電車で女子高校生が喋っていた【第一回】

これはとある片田舎にある私立ラインダール高校での出来事。高校デビューでギャルとして成功した千種シャミアと、千種の幼馴染の女子高生の本山アリスの、本当に何がしたいのかわからない会話を覗いてみた。
プロフィール
千種シャミア(ギャル)
性格:はしゃぐことが好きだがしっかりした面も持ち合わせている
趣味:バイク(原付)、カフェ巡り、ファッション
本山アリス(クールな変人)
性格:クールなオタク
趣味:論文を読む、Twitter廃人
(朝8時の電車にて)
体を手すりにもたれる女子高生(千種シャミア):「この前のテストなんだけどさ、今日結果出るらしいよ。アリスは大丈夫?」
片手で手すりを持っている静かな女子高生(本山アリス):「私はテスト前に準備してたから大丈夫だよ。むしろシャミアのほうが大丈夫?」
シャミア:「大丈夫だよ。成績が公開されると言っても名前は隠されるからセーフだって」
アリス:「そういうことじゃないよ。それに、名前が隠されたからって別にセーフではないよ。そうそう。そういえば、シャミアはLinkage Attackって知ってる?」
シャミア:「りんけいじ・あったく?」
アリス:「Linkage Attackについて一つ面白い事象があるんだ。2000年頃アメリカの大学院生だったL.Sweeneyさんは自分の研究のためマサチューセッツ州の医療保険データと州の有権者登録リストを購入し[1]、当時の州知事Weld氏の医療保険データを割り出したという有名な奇怪行動だよ」
シャミア:「えっ、医療保険データを隠さないまま匿名で公開されちゃったの?なんかマズくない?」
アリス:「そう。ただし名前や個人番号といった属性は既に排除されていたんだ。でもマズかったんだ。L.Sweeneyは生年月日、性別と郵便番号だけ見て州知事を特定できてしまったんだよ[1]」
(電車がもうすぐ駅に着くアナウンスが流れる)
アリス:「実は87%のアメリカ人は生年月日、性別と郵便番号で特定することができてしまうんだ。[1]このように公開されたデータの一部の属性を使って身元を特定したり個人情報を割り出すことがLinkage Attackというの」
シャミア:「なんかわかった気がする。でもこのL.Sweeneyさんという人めっちゃ悪い人なんじゃない?りんけいじ・あったくで州知事の医療記録を特定するって」
アリス:「Linkage Attackね(発音よく)。ここだけで終わらせないのがL.Sweeneyさんのすごいところなんだ。彼女はLinkage Attackの危険性を指摘する意味を込めて、準識別子とk-匿名性の概念を提唱したんだ」
(シャミアが困惑しているのでアリスは続ける)
アリス:「先の話での生年月日、性別と郵便番号みたいに個人を特定できる属性の集合を準識別子と呼ぶよ[1]」
シャミア:「“集合”ってこの前の数学の授業ってやったやつだよね!」
アリス:「そう。生年月日や郵便番号を一つ見ても個人を特定できないはず。でもその三つの属性の値の組み合わせを見れば個人を特定できてしまったんだ。L.Sweeneyさん以前のみんなは単体で個人を特定できる属性にしか着目していないわけ」
シャミア:「でもさぁ、生年月日、性別と郵便番号でどのひとでも特定できるわけじゃないよね」
アリス:「それはその通り。準識別子に指定される属性たちは個人を特定される恐れがあるだけ。準識別子に一意に特定されない人間はもちろんいるけど、でも87%の人を一意に識別する属性ってやはりプライバシー的に怖いよね」
(シャミアが頭を上下に振る)
アリス:「そんなわけでL.SweeneyさんがLinkage Attackに対する強さの指標を提案した。それがk匿名性なんだ」
アリス:「準識別子の値が同じレコード同士を一つのグループにまとめる。入っているレコードの数が一番少ないグループでもk個以上であればテーブルがk匿名性を満たすというんだ。ちなみにレコードというのは下のテーブルの行みたいなものを指すよ」
生年月日 | 性別 | 郵便番号 | 秘密 |
1999.4.7 | M | 525-0038 | ロリポップが好き |
1972.8.9 | M | 464-9191 | プ○キュアに憧れる |
1999.4.7 | M | 525-0038 | サメ映画マニア |
1999.5.3 | F | 999-0099 | 記録上の生年月日より300年早く生まれた |
生年月日、性別と郵便番号を準識別子とすると上記のテーブルのデータを{(1999.4.7, M, 525-0038, ロリポップが好き), (1999.4.7, M, 525-0038, サメ映画マニア)}、{(1972.8.9, M, 464-9191, プ○キュアに憧れる)}と{(1999.5.3, F, 999-0099, 記録上の生年月日より300年早く生まれた)}の三つのグループに分けられる。任意のに対してk匿名性は満たされない。
シャミア:「下?」
(アリスの話に困惑するAが下に向くとそこは電車の床。テーブルもレコードもない)
アリス:「k匿名性を満たすテーブルでLinkage Attackを試みると最低でもk個の候補があるよ。例えば、マサチューセッツの医療保険記録が3匿名性を満たしたら州知事のものと思われるレコードは三つ以上あるはず。単純に当ててみると高々1/3の確率でしか正解できないということ」
(電車が駅ホームで止まった。扉が開いたと同時に乗客の降車が始まる)
「早く。降り遅れちゃうよ」とシャミアが夢中で話しているアリスに言い、そこでアリスはふと我に帰る。慌てた二人は、いそいそと同じ制服を着た学生と同じように電車を降りる。
木造の駅を出れば、目の前にはバス停の看板がポツンと立っている。バスの発車時間は電車の到着時間に合わせて設定されている。目の前のバスを逃しては、遅刻は確定。二人は急いて乗り込んだ。学校まではバスで10分くらいだ。
バスの中、アリスはとても静かだった。先ほどの勢いは何処へやら、という感想をシャミアは抱く。
同じ制服を着た学生に揉まれながら、10分ほどでバスは校門の前に到着した。グラウンドでは、ソフトボール部が朝から練習をしている。彼女たちはもう、テストの結果を見て安堵している頃合いなのだろうか。
教室に入ると黒板にはクラスには受験番号と点数が張り出されてあった。
点数を見たシャミアはアリスに「おめでとう。また満点とっちゃったね」と言う。アリスが何か言いたげそうだがその言葉を飲み込んだ。代わりに一言がアリスの口から出た。
アリス:「それについてはまた次回で解説するね」
次回予告
なぜかアリスの点数を知ってしまうシャミアとそれを淡々と受け入れるアリス。彼女が最後に発言した「それ」とは一体何なのか。次回、「k匿名化」!!アルゴリズムが君を待っているよ。
追記
- 本記事での準識別子の定義だといわゆる識別子も当てはまる。k匿名性を提唱した元論文[1]では集合のサイズが2以上に制限していないことと準識別子への匿名化は識別子にも適用できるなどの理由から本シリーズでは上記の定義にする
- 識別子とは個人を唯一特定できる属性のことを指す。例えば電話番号、マイナンバーなどが識別子に当たる
- 議論を簡単にするために本シリーズで扱う準識別子は人を特定できるものとする。一般的に会社、地域など人以外のものを特定できる属性の集合も準識別子と見なすことができる。