アルゴリズムは〝偏見〟を持つ。それを見極めるには

アルゴリズムは、ソーシャルメディアから警察のパトロールまで、社会に深く根を下ろしている。だが、往々にしてその中身は、ブラックボックス化されている。

アルゴリズムは、人を動かすことができる。

そしてアルゴリズムは〝偏見〟を持つ。

中立的と思われがちだが、決してそんなことはなく、差別的にすらなる

そしてアルゴリズムは、ソーシャルメディアから警察のパトロールまで、社会に深く根を下ろしている。だが、往々にしてその中身は、ブラックボックス化されている。

そこに〝偏見〟があれば、それによって不利益を受ける人々もいる。

では、そんなアルゴリズムを、ジャーナリズムが検証することはできるのか?

そんな興味深い議論が起きている。

●生活を支配するアルゴリズム

「コロンビア・ジャーナリズム・レビュー」のフェロー、チャバ・ゴウラリーさんが、「私たちの生活を支配しているアルゴリズムを調査する」という記事にまとめている。

アルゴリズムの操作により、選挙結果や人の感情のコントロールができることは、フェイスブックやグーグルの事例で何度か紹介してきた。

従来は時系列でタイムラインを表示していたソーシャルメディアだが、フェイスブックは2009年に、アルゴリズムによる関連度優先の表示に移行。

そして、ツイッターも今年2月、関連度の高いツイートを優先表示するアルゴリズムを導入。インスタグラムも3月に同種のアルゴリズム導入を明らかにしている。

そしてその度に、ブラックボックス化したアルゴリズムによる表示コンテンツの選別に、懸念の声が上がる

アマゾンも、ネットフリックスも、利用者へのおすすめの判断をするのは、アルゴリズムだ。

●客観的ではあり得ない

ゴウラリーさんは、コロンビア大学ジャーナリズムスクールのブラウン研究所長で統計学者でもあるマーク・ハンセンさんのこんなコメントを紹介している。

(アルゴリズムが客観的ということは)あり得ない。それは人間の想像力の産物なのだから。そこには、世界がどのように動いていて、どのように動くべきか、というひとつながりの仮説が埋め込まれているのだ。

そして、その仮説を検証するのは、ジャーナリストの仕事だ、と。

すでにいくつかの実例がある。

いずれもデータジャーナリズムの手法による検証だ。

ウォールストリート・ジャーナルは2012年12月、オフィス用品販売会社「ステープルズ」のオンラインショップが、同じ製品の値段を、利用者の居住地によって変動させていたことを、調査報道によって明らかにしている。

同紙の調べでは、10マイル(16キロ)ほど離れた2人のパソコンに表示された同じホチキスの値段が、一方は15.79ドル、他方は14.29ドルと1.5ドルの差があった、という。

そして、20マイル以内に「オフィスデポ」などのライバル店がある地域では、「ステープルズ」の表示価格は割引きになる、という相関関係があることがわかった、と。

同様の問題はすでに2000年、アマゾンが新規利用者と既存の利用者でDVD価格を差別化している、として注目を集めている。

「ステープルズ」のケースでは、価格差の9割方は、ZIPコード(郵便番号)の中心地とライバル店との距離からアルゴリズムが判断している、との見立てで説明がついた、という。

ただ、利用者のほどんどはそのことに気付いていない。

そして、利用者が「気付かぬところで不当な差別を受けている」と感じる点が、この問題に居心地悪さがつきまという理由だ。

●映画のレビューの客観性

データジャーナリズムサイト「ファイブサーティエイト」のライター、ウォルト・ヒッキーさんは、昨年10月に掲載した記事「映画サイトの評価を疑え、特にファンダンゴは」で、映画レビューサイトの評価の分布を比較してみせた。

映画サイトの作品評価は、批評家や観客の評価を独自集計したもの、という建て付けになっている。

だが、チケット販売を手がける「ファンダンゴ」の評価を調べたところ、30以上のレビューがついている209作品のうち、5段階評価で星3つ未満はゼロ、星4つ以上が78%にのぼったという。

さらに、「IMDb」や「ロッテントマト」といった他の映画サイトと比べ、8割前後の割合で、「ファンダンゴ」の評価の方が上回っていた、という。

そしてその仕掛けはページのソース表示でわかった。0.5刻みの星の数を計算する際、すべて切り上げになるよう、スクリプトが書かれていたことによる、と。

つまり実際の評価点が「4.1」なら表示される評価は「4.5」(テッド2)に。さらには、実際の評価点が「4.5」なら、さらに切り上げて「5.0」(アベンジャーズ/エイジ・オブ・ウルトロン)にしていた、と。

●捜査に使うアルゴリズム

カリフォルニア州のフレズノ警察が、「ビウェア」「メディアソナー」と呼ばれるソーシャルメディア監視システムを使っていることも、昨年、関心を集めた

これらはソーシャルメディア上の投稿を収集・解析し、〝要注意人物〟の危険度をランク付けする、といった機能をもっているようだ。

ただ、それらのアルゴリズムは明らかになっていない、と。

また、よく知られている犯罪発生予測システム「プレッドポル」もある。

過去の犯罪発生データの解析によって、犯罪発生率の高い地域を予測し、パトロールの効率的人員配置を行うというものだ。

だが、犯罪発生予測の高い地域では、住民に対する過度の職務質問や所持品検査といった、差別的な扱いが行われるなどの問題点も指摘されている

●アルゴリズムが差別主義者になる

アルゴリズムはとても小さな子どものようなもの。その環境から学んでいくものだ。(中略)完全にアルゴリズムが動かす世界に暮らす時、一体何が起きるのだろうか。

そこで求められるのが、メリーランド大学助教のニコラス・ディアコポウラスさんらが取り組む「アルゴリズム・アカウンタビリティ(説明責任)」だ。

ブラックボックス化したアルゴリズムによって、住居や就職、就学での差別が起きる可能性はないか。

ゴウラリーさんはこう指摘する。

アルゴリズムは、意図的に人種差別主義者ならずとも、結果的に差別主義者になることがある、ということだ。

一つは、アルゴリズムに入力されるデータがはらむバイアス(偏見)だ。人種差別や性差別のあった時代の歴史的データや分類法そのものが、その差別を反映する。

カーネギーメロン大学の研究チームが、グーグルの広告ネットワークで表示される広告を調べたところ、女性には低賃金の求人が表示される傾向にあった、という。

また、アルゴリズムそのものの意図せざるバイアスもある。

マシンラーニングの研究者、モリッツ・ハルトさんの「ビッグデータはいかに不公平か」によると、アルゴリズムは、多数派と少数派で違うパターンを読み取るため、多数派にとっての公平な最適解は、少数派には無意味なものになってしまう、と指摘する。

これらが複合的に影響し、差別的な結果が表面化する。

プロパブリカの昨年9月の記事では、米国の試験対策予備校「プリンストン・レビュー」の大学進学適正試験(SAT)用のコースが、アジア系の学生は、ほぼ2倍の確率でより高い金額を提示されているとした。

中国系の母親たちのスパルタ教育ぶりを「タイガーマザー」と呼ぶことから、記事ではこの現象を「タイガーマザー税」と名づけている。

また、メリーランド大学のディアコポウラスさんの学生チームの調査では、首都ワシントンでのウーバーの待ち時間は、非白人居住地域の方が長かった、という。

●悪者は誰か?

ゴウラリーさんは、データジャーナリズムに詳しいジャーナリストのジョナサン・ストレイさんのこんなコメントを紹介する。

(ウーバーのようなケースでの)理由付けについては、慎重であるべきだ。(何らかの問題はあるにしても)そもそもウーバーに、公平なサービスを提供する義務があるのか、ということだ。

様々な要因が絡み合った結果について、その因果関係の特定は極めて難しい。

さらに、「プリンストン・レビュー」の記事を担当したプロパブリカのデータ・エディター、ジェフ・ラーソンさんもこう述べているという。

すべてのストーリーに、悪者がいるとは限らない。口ひげをひねり上げる(悪役の)人物がいなくても、記事は成立する。

●フェイスブックはトランプ氏を阻止するのか?

4月12日、フェイスブックの開発者向けカンファレンス「F8」で、CEOのマーク・ザカーバーグさんが、大統領選共和党候補のドナルド・トランプさんの移民規制政策を暗に批判し、話題となった。

これを受け、ギズモードは、フェイスブックの社内掲示板でも先月、ザッカーバーグさんと社員とのQ&Aセッションの質問の候補として、「2017年のトランプ大統領実現阻止の支援のためにフェイスブックはどのような責任を負っているのか?」が61票を集め、第5位になっていた、との記事を掲載した。

だがこれに対し、フェイスブックはこんなコメント出している

我々は企業として中立的だ―これまでもこれからも、人々の投票に影響を与えることを意図してプロダクトを利用することはない。

既に紹介したように、フェイスブックが選挙の動員実験で騒動になったことを思い起こすと、妙に生々しい成り行きではある。

(2016年4月17日「新聞紙学的」より転載)

注目記事