もずくです。
アイキャッチの画像は本記事とは無関係です。
3歳5ヶ月の長女が自分で作った小さなハリセンです。直前に扇子で遊んでいたのを取り上げたので、代わりに作ったんだと思います。すごいですよね(親バカ)
さて、GunosyのCTOである松本さんがブロックチェーンについて話された内容をまとめたブログについて、数回にわけて私の所感というか妄想を書いてみようというシリーズ、その2です。その3はないかもしれませんが…
今回は、ブロックチェーン技術とフェイクニュースの部分です。
いま、我々はマシーンラーニングの文脈で、フェイクニュースをどう判定するかという研究をしています。
ただ、別のアプローチもあるのではないかと考えています。前述の通り、インセンティブ設計で、第三者がニュースに対する真偽のバリデーションを行うようにして、嘘のニュースを発行した場合の罰則を設ければ、自動的に正しいニュースだけが流通する非中央集権的な仕組みが作れるのではないかと思っています。
人海戦術でフェイクニュースを弾き出せ
嘘のニュースをどう見つけ出すかという問題について、インセンティブ設計からの流れなので、おそらく第三者が嘘のニュースを見つけることで報酬が得られるような仕組みにしておく方法がある…という話かと思います。
つまりは人海戦術なのですが、評価に協力する側に(トークンエコノミーを介した)金銭的なインセンティブがあれば、マシーンラーニング(コンピュータに判断させる)を使うのとは別の方法でうまくフェイクニュースを選別できるのではないか…ということです。
これ、最近話題の何かに似てますよね。
そう、ALISです。事情があって私はALISに投稿できないので、Steemitに書いちゃいます。
ALISがやろうとしていることも、良い記事(人気の出る記事)を見つけることにインセンティブを与えることによって、人海戦術でフェイクニュースなどの信頼できない記事を弾いてしまおうということかと思います。Steemitもこの部分はたぶん同じですね。
人海戦術だけでは限界がある
ところがGunosyの松本さんは、投票だけでフェイクニュースが判断できるとは考えていないようです。
一人、ないしは複数のバリデーターの意思によって真偽の判断が決まるといったようなことは考えていません。
例えばそのブロックチェーンによる真偽チェックの結果は1つのデータソースにすぎないのであり、他の方法でも真偽をチェックして、その結果を組み合わせて、最終的に真偽を判断するという方法もあります。
私もまあそうだろうなと思います。投票する読み手の人が、「この記事には嘘がない、信頼できる」という判断を毎回正しく行っていると仮定するのは無理があります。
正しいと判断するには、その記事が参照している出典から調べる必要があったり、他の情報源を自分で探して照合しなくてはいけません。そこまでする人はそうそういないと思います。なので、大抵は「この記事の文章は賢そうだから正しいだろう」とか、もっとありがちなのは「○○さんの記事だから投票しよう」という感じで判断されているでしょう。
ALISの場合、読み手の信頼性も格付けされるので、物知りな人(=嘘の情報に投票しない人)の影響力が強まってくることでこの問題を回避しようとしています。
ですが、そもそも正しい記事の評価が高くなるわけではなく、ただ単に面白い記事とか、書き手にコミュ力があるので票を集めちゃう記事の評価も高くなるので、信頼性の高い読み手なら記事の真偽を正しく判断できるとは限らないわけです。
さらにALISもSteemitも、トークンの保有量によって評価に及ぼす影響力を強めることができるので、人海戦術だけでフェイクニュースの判断や信頼のある記事を見つけ出すということは仕組み的に無理でしょう。
最終的にはデータ分析が肝
人海戦術の結果は一つのデータ(分析対象)でしかなく、その他のデータと合わせて、総合的に判断する必要があるということです。
例えばそのニュースの真偽を主張しているバリデーターの過去の行動の分析や評価範囲についてグラフ分析等を行うことで、また、その記事と発言者の利害や知識量などの関係をチェックして、「この人はこのニュースソースに対して悪意を持っている可能性があるクラスタだから評価の重みを下げる」といったルールベースや機械学習的アプローチをすることができます。こういった判定には、ブロックチェーンよりも、マシーンラーニングのアプローチの方が適していると思います。このようにしてブロックチェーンとマシンラーニングの組み合わせといった複数の手段で真偽を判断する仕組みも考えられます。
この場合、ブロックチェーンを使った真偽の結果は、いわば、「一つのタグ」のようなもので、それらを組み合わせどう解釈するかまた別のエンジンが必要になってくると思いますが。
コンピュータを使ったフェイクニュースの真偽判定や記事の信頼性評価というのは、もう何年も研究されてきた分野です。投票とトークン配付のアルゴリズムだけでそれが解決できるなら、研究者が何年も取り組んでいませんし、データアナリストも不要なわけです。
Steemitはイニシアティブをとった一部の人だけが大きくトークンを稼ぐという、他のインターネットメディアでもありがちな状態になっていますし、記事が嘘でないか否かとその記事の評価は関係がないようにみえます。
ALISもクローズドβが始まって1週間が経ちましたが、人気記事に挙がっている記事が信頼性の高い情報か…といわれるとそんなことはないですよね。信頼性より、単純な面白さや観点の良さ、文章を真面目に書いているかどうか…などが評価されているようにみえます。
ALISには追加の技術が必要
Steemitの目指すところは私は知らないのですが、ALISについては「信頼性の可視化」を目標に掲げているからには、記事の内容まで踏み込んだマシーンラーニングやデータ分析、統計処理などの手法(すべて統計処理ですが)がどうしても必要になってくると思います。
いまはアプリ開発者が足りていない感じですが、データ分析や機械学習に長けた人を呼び込むことも大事かなと思います。
以上、実はALISのホワイトペーパーにあるアルゴリズムだけではうまくいかないだろうと私は思っています、というお話でした。