NHKスペシャル「AIに聞いてみた」の問題点
www.nhk.or.jp
マツコデラックス司会のNHKスペシャル「AIに聞いてみた どうすんのよニッポン!?」の問題点についてまとめます。(多分誰かが書くとは思いますが→書いている方がいたので追記)
www.mm-lab.jp
大まかな問題点は3つ。*1
①そもそもAIなのか?
②解析データに偏りがあるのでは?
③相関関係と因果関係についての説明が不十分
目次
①そもそもAIなのか?
社会問題解決型AIと銘打っていますが、やっていることはビッグデータ解析のようです。
であれば番組のAIはAIと呼べないのではという疑問があります。
ただし、AIといっても2種類あるようです。
人工知能学会の説明によれば、人間の知能を再現する強いAIと、知能の一部を再現する弱いAIの2つです。
一般的に想像するAIは映画や漫画でおなじみの自律するAI(強いAI)でしょう。
今回のAIはそちらではなく、限定的な「弱いAI」と考えれば、AIと呼ぶことは正しいと言えます。
なお、囲碁や将棋で名人を負かしたのも「弱いAI」に該当します。
さらに言えば、データを学習させる際に、機械学習やディープラーニングなどAIに関する技術を使っていますから、「ビッグデータ解析用のAI」と言ったほうが正確かもしれません。
②結果に偏りがあるのでは?
使用した統計データやプログラムの仕様により、結果が偏ったものになっている可能性があります。
データの問題
番組ホームページによれば、学習させたデータは700万に及びます。*2
数が多いのはよいことですが、それとは別に問題があります。
学習させたデータを選定したのは人間です。
そのため、どうしてもそこに選んだ人間の意思が反映されてしまい、偏った結果になる可能性があります。
ただし今後データを追加する予定はあるそうなので、ある程度は改善されるかもしれません。
それともう一つ、これはどうしようもない問題ですが、統計を取ってないデータは入っていません。
もし、ある社会問題に未知のデータが関わっていた場合、正しい関連性を見逃す恐れはあります。
プログラムの問題
AIプログラムはあまり詳しくないのですが、人が作ったものである以上、データの処理方法に製作者の意思が入ります。
統計データが信頼できても、処理の際にバイアスが入ってしまえば正しい出力にならない可能性があります。
本当に公共政策に利用する場合、ソースコードを公開し、専門家に検証してもらうのも一考でしょう。
それとは別に、ディープラーニングなどの技術には、プログラム作成者にすら処理過程が分からなくなるブラックボックス性があります。
そうなると出力された結果が本当に正しいのか誰にも分かりません。
ただし、処理過程が分かるような処理を入れていれば、ある程度は検証できると思います。
ソースコードが公開されてないので何とも言えませんが。*3
③相関関係と因果関係についての説明が不十分
番組の最大の問題点はこれでしょう。
番組中でも番組ホームページでも、「このAIは因果関係を提示しない」と明言しています。
AIが示すのは相関関係であって、因果関係ではありません。
相関関係と因果関係は同じものではありません。
相関関係はある2つの物事に関係があることを示します。
例:殺人件数が減少した年に、高齢化率が上昇した
これだけ見ると、「殺人事件が減ったので、高齢化率が上昇した」と因果関係を考えがちです。
しかしこれは逆に「高齢化率が上昇したので、殺人事件が減った」とも考えられます。
また、互いの出来事は無関係で、「監視カメラが増えたので殺人事件が減った」と「少子化なので高齢化率が上昇した」が複合していただけかもしれません。
つまり、相関関係があるからと言って、因果関係があるとは限らないのです。
ところが、番組内ではそのあたりの説明が不十分だったように思えます。
相関関係とはどういうものか、ということを一度説明しておくべきではなかったでしょうか。
(ただし、合間合間に「他の要因があるかもしれない」などとは言っていましたし、ホームページでは、「明らかに相関のないものがつながることもあります。」と書いてはあります)
おそらく、相関関係についての説明がややこしいため避けたのでしょうが、この前のNHKEテレ「オイコノミア」では、ちゃんと説明してたことを考えると、納得できない面があります。
とはいえ、ホームページには
AIは、残念ながら因果関係は提示してくれません。このネットワーク構造を人間が読み解き議論することで、社会問題の背景を考え、解決の糸口を探ろうというのが番組の趣旨です。番組で紹介した"AIの提言"は、このような形で、AIが出してきた分析結果を人間が読み解き平易な言葉で表したものです。
とあります。
データ処理によって出力された関係性を議論・考察していこう、というのが趣旨のようですから、相関と因果の誤謬はとりあえず無視しているのかもしれません。
それでも教授陣には説明していただきたかったですが。
感想
現時点でいろいろな問題が指摘できますが、個人的には番組のアプローチは一定の意味があると思います。
社会問題は様々な要因が複雑に絡み合っており、視野の限られる人間では原因が何かを突き止めることが難しいです。
プログラムが総当たりすることによって、これまで想像できなかった関連性が見つかれば、新たな解決策が生まれるかもしれません。
もちろん、無関係な関連性に振り回されることもありますし、過信は禁物です。
しかし、人間が完璧でない以上、AIプログラムの無駄もある程度許容してもいいと思います。
暗中模索の中、打てる手は多いほうがいいでしょう。
【C#】fizzbuzz
using System; class Program { public static void Main() { for (int i = 1; i < 100; i++) { if (i % 3 == 0 && i % 5 == 0) { Console.WriteLine("fizzbuzz"); } else if (i % 3 == 0) { Console.WriteLine("fizz"); } else if (i % 5 == 0) { Console.WriteLine("buzz"); } else Console.WriteLine(i); } } }
paiza.ioのを乗っけときます。
【javascript】fizzbuzz
for(i=1;i<100;i++) { if(i%3===0 && i%5===0){console.log("fizzbuzz");} else if(i%3===0){console.log("fizz");} else if(i%5===0){console.log("buzz");} else console.log(i); }
出力結果(ページ内でスクリプト実行してます)
電撃小説大賞の応募数は本当に激増したのだろうか?
第24回電撃小説大賞の応募数がぶっ飛んでると応募者の間で話題になっている。
今回の電撃大賞の倍率がおかしい。応募総数9000作ってどういうことだってばよ。
— カイナは日曜東へ-23b (@WalkingDreamer) 2017年4月10日
※例年4000~5000作、多くて7000作程度 pic.twitter.com/iAsEHJ2ysR
今回の電撃大賞、応募総数がすげーことになってるかも。
— 白野巨人 (@Shirono_kyozin) 2017年4月10日
オレがアップロードした時点で作品番号が9000に届きそうだった…… えー
Web応募の受付番号が9000番台*1となっており、前回の4878作品*2に比べて倍になっている。
一体何があったのか?
なろうカクヨム流入説とシステムの仕様説の2つの説を考察する。
なろうカクヨム流入説
今回の電撃大賞の倍率がおかしい
— 三栖千明(ちあき) (@chiaki201612) 2017年4月10日
応募総数9000作ってどういうこと…
例年4000~5000作、多くて7000作程度だと思っ…あ、そっかなろうの1次とカクヨムの読者選考が終わったのか…
郵送でも送っている人がいるだろうし…
これから6作くらいまで絞ると思うと、うん、おそろしいね
電撃大賞応募した人達皆揃って『なんで応募総数9000もあるねん!』って言ってますが、答えは簡単です。
— 黒幕横丁/鯨幕村中 (@kuromaku125) 2017年4月10日
カクヨムの読者選考となろうのネット小説大賞の一次が発表されちゃってるからです!
さらにいえば、今日郵便で滑り込み投稿した人もいるといるので、さらに増えます!!
2月末にカクヨム、3月末になろうの一次選考が終わっている。
カクヨムは2415作品が、なろうは6667作品が落選している。
重複を無視すれば、落選者は9082人。
これらの人が電撃大賞に流れた可能性はありうるだろう。
規定枚数に収まらなかったり、とりあえず応募した人を除いても、落選者の半数4~5000人が流れれば9000番台も難しくはない。
ただ、この説には疑問がある。
なろう系(UGC)にいる人と、従来の新人賞に応募する人は被らないのではないか?
というのも両者では執筆のインセンティブが異なる。
なろう系の人は「読んでもらいたい」「承認されたい」が大きな動機だろう。
ところが従来の新人賞はそれができない。
たいていの新人賞では、評価が貰えるのは良くて一次選考終了後であり、大部分の人は何の評価もされない。*3
ついでの応募とはいえ、反応がほぼ皆無の新人賞に5000人も流れるだろうか?
もちろん作家を目指して、なろう系と従来新人賞の両面作戦を取っている人もいるだろうが、少数派のように思える。
システムの仕様説
以下のブログで興味深い指摘をしている。
rakuda-library.seesaa.net
果たして今年の応募数が8,000なのか、ウェブ応募開始時からのカウント(去年の数を含む)なのか、詳しいことは今の段階では不明です。
冒頭のツイートを見ればわかるとおり、Web応募システムは応募した作品に作品番号を振っている。
その番号が去年のWeb応募開始時からの累計になっている可能性があるという指摘だ。
応募用のマイページは次回までに応募すれば維持することができる。
当然、応募記録も残されているだろう。
ということは、過去の応募作品に割り振られた番号も維持されているはずだ。
作品番号がリセットされるのは考えにくい。*4
したがって、今回の作品番号には、前回のWeb応募分(4000ぐらい?)の作品数が加算されていると見ていいだろう。
そもそも作品番号=応募作品数とは言ってないし。
実際は前年度と変わらない応募数なのではないだろうか。
おわりに
個人的にはシステムの仕様説を推したい。
どちらの説が正しいかは分からないが、いずれにせよ、一次選考終了後に公式で応募作品数は発表されるはずなので、それまで待とう。
追記
dengekionline.com
小説は5,088作品だそうなので、やはりIDをリセットしていなかったようだ。
結局は5000分の8ぐらいなので大して変わらないが・・・。