最近流行の深層学習(人工知能)を用いた研究で、コンピュータサイエンス学部の学生の論文「分類手法に応じた他者を怒らせる問題発言抽出パターンの特徴に関する分析」が、2018年2月15日発行の情報処理学会論文誌(ジャーナル)59巻2号pp.429-441に掲載されました。
論文誌(ジャーナル)は、査読のない研究会論文や、採録規準の低い一部の国際会議論文とは一線を画し、専門家の厳密な査読に基づいて採録の判断が行われるものです。本学もそうですが、一般的なほとんどの大学では論文誌(ジャーナル)への論文の掲載が、博士号取得の条件の一つであり、かつ最難関の条件になっていると思います。学部生でもこの規準まで到達できるというのは、本学のコンピュータサイエンス学部ならではの特徴だと思います。
今回の論文は、筆頭著者である村山大騎君と、指導教員である宇田隆哉講師の共著となっています。論文掲載時、村山君はソフトバンク勤務となっていますが、研究は学部4年次に行いました。
この研究により何ができるようになるか簡単に説明します。
みなさんもTwitterなどのSNS(ソーシャル・ネットワーキング・サービス)を利用していると思います。そこで発言をする際、十分に注意をしていても「炎上」して非難を浴びてしまうこともあります。セクハラやパワハラにもいえることですが、発言者は「そんなつもりはない」と思っていても、相手が不快に感じる可能性はあり、不特定多数が相手となるSNSではその可能性は高くなります。そんなときに、「あなたが投稿しようとしている内容は、高確率で非難されそうですが本当に投稿しますか?」と自動的に警告してくれたらとても便利だと思います。それができるようになるのがこの研究です。
しくみを説明します。
まず、Twitterで、過去に「炎上」した発言を大量に集めます。
誰かが怒りを感じた投稿(対象は英文のみ)には、#angryや#fuch、#bitchといったハッシュタグが付けられていることが多いのです。また、投稿がリプライ形式になっている場合、その元となる投稿がどれであるか分かります。よって、これらのハッシュタグが付けられている投稿のうち、リプライ形式になっているもののみを自動で収集し、その元となる投稿を未来に「炎上」することとなる投稿のサンプルとして使用しました。
深層学習を使う際には、正しく分類された大量のデータが必要となりますが、今回の収集方法を考案したのは村山君です。宇田講師は、当初、Twitterの投稿から頑張って手動でデータを集めようとしましたが、村山君が良い方法を思いつきました。IT分野に強い、コンピュータサイエンス学部の学生ならではの発想といえます。
次に、集めたサンプルを、深層学習を使って学習させて(正確にはその前にコーパスを使って文を分解する処理があります)、それでうまく分類できれば大成功なのですが、世の中はそんなに甘くありません。
まず、流行の深層学習の中でも特に注目されているCNN(畳み込みニューラルネットワーク)を使って分類してみました。
結果は79%(F値)。
分類結果は「炎上する」または「炎上しない」の二択ですので、当てずっぽうで答えても平均50%は当たります。つまり、微妙な結果ということです。
次に、統計的な手法であるMNB(Multinomial Naive Bayes)でも試してみました。
結果は76%(F値)。非常に残念です。
念のため、深層学習が流行する前によく使われていた、機械学習のSVM(Support Vector Machine)でも試してみました。
結果は66%(F値)。絶望的です。
……。
ここで終わらないのがコンピュータサイエンス学部です。宇田講師は、誤分類された投稿内容をよく調べ、あることに気づきました。ここは一番いいところなので(長くなるので)割愛しておきます。詳しくは論文をご覧ください。
そして、92%(F値)で“未来”に「炎上」“した”投稿を分類することに成功しました。つまり、この手法を使って、これから投稿しようとしている内容を調べれば、その発言が高確率で「炎上」するかどうか事前にわかることになります。そうすれば、不要ないさかいが防げて、世界が平和になりますよね。
コンピュータサイエンス学部の研究は、オープンキャンパスで展示されていますので、是非ご来場ください!