気がつけば、もう一ヶ月ほど前なんですが、1→10 の社内で勉強会をやりました。
題して、『コミュニケーションロボットへの言語学の応用』。
詳しい内容は、ぜひ、スライドシェアのスライドを見ていただけたらと思っています。
さて、今回は、このスライドに掲載されていない、勉強会での質疑応答などの話をしたいなと思います。
※以下、少し技術的な内容ですが、参考になりましたら。
スピーカーは何者なの?
最近、うちの会社 1→10Robotics に、言語学の専門家が加入しました。その子が時間をかけて、スライドを作ってくれました。
僕の会社では、さまざなアプローチでロボットの体験づくり・会話体験づくりをしていますが、発表の中には新しい発見もあり、すでに取り入れられるものは取り入れようとしています。
すでに実践している手法も,言語学の知見から裏付けされると心強く感じたりもしました。
フィラーは実装できるか?
フィラーの実装は、僕たちもプロトタイプを作ったりしていろいろと方法を模索しているところです。ぶっちゃけ、実験段階では効果につながるものもすでにあったりします。実装可能です。
ただ、個人的には、テキストでできることには限界があるので、結局はテキスト以外の部分が重要ですよね。例えば身振り手振りとか、センシング連携とか。うーん、やっぱりマルチモーダル的なアプローチっすかね。。
映画『メッセージ』と、サピア=ウォーフの仮説
いやぁ、ここ。1→10の社内で盛り上がりましたね・・・!
サピア=ウォーフの仮説の話、熱いです・・・! 今度、そういった勉強会を開くかも・・・?、です。
フォリナートークとベイビートーク
資料ではフォリナートークの説明があります。これは、外国人に対してわかりやすく喋る、というアレです。
ただ、コミュニケーションロボットの開発においては、「外国人」というよりも「子ども」に向けて話しているような気分になることが多いです。そういう研究もあり、それを「ベイビートーク」と言うらしいです。なるほどー。
ターンテイキングの話
会話において、ターンの概念はとても重要で、このターン制御をどう実装するかというのが難しかったりします。そのあたり、言語学では、
- 日本人はターンをとらないと言われている
- 日本語はあいづちがめちゃくちゃ多いと言われている
- ヨーロッパ言語はうなづきが少ない
言語学とコンピュータと、映像解析
巨人 Google がやっている会話分析の方法ってご存知でしょうか? それは、映画やYouTube動画を1コマ1コマ画像分析して、さらに会話文と比較することで、文章と文脈を機械学習させるような手法です。マルチモーダルに向けて、凄い研究やってますね・・・。
これは正直に脅威です。
そこで質問したところ、最近はコンピュータの性能の発達もあって、言語学も映像を扱うケースが増えているとのことでした。映像に発話内容を乗っけて、みたいなことです。そういう取り組みを専門にしている言語学者もいるんだとか。映像とコーパスの研究する人もいるそうです。
言語学は食べていけるの?
曰く、食べていけてる人と、そうでない人がいる、とのこと。
まぁ、でもそりゃそうだよね。日本は少子化・人口減少が進むので、研究予算もどんどん厳しくなっていくからなぁ・・・。
なので、ロボットに何とかしてもらいましょう!