AD-TECH
Lab BLOG
アドテクLab ブログ

NEWS
  • リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。

言語処理学会第23回年次大会(NLP2017)に参加してきました。

2017/04/12yokoi

このエントリーをはてなブックマークに追加

こんにちは、ビュッフェ形式では全種類食べないと気がすまないプランナーのよこいです。

本日は3/13~3/17に筑波大学で開催された『言語処理学会第23回年次大会』(以下NLP) を聴講してきたため、そちらの雑感などを書きたいと思います。私はエンジニアやリサーチャーではないのですが、学生時代の研究テーマに関連していることもあり、言語処理は非常に興味を持っています。

「とにかく行きたい!最近の日本の言語処理の動向を仕入れて、言語処理を用いたプロジェクトを立ち上げたい!」という思いを伝えれば、こういったカンファレンスにもホイホイ行かせてくれるのがRCOの良いところだと思います。

(コピペ元: WSDM2017, AAAI-17, ICDM2016)

筑波大学

今回は、NLPに参加して学んだ最近の国内言語処理関連研究の動向と、研究発表を聞いて私が感じたことをここで紹介させていただきたいと思います。

NLPについて

NLPは3日間の本会議と、チュートリアル、ワークショップそれぞれ1日からなり、合わせて月〜金の1週間かけて行われる学会です。査読はないのですがレベルの高い発表も毎年多く見られる印象があります。

言語処理といってもテーマは多岐にわたり、言語学寄りの研究から情報科学・工学寄りのもの、基礎研究から要約・機械翻訳・自動生成など実用的なものまでさまざまです。

最近は研究部門だけでなく、開発部門の企業の参加も目立つようになってきました。スポンサーの数も毎年増えており、数年前は両手で数えられるくらいだったスポンサーは今や公式ページによると約50社もの企業が参加しています。

※ なお、弊社RCOも今年からプラチナスポンサーとして参画しています。リクルートの中でRCOは何をやっているのか、会議参加の学生・企業の方に少しでも伝わればと思います。

※ 余談ですが、毎年開催場所は異なるため(ここ数年だと豊橋、広島、名古屋、札幌、京都、仙台、そして今年は筑波)、毎年参加するだけで日本各地(とその大学)を訪問して回ることができてしまいます。

発表のトレンド

NLPに参加して

Neural Networkの強いトレンド

去年は参加していないので2年前以前との比較となってしまいますが、言語処理においても「機械学習手法としてNeural Networkを用い、これまでよりも良い精度が出た」という発表が多かった印象です。

Deep learningを始めとしてLSTM, RNN, CNNなどがキーワードとしてたびたび出ており、もうしばらくこの流れは続くように思えます。一方で実用観点だと、クライアントに対して素性がどのくらい効くかを説明しにくい手法ゆえに使い方は考えていかないと、と感じています。

実用を意識した研究テーマが多い一方で、データや評価手法に苦労している印象

説明文の自動生成など、そのままサービス化できるような実用的な研究テーマは以前に比べ多い印象を受けました。一方で、データや評価手法、特に評価手法に関しては実用性とはあまりマッチできていない課題があるような気がしています。

学術機関における金銭的な課題なのかはわかりませんが、どうしてもバイアスがかかりそうな評価、もしくは実用性の評価にはあまりマッチしていない評価になっていることが多く、実用を意識した研究が前に進んでいくためには、産学連携による評価の再考などを我々企業側から考えていくべきではないか、と個人的に思っています。

その他

※ 産業技術総合研究所の後藤氏の招待講演。

音楽情報処理と言語処理の関連性に関する話と、研究成果を実際に使える形にすることの重要性についての話は非常に興味深く、勉強になりました。

エンジニア・分析観点で興味深いトピック

弊社からは私の他にエンジニアも一名参加していたため、どのようなトピックが興味深かったかをヒアリングし、こちらに載せたいと思います。

  • 招待論文:自動要約における誤り分析の枠組み
    • 日本語自動要約のハマりどころやエラー分析などが体系的にまとめられており、広告TD自動生成など要約系タスクに取り組む前のpre-analysisとして読むべき一稿。
  • ニューラル言語モデルと構文解析
    • 翻訳タスクにおいて何から何までニューラルに頼らず、構文解析の枠組みと融合させる流れを感じた。
  • 固有表現(辞書アプローチで捉えるのが難しい固有名詞など)
    • 自社メディアのテキスト分析をしていると固有表現で躓くことも多い関係で、しっかりアンテナ張っておくべき分野だと思う。
  • 生成系
    • 花形な印象で夢は広がるが、良くできたデータのデモありきなイメージで、不自然さを許容できないビジネス応用にはまだ距離を感じる。

終わりに

言語処理の応用・実用で興味深い発表が多く、言語という資源から得られる情報の広さ(の可能性)を再認識できた会でした。ぜひともこれらの知見を振り返って弊社メディアやWebマーケティングの発展に活かしていけるようなプロジェクトを生み出していきたいと思います!ご期待ください!

※ 来年の言語処理学会年次大会は岡山で開催されるとのことです!きびだんご、デミかつ丼、ままかり寿司など、今から岡山の調査を始めたいと思います。

つくばの有名なパティスリー

広告

RCOアドテク部では言語処理(に限らず)大量にあるデータを生かしてビジネスを生み出していきたいITプランナーやエンジニアを募集しています。

採用ページ