AD-TECH
Lab BLOG
アドテクLab ブログ

NEWS
  • リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。

WSDM2017で体感したデータマイニング最前線【前編】

2017/03/01kenjih hosakak

このエントリーをはてなブックマークに追加

こんにちは。 イギリスかぶれエンジニアの保坂&林田です。 最近は寒い日が続くなか、たまに暖かい日があったりして気温が安定しませんが、皆様元気にお過ごしでしょうか? 先日イギリスのケンブリッジで開催されたデータマイニングに関するカンファレンスであるWSDM 2017に行ってきました。

WSDM 2017 Entrance

2回に分けてカンファレンスの報告をしたいと思います。 今回第1回目はカンファレンスのレポート(学会編、食事編、観光編)と面白かった論文の紹介をしたいと思います。 次回はさらに面白かった論文について幾つか紹介できればと思います。

私(保坂)はまだ入社半年ちょっとしか経っていないのですが、こういったカンファレンスにもホイホイ行かせてくれるのが RCO の良いところだと思います(こちらこちらのコピペ)。 カンファレンスでの話題をしっかりと吸収し、ブログや社内勉強会、実務にフィードバックをしていかなければならないな、と強く感じる今日このごろです。

学会編

WSDM 2017は2017/2/6 - 2017/2/10にケンブリッジで開催されました。

今年は579人が参加していたとのことです。 地域別の参加者の分布はヨーロッパが半数近く、次にアメリカ、アジアと言った感じでした。 国別ではアメリカ、イギリス、日本、中国、韓国に参加者が多かったようです。 また、企業人が半分以上を占めており、応用に重点が置かれたカンファレンスであることが伺えます。

attendees

論文投稿数については386 → 502と30%程度増加しており、この分野の研究がますます活発になってきていることが伺えます。 (NIPSの過熱ぶりとは比べ物になりませんが。。。)

アメリカの投稿数が多いのは頷けるのですが、中国の論文投稿数が全体の1/4を占めていて驚きました。 あくまでもこの数字は投稿数であって通過論文数ではありませんが、研究の活発さが伺えます。 日本からの投稿数は全体の3%程度でした。

submissions

発表は以下の9個のセッションに分かれていました。

  • Social and Information Networks
  • Information Retrieval
  • Time, Space and Crowds
  • Text and Knowledge Mining
  • Networks and Recommendation
  • Social Networks and Graphs
  • Ads, Time, Space, A/B Testing
  • ML, Embeddings and Tensors
  • New Search Models

いずれも同じ会場で行われるためすべての発表を聞くことができました。 ネットワーク(特にEgo network)や自然言語、場所や時間などのコンテキスト情報などの新しい情報を活用した研究が多かったように感じました。 Deep Learningを使った研究も多く見られました。

presen1 presen2 presen3 presen4

KeynoteではAndrew Blake教授によるアラン・チューリング研究所におけるデータサイエンスへの取り組み、Nick Craswell氏によるMicrosoftのBingのアルゴリズムの進化の歴史や、Ralf Herbrich氏によるAmazonでの機械学習活用事例、Anjali Joshi女史によるGoogleでのヘルスケアに関する取り組み、に関する講演などがありました。

keynote

初日には3セッションほどチュートリアルもあり、私(保坂)はSocial Media Anomaly Detection: Challenges and Solutionsというセッションに参加したのですが、素晴らしいセッションでした。 無知の私にもわかるような丁寧な説明があり、大変ためになりました。ホワイトボードを使って数式の説明もしてくれました。

tutorial session tutorial whiteboard

合わせて開催されたWSDM Cup 2017の結果発表もありました。

wsdm cup first slide

今回のWSDM CupではVandalism Detection(荒らし検知)とTriple Scoring(ナレッジの有用性スコアリング)の2つのタスクがありました。 1つめのタスクでは、Wikidataで記事が編集されたときにそれが荒らしであるかどうかの検知精度を競います。 1位はAustral 大学のチームでした。4位にYahoo Japanのチームも入っていました。

wsdm cup task1 overview wsdm cup task1 result

2つめのタスクでは、Knowledge baseに大量に格納された(thingA relates thingB)という関係(三つ組、triple)の有用性を推定するモデルの精度を競います。 WSDM Cupの説明にあった例としては、ジョニー・デップは俳優を専門としているので、(Johnny_Depp profession Actor) というTripleは高いスコアを付けるべきだが、クェンティン・タランティーノは映画監督としてよく知られた人なので、(Quentin_Tarantino profession Actor) には低いスコアをつけるべきである、という感じです。

wsdm cup task2 overview

1位は中国科学院のチームでした。2位に奈良先端科学技術大学院大学と日本企業の合同チームも入っていました。 いずれのタスクでも日本のチームが上位に食い込んでいて、日本人としては少し嬉しくなりました。

wsdm cup task2 result

ベストペーパーは、SVMlightの開発者であるThorsten Joachims教授が主著者である

Thorsten Joachims, Adith Swaminathan, and Tobias Schnabel. 2017. Unbiased Learning-to-Rank with Biased Feedback. In Proceedings of the Tenth ACM International Conference on Web Search and Data Mining (WSDM ‘17). ACM, New York, NY, USA, 781-789.

でした。実際発表内容は非常に興味深い内容で、ベストペーパーも納得!と感じました(この論文については次回の記事で是非紹介したいと思います!) ベストペーパー発表の前日、荘厳なホールでのバンケットではベストペーパーにノミネートされた研究者の表彰式が行われました。

banquet
best paper winners

食事編

まずはイギリスの定番「fish-and-chips」。
とにかくボリュームがあります。 写真で伝わるか微妙ですが、本場のfish-and-chipsを食べたことのない人は、想像より3倍大きいと考えてください。

fish and chips

次にイギリスの伝統的朝食「English breakfast」。 ベーコン、ハッシュブラウン、ベークトビーンズ、卵、フルーツ、ヨーグルト、クロワッサン、マフィンなどが出てきます。 個人的には今回のイギリス出張で一番美味しかったです。

breakfast fruits

最後にケンブリッジ中心部に位置するパブ「THE EAGLE」。 Francis CrickとJames WatsonがDNA構造の発見を発表した場所として有名だそうです。 学会で知り合ったメーカー系の研究者、大学の研究者の方と一緒にランチをしました。

eagle_pub chicken_burger

観光編

学会会場周辺には西洋風の立派な建築物が多く歴史を感じました。

kings_college cambridge_city college_facade

下の写真はニュートンが重力を発見したと言われる「りんごの木」の末裔です。 ニュートンが学んだTrinity College(ケンブリッジ大学を構成するカレッジの一つ)の庭に植えられています。

newton_tree

最終日は飛行機の待ち時間に空港の近くを観光しました。 Uberで20分かけてWindsor城に行きました。壮大なお城(日本人がイメージする城というよりは宮殿)でした。

windsor windsor_wide

面白かった論文紹介:Counting Graphlets: Space vs Time

グラフG = (V, E) からk個のノード集合Wを選んだときに、Wから誘導される連結な部分グラフをk-graphletと呼びます。 graphletの分布はネットワークの局所的なトポロジー構造を特徴付ける重要な統計情報を提供し、たんぱく質の検出、生態ネットワークの比較、スパムの検出、ソーシャルネットワーク分析に応用されています。

graphletを全列挙することは計算コスト的に実現困難であるため、頻度推定を行うための手法がいくつか研究されています。その中でも代表的なアプローチが、

  1. Markov Chain Monte Carlo (MC)
  2. Color Coding (CC)

の2つです。

手法MCでは、状態をgraphletとし、ノードが1つだけ異なるgraphletは隣接していると考え、ランダムウォークを行います。シンプルでメモリ効率がよいアプローチですが、統計的に信頼出来る推定値をえるために必要なランダムウォークの回数が未知であるという問題点があります。

一方、手法CCでは、グラフのノードを一様な確率でk色に塗り分けます。そのあと、動的計画法を用いてk個のノードからなるカラフルな(すべてのノードの色が異なる)非誘導木の数を数えることによって、graphletの個数を推定します。CCの場合は、統計的に保証された予測値を計算できますが、メモリ効率が悪いという問題点があります。

この論文では、手法MCの混合時間(定常状態に近くなるまでに必要な時間)に対して以下のような考察をし、盲目的に手法MCを使うことに注意を与えていました。

  • 一般的な中大規模なグラフにおいて統計的に信頼性のある予測値を計算するのは困難である
  • グラフに特別な仮定(ノードの最大次数が小さいこと)をおけば中規模なグラフにおいて意味のある値を計算できる

また、以下のように手法CCの有効性を考察していました。

  • 手法CCのサンプリングではkの値がボトルネックとなる
  • 構築フェーズの空間計算量とサンプリングフェーズの時間計算量をトレードオフするようなモデルを考えることで、大きなkに対しても計算可能となる

さらに数値実験にて、手法CCの有効性、手法MCの収束問題を実証し、両手法の計算リソースの比較を行っていました。

graphlet experiment

Figure 1: Distribution of graphlets of size 6. (論文より引用)

今回初めてgraphletというテーマを知りましたが、非常に興味深いテーマだと思います。 業務でもグラフ理論を用いたアプローチを使うことがありますが、この発表でえたアイデアをどこかに応用したいです。

面白かった論文紹介:Deep Memory Networks for Attitude Identification

ソーシャルネットワークや口コミサイトである商品やサービスに対してどう思うかが投稿されることがありますが、 投稿された文章に対して、

  • 何に関して言及しているのか(Target detection)
  • 指定した対象に対して良い感情/悪い感情を持っているか(Polarity classification)

を認識する問題をAttitude Identificationと呼びます。

従来の方法では、一方のサブタスクにフォーカスした研究や、2つのサブタスクを順に解いていく方法が主流でした。 特に、Targetがわかった状態でPolarity classificationを行う研究が主流でした。

  • SVMを用いる方法(state-of-the-art)
  • LSTMを用いる方法
  • gated recursive neural networkを用いる方法

この論文と似た研究としては、Memory Networkを用いて2つのサブタスクを同時に解く研究がありましたが、精度面ではSVMを用いる方法を超えられていませんでした。

著者らはサブタスクの間の依存関係を踏まえて、Attitude Identificationの問題をまとめて解くNeural Network(AttNet)を新たに提案しています。

attnet model diagram

Figure 2: Model diagram of AttNet. (論文より引用)

著者らは3つのデータセットを用いて実験を行っており、Target detectionとPolarity classificationのいずれのサブタスクにおいても従来手法を超える精度が出ています。

attnet TD result

Figure 3: Performance on target detection for -sep models. (論文より引用)

attnet PC result

Figure 4: Performance on polarity classification for -sep models. (論文より引用)

さらに、モデルの振る舞いを理解するために、AttNetとMemory network(Memnet)の間でAttention weightの比較を行っています。

attnet attention

Figure 5: Visualization of learned attention. Red patches highlighting the top half of the text indicate model’s attention weight in the target detection task, while green ones highlighting the bottom half show the polarity classification task. Darker colors indicate higher attentions. Truth: service+ means that the ground-truth sentiment towards service is positive, while Predict + given ambience gives the predicted positive sentiment given the query target ambience. (論文より引用)

AttNetではTarget detectionやPolarity classificationにおいて適切な単語に注目できているため予測がうまく行っているが、Memnetでは重要と思われる単語に注目できていないために、誤判別してしまっていることがわかります。

広告

RCOアドテク部ではfish-and-chipsを食べ続けても胃もたれしないエンジニアも募集しています。

採用ページ