こんにちは。 イギリスかぶれエンジニアの保坂&林田です。 最近は寒い日が続くなか、たまに暖かい日があったりして気温が安定しませんが、皆様元気にお過ごしでしょうか? 先日イギリスのケンブリッジで開催されたデータマイニングに関するカンファレンスであるWSDM 2017に行ってきました。
2回に分けてカンファレンスの報告をしたいと思います。 今回第1回目はカンファレンスのレポート(学会編、食事編、観光編)と面白かった論文の紹介をしたいと思います。 次回はさらに面白かった論文について幾つか紹介できればと思います。
私(保坂)はまだ入社半年ちょっとしか経っていないのですが、こういったカンファレンスにもホイホイ行かせてくれるのが RCO の良いところだと思います(こちらやこちらのコピペ)。 カンファレンスでの話題をしっかりと吸収し、ブログや社内勉強会、実務にフィードバックをしていかなければならないな、と強く感じる今日このごろです。
WSDM 2017は2017/2/6 - 2017/2/10にケンブリッジで開催されました。
今年は579人が参加していたとのことです。 地域別の参加者の分布はヨーロッパが半数近く、次にアメリカ、アジアと言った感じでした。 国別ではアメリカ、イギリス、日本、中国、韓国に参加者が多かったようです。 また、企業人が半分以上を占めており、応用に重点が置かれたカンファレンスであることが伺えます。
論文投稿数については386 → 502と30%程度増加しており、この分野の研究がますます活発になってきていることが伺えます。 (NIPSの過熱ぶりとは比べ物になりませんが。。。)
アメリカの投稿数が多いのは頷けるのですが、中国の論文投稿数が全体の1/4を占めていて驚きました。 あくまでもこの数字は投稿数であって通過論文数ではありませんが、研究の活発さが伺えます。 日本からの投稿数は全体の3%程度でした。
発表は以下の9個のセッションに分かれていました。
いずれも同じ会場で行われるためすべての発表を聞くことができました。 ネットワーク(特にEgo network)や自然言語、場所や時間などのコンテキスト情報などの新しい情報を活用した研究が多かったように感じました。 Deep Learningを使った研究も多く見られました。
KeynoteではAndrew Blake教授によるアラン・チューリング研究所におけるデータサイエンスへの取り組み、Nick Craswell氏によるMicrosoftのBingのアルゴリズムの進化の歴史や、Ralf Herbrich氏によるAmazonでの機械学習活用事例、Anjali Joshi女史によるGoogleでのヘルスケアに関する取り組み、に関する講演などがありました。
初日には3セッションほどチュートリアルもあり、私(保坂)はSocial Media Anomaly Detection: Challenges and Solutionsというセッションに参加したのですが、素晴らしいセッションでした。 無知の私にもわかるような丁寧な説明があり、大変ためになりました。ホワイトボードを使って数式の説明もしてくれました。
合わせて開催されたWSDM Cup 2017の結果発表もありました。
今回のWSDM CupではVandalism Detection(荒らし検知)とTriple Scoring(ナレッジの有用性スコアリング)の2つのタスクがありました。 1つめのタスクでは、Wikidataで記事が編集されたときにそれが荒らしであるかどうかの検知精度を競います。 1位はAustral 大学のチームでした。4位にYahoo Japanのチームも入っていました。
2つめのタスクでは、Knowledge baseに大量に格納された(thingA relates thingB)という関係(三つ組、triple)の有用性を推定するモデルの精度を競います。 WSDM Cupの説明にあった例としては、ジョニー・デップは俳優を専門としているので、(Johnny_Depp profession Actor) というTripleは高いスコアを付けるべきだが、クェンティン・タランティーノは映画監督としてよく知られた人なので、(Quentin_Tarantino profession Actor) には低いスコアをつけるべきである、という感じです。
1位は中国科学院のチームでした。2位に奈良先端科学技術大学院大学と日本企業の合同チームも入っていました。 いずれのタスクでも日本のチームが上位に食い込んでいて、日本人としては少し嬉しくなりました。
ベストペーパーは、SVMlightの開発者であるThorsten Joachims教授が主著者である
でした。実際発表内容は非常に興味深い内容で、ベストペーパーも納得!と感じました(この論文については次回の記事で是非紹介したいと思います!) ベストペーパー発表の前日、荘厳なホールでのバンケットではベストペーパーにノミネートされた研究者の表彰式が行われました。
まずはイギリスの定番「fish-and-chips」。
とにかくボリュームがあります。
写真で伝わるか微妙ですが、本場のfish-and-chipsを食べたことのない人は、想像より3倍大きいと考えてください。
次にイギリスの伝統的朝食「English breakfast」。 ベーコン、ハッシュブラウン、ベークトビーンズ、卵、フルーツ、ヨーグルト、クロワッサン、マフィンなどが出てきます。 個人的には今回のイギリス出張で一番美味しかったです。
最後にケンブリッジ中心部に位置するパブ「THE EAGLE」。 Francis CrickとJames WatsonがDNA構造の発見を発表した場所として有名だそうです。 学会で知り合ったメーカー系の研究者、大学の研究者の方と一緒にランチをしました。
学会会場周辺には西洋風の立派な建築物が多く歴史を感じました。
下の写真はニュートンが重力を発見したと言われる「りんごの木」の末裔です。 ニュートンが学んだTrinity College(ケンブリッジ大学を構成するカレッジの一つ)の庭に植えられています。
最終日は飛行機の待ち時間に空港の近くを観光しました。 Uberで20分かけてWindsor城に行きました。壮大なお城(日本人がイメージする城というよりは宮殿)でした。
グラフG = (V, E) からk個のノード集合Wを選んだときに、Wから誘導される連結な部分グラフをk-graphletと呼びます。 graphletの分布はネットワークの局所的なトポロジー構造を特徴付ける重要な統計情報を提供し、たんぱく質の検出、生態ネットワークの比較、スパムの検出、ソーシャルネットワーク分析に応用されています。
graphletを全列挙することは計算コスト的に実現困難であるため、頻度推定を行うための手法がいくつか研究されています。その中でも代表的なアプローチが、
の2つです。
手法MCでは、状態をgraphletとし、ノードが1つだけ異なるgraphletは隣接していると考え、ランダムウォークを行います。シンプルでメモリ効率がよいアプローチですが、統計的に信頼出来る推定値をえるために必要なランダムウォークの回数が未知であるという問題点があります。
一方、手法CCでは、グラフのノードを一様な確率でk色に塗り分けます。そのあと、動的計画法を用いてk個のノードからなるカラフルな(すべてのノードの色が異なる)非誘導木の数を数えることによって、graphletの個数を推定します。CCの場合は、統計的に保証された予測値を計算できますが、メモリ効率が悪いという問題点があります。
この論文では、手法MCの混合時間(定常状態に近くなるまでに必要な時間)に対して以下のような考察をし、盲目的に手法MCを使うことに注意を与えていました。
また、以下のように手法CCの有効性を考察していました。
さらに数値実験にて、手法CCの有効性、手法MCの収束問題を実証し、両手法の計算リソースの比較を行っていました。
今回初めてgraphletというテーマを知りましたが、非常に興味深いテーマだと思います。 業務でもグラフ理論を用いたアプローチを使うことがありますが、この発表でえたアイデアをどこかに応用したいです。
ソーシャルネットワークや口コミサイトである商品やサービスに対してどう思うかが投稿されることがありますが、 投稿された文章に対して、
を認識する問題をAttitude Identificationと呼びます。
従来の方法では、一方のサブタスクにフォーカスした研究や、2つのサブタスクを順に解いていく方法が主流でした。 特に、Targetがわかった状態でPolarity classificationを行う研究が主流でした。
この論文と似た研究としては、Memory Networkを用いて2つのサブタスクを同時に解く研究がありましたが、精度面ではSVMを用いる方法を超えられていませんでした。
著者らはサブタスクの間の依存関係を踏まえて、Attitude Identificationの問題をまとめて解くNeural Network(AttNet)を新たに提案しています。
著者らは3つのデータセットを用いて実験を行っており、Target detectionとPolarity classificationのいずれのサブタスクにおいても従来手法を超える精度が出ています。
さらに、モデルの振る舞いを理解するために、AttNetとMemory network(Memnet)の間でAttention weightの比較を行っています。
AttNetではTarget detectionやPolarity classificationにおいて適切な単語に注目できているため予測がうまく行っているが、Memnetでは重要と思われる単語に注目できていないために、誤判別してしまっていることがわかります。
RCOアドテク部ではfish-and-chipsを食べ続けても胃もたれしないエンジニアも募集しています。