AD-TECH
Lab BLOG
アドテクLab ブログ

NEWS
  • リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。

KDD2014 in NYCに参加してきました

2014/09/12TJO

このエントリーをはてなブックマークに追加

こんにちは、TJOです。もう2週間前の話になってしまいますが、初めてKDD2014に参加してきましたので簡単にそのご報告を。

IMG_2563 IMG_2564

IMG_2707

KDDはACMのデータマイニング関連の分科会であるSIGKDD (Special Interest Group on Knowledge Discovery and Data mining)の年次大会で、世界中からデータマイニング(ここでは機械学習やビッグデータ分析に関わる分野)の専門家が大学・企業問わず多数集まる国際カンファレンスです。今大会は参加者が2000名を超えたということで、データ分析分野では異例の巨大集会になったようです。

なお、今大会のテーマは”Data Science for Social Good”(社会貢献のためのデータサイエンス)というもので、医療関係のセッションが設けられていたのが印象的でした。Keynoteでも2番目のMSRのHorvitzによる講演や4番目のマウントサイナイ大のSchadtの講演では、実際に臨床医療の現場でどのように機械学習が活用されているかといった話題が出ていました。

IMG_2737

ちなみにこれは中日に行われたBloombergのCEO、Dan Doctoroff氏による基調講演の様子。この講演だけ普通にビジネスカンファレンスのような雰囲気だったのが印象的でした。

IMG_2734

個別の注目演題については個人ブログでうだうだ書きましたので、こちらでは全体を通した感想を。

昨年末のNIPS (Neural Information Processing Systems)にも僕は参加しているのですが、NIPSがアルゴリズムのみならず機械学習全般の数理的基礎に深く突っ込んだ発表が多かった一方で、KDDでは(ある意味事前に聞いていたように)やはり実装面でのポイントを踏まえた上でいかにして実際にシステム上で機能する枠組みとして仕立て上げるかという点にこだわった発表が多いと感じました。これは査読基準の

Submitted papers will be assessed based on their novelty, technical quality, potential impact, and clarity. For papers that rely heavily on empirical evaluations, the experimental methods and results should be clear, well executed, and repeatable. Authors are strongly encouraged to make data and code publicly available whenever possible.

(投稿された論文は新規性があるか、技術的なクオリティが高いか、インパクトがあるか、そして明確であるかによって評価される。実証的な評価に強く依っている研究に関しては、その実験方法と結果が明確であり、適切に実装され、なおかつ再現可能でなければならない。可能な限り、著者は使用したコードとデータを公開することが強く推奨される)

という下りにも見える通りで、Industry & Governmentのセッションの中には「既に実務向けシステムにも実装済みでこれこれの成果が挙がっている」と報告する研究も見受けられました。

また、NIPSに比べるとシステムをフルスクラッチで組まずに既存パッケージの組み合わせで融通しているケースが特にIndustry & Government Trackには結構目立ってました。例えば”Web” sessionの4番目の発表 “A Hazard Based Approach to User Return Time Prediction” では説明変数の取捨選択や前処理に工夫を凝らしているものの、実装としてはRの{survival}パッケージを利用してそれで終わりだったりします。

他にも面白かったのがMSRがやはり同じセッションで発表していた “Seven Rules of Thumb for Web Site Experimenters” で、webサイト改善実験に当たってデータマイニングの観点からどういうところに気を付けるべきかという7つの話題を取り上げたもの。これも特に細かいアルゴリズムの話などはほとんどせず、代わりにMSRが積み重ねてきた経験に基づいて「こんなポイントがあるよ」「こういうことがよくあるよね」という話題を提供していて新鮮でした。

IMG_2762

今大会の総参加者は2000名余りに及び、うち学術関係者829名に対して企業関係者が1141名と、実際に企業色の強いカンファレンスになったという報告がclosing sessionでありました。ちなみに日本からは学術関係者19名、企業関係者38名(うち確認できている範囲で弊グループからの参加者6名)と、特に企業関係者が目立つ結果となっています。

RCOアドテク部のデータ分析チームの研究開発環境の整備はまだまだ道半ばですが、いつかこのKDDのようなトップカンファレンスにうちのチームから発表を出せるようになれば良いなぁと多くの企業発表を見ながら思った次第です。

IMG_2710

ということで次回はシドニー、次々回はサンフランシスコでの開催とのこと。来年は誰に行ってもらおうかな?(笑)

※おまけ

今ニューヨークではハラールフードというかインド・パキスタン料理が大人気でそこいら中に屋台が出てるんですが、友人から「あそこは美味いよ!」と教えられて買いに行ったのがSheratonの裏に来ているこのお店。

haral1

haral2

元々インド料理大好き人間(実は自宅でも週に1回は自分で作ってる)としては、こういう本格的なインド・パキスタン料理が$5-6と安くいただけるのは嬉しかったですね~。皆様もニューヨーク行かれる機会おありでしたら是非どうぞ。