AD-TECH
Lab BLOG
RCO アドテクLab ブログ

ICDM2016に参加してきました

2017/01/05kenkoooo

このエントリーをはてなブックマークに追加

エンジニアの中村です。今年もよろしくお願いします。

昨年 12 月にバルセロナで開催されたで IEEE International Conference on Data Mining (ICDM) というカンファレンスに参加してきました。 ICDM はその名の通りデータマイニングに関するカンファレンスで、同種のカンファレンスの中でも KDD に次いで大きいらしいです。 私は機械学習を専門にするエンジニアではないのですが、こういった仕事と直接関係ないカンファレンスにもホイホイ行かせてくれるのが RCO の良いところだと思います(ヨイショ)。

個人的に面白く感じた発表について、いくつか簡単に紹介します。 また、前職で執筆に参加した論文が ICDM に採択され、発表もさせていただいたので、その論文についても紹介します。

Recommending Packages to Groups

従来のレコメンドシステムでは、1人のユーザーに対して商品集合を推薦したり、ユーザー集合に対して1つの商品を推薦したりするものでしたが、この論文ではユーザー集合に対して商品集合を推薦しています。

Efficient Rectangular Maximal-Volume Algorithm for Rating Elicitation in Collaborative Filtering

レコメンドに使われる協調フィルタリングでは、新規に追加されたユーザーには情報が少ないため、有効な推薦できないというコールドスタート問題がありました。コールドスタート問題は、新しく追加されたユーザーにいくつかのアイテムを提示して評価させ、ユーザーの情報を作るという方法で解決されていますが、最初に見せるアイテム集合を上手に選択する必要があります。

この論文では既存の手法のベースになっている Maximal-Volume Algorithm を改良して、より多様な集合を選択できるようになったそうです。

Learning Compatibility Across Categories for Heterogeneous Item Recommendation

「ジーンズ」と「Tシャツ」や、「ノートPC」と「アダプター」など、異なるもの同士のアイテム間の関連性を計算する話です。関連の近さを距離学習するのですが、複数の空間で別個に距離を計算して使うようです。

Fractality of Massive Graphs: Scalable Analysis with Sketch-Based Box-Covering Algorithm

ネットワークのフラクタル性を高速に検出する話です。今回の ICDM で発表した論文です。既存の手法ではサブグラフを全て生成していたので計算量もメモリ消費量も大きかったのですが、本論文ではサブグラフの Min-Hash スケッチを作り、スケッチ空間でヒープと平衡二分探索木をつかって問題を解くことで高速化しました。また、100 万頂点のウェブグラフ (in-2004) がフラクタル性を持つらしい、ということを明らかにしました。

おわりに

ICDM では、すぐにでも仕事に適用できそうな応用的な論文が多かったように感じました。 RCO ではリクルートグループのもつ大量のデータを分析する機会も多いので、こういった学会で発表できるような手法の研究にも挑戦していきたいと思いました。