AD-TECH
Lab BLOG
アドテクLab ブログ

NEWS
  • リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。

RCOアドテク部論文輪読会:「Stochastic Gradient Boosting」を紹介しました

2016/01/28stakaya

このエントリーをはてなブックマークに追加

どうも、機械学習・茶帯の高柳です。

前の記事にタイポが見つかったため茶帯になりました)

Kaggleなどの機械学習コンペでほぼ無双状態の機械学習手法「Stochastic Gradient Boosting」をちゃんと知っておこうと、RCO内の論文輪読会でFriedmanの原著を紹介しました。その際のスライドを公開します。

私の理解している印象ですと、スライド内でも言及していますが、

  • 最適化問題を2段階に分けて解く
    • 第一段階:損失関数の勾配方向と平行になるような弱学習機(決定木)を最適化で決定
    • 第二段階:第一段階で作成した勾配方向を向いている弱学習機を”どの程度の割合で組み込むか”を最適化計算
  • データをランダムサンプリングして学習させることにより弱学習機間の相関を減らすことで、全体としてのVarianceを減少させ汎化性能をあげている

というのが、この手法の特徴なのかなと思いました。

更に、”損失関数の勾配方向と平行になる”という概念を抽象化してやると、”計量ベクトル空間上で(規格化された)内積が1になるように最適化する”という話につながり、MasonらのAnyBoostへとつながっていく点も面白いなと感じました。彼らの話は、実際には関数空間上での内積で議論していますが。

=========================
RCOでは、現在エンジニア募集中です。
RCOでは一緒に切磋琢磨していけるエンジニアを募集しています。
興味を持っていただけた方は、こちらの採用ページもぜひご覧ください。
★エンジニア採用ページはこちらから