分析系雑用係の丸山です。 先日、弊社で行っているアドテク部論文輪読会にて「ユークリッド距離以外の距離で教師無しクラスタリング」というテーマで発表を行いました。
k-Means法など教師無しクラスタリングはデータ間の距離を用いてクラスタリングを行いますが、 ユークリッド距離以外の距離で教師無しクラスタリング(特に k-Means法)をしたい場合はどうしたらよいのか、 特にその際に適切なクラスタ数を推定する良い(便利な)方法はないものかと、 色々な論文を読み散らかして、なんとなくまとめて実装してみたものです。
資料内ソースコードで一部見慣れない部分がありますが、それはたぶん dplython を使っている所です。 早く pandas に標準搭載されないかと夢見ております。
お手柔らかにお願いいたします。