エンジニアの秋庭です。
Mining of Massive Data輪読会の4章 Mining Data Streamsを読みました。Mining of Massive Datasetsでは、主にデータベースから有用なデータを抽出する手法について議論されていますが、4章では、Streamデータを扱っています。
大量のStreamデータを処理する場合には、目的に応じたデータを適切に除去 & 抽出する必要があります。今回の輪読会では、バイナリストリームから”1″の数をカウントする手法について議論しました。