AD-TECH
Lab BLOG
アドテクLab ブログ

NEWS
  • リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。

Strata NY 2019 参加記 - Session Day 1

2019/09/26torii46

このエントリーをはてなブックマークに追加

ニューヨークからこんにちは、データ分析基盤チームのエンジニアの鳥井です。

私は現在、O’Reillyが主催している Strata Data Conference 2019 @ NY というカンファレンスに参加しています。

今日は、Strataについてと、本日聞いた中でとくに印象に残ったセッションについて紹介したいと思います。

Strataについて

O’Reilly主催のカンファレンスにはさまざまなものがありますが、Strataはその中でデータにまつわるインフラ技術・機械学習・セキュリティといったトピックスを主にあつかうカンファレンスになっています。

登壇者は上記トピックに関わる開発者が多く、実際の開発経験を踏まえた事例紹介や開発手法などの話を直接聞くことができます。

機械学習の発展によりますますデータの重要性が高まりつつあるためか、世界各国から多くの参加者が集まっているようです。

日程は全4日間で、前半2日はチュートリアルやトレーニング、後半2日はセッションといった構成になっています。

今回はかなり広々としつつ綺麗な、幕張メッセのような雰囲気のあるところで開催されています。

Session Day 1

本日からセッション発表の日ということで、朝のキーノートからはじまり、たくさんの発表がありました。

自分も今日だけで6つのセッションを聴講しました。その中でとくに印象に残った発表について簡単に紹介したいと思います。

Orchestrating data workflows using a fully serverless architecture

簡単にまとめると、AWSを活用したサーバーレスなジョブ実行基盤を構築したという発表でした。

開発を行ったモチベーションとしては、データエンジニア/データアナリスト/データサイエンティストがリモートマシン上で日常的に実行していた様々な計算(SQLによるデータ取得、特徴量生成、学習計算などなど)を、できるだけ簡単に実行できるようにしてあげたい、というところだったそうです。

設計をざっくりとまとめると、

  1. 特定のリポジトリに実行したいコードとジョブ設定(yaml)を追加する
  2. Jenkinsがリポジトリのプル、ECRへのコンテナプッシュ、Fargateのタスク設定を行う
  3. ジョブ設定内のスケジュール設定に従い、CloudWatch CronがAWS StepFunctionを起動する (API GatewayによるREST APIを通じてジョブを実行することも実行可能)
  4. StepFunctionがFargateを起動して結果を監視する
  5. 結果をSNS(+ Lambda)を介してメール、Slackなどに通知する

というもので、AWSサービスとコンテナをフルに活用して、シンプルさ/モニタリングしやすさ/拡張しやすさを実現したそうです。

RCOでも、内製のデータ分析プラットフォームである「Crois」(こちらの記事が詳しいです)を開発しており、

  • yamlでジョブ設定を記述する
  • スケジューリング実行が可能
  • AWS StepFunction + Docker + Fargate でジョブ実行を行う
  • REST APIを提供している

といった点は、両システムともに共通しています。
(※ CroisはジョブをFargateで実行できるようになりました)

この設計はサーバーレスなジョブ実行基盤として1つの定石なのかもしれないと感じました。

一方で、Croisが想定する利用者と利用シーンは発表のシステムよりも広く、そのために設計・機能に違いが出ています。

主な機能の違いでいうと、CroisではITプランナーがデータサイエンティストの作ったモデルを簡単に利用できるようにするために、

  • モジュールという再利用可能な処理単位を作れる
  • そのモジュールを組み合わせてワークフローを構成する
  • パラメータを変更してジョブ実行ができる

などの機能が用意されています。

もしCroisのジョブ実行部分を抜き出して、データサイエンティストなどが使いやすい形にすると、発表にあったような構成になるのかもしれないと感じました。

似たようなシステムでも、設計思想によってはっきりと違いが出てくる点が個人的におもしろかったです。

発表者によると、UIダッシュボードを用意したり、OSSとして公開することを目標に開発を続けていくそうなので、 こちらも負けないようにCroisの開発を続けていきたいところです。

ニューヨーク

せっかくなので写真を少しだけ。

入国してからずっと天気がよく、とても快適に過ごせています。

カンファレンス参加が目的ですが、海外出張は世界の都市がどんなところかを知れるのもよいところです。

まとめ

Strata NYの紹介と、1つのセッションついて弊社のデータ分析プラットフォームであるCroisと比較しながら簡単に説明させていただきました。

Session Day 2についても記事をまとめる予定ですのでお待ち下さい!

広告

RCO アドテク部では、データ分析やデータ分析基盤構築を得意とするエンジニアなどを募集しています。

採用ページ