ニューヨークからこんにちは、データ分析基盤チームのエンジニアの鳥井です。
私は現在、O’Reillyが主催している Strata Data Conference 2019 @ NY というカンファレンスに参加しています。
今日は、Strataについてと、本日聞いた中でとくに印象に残ったセッションについて紹介したいと思います。
O’Reilly主催のカンファレンスにはさまざまなものがありますが、Strataはその中でデータにまつわるインフラ技術・機械学習・セキュリティといったトピックスを主にあつかうカンファレンスになっています。
登壇者は上記トピックに関わる開発者が多く、実際の開発経験を踏まえた事例紹介や開発手法などの話を直接聞くことができます。
機械学習の発展によりますますデータの重要性が高まりつつあるためか、世界各国から多くの参加者が集まっているようです。
日程は全4日間で、前半2日はチュートリアルやトレーニング、後半2日はセッションといった構成になっています。
今回はかなり広々としつつ綺麗な、幕張メッセのような雰囲気のあるところで開催されています。
本日からセッション発表の日ということで、朝のキーノートからはじまり、たくさんの発表がありました。
自分も今日だけで6つのセッションを聴講しました。その中でとくに印象に残った発表について簡単に紹介したいと思います。
簡単にまとめると、AWSを活用したサーバーレスなジョブ実行基盤を構築したという発表でした。
開発を行ったモチベーションとしては、データエンジニア/データアナリスト/データサイエンティストがリモートマシン上で日常的に実行していた様々な計算(SQLによるデータ取得、特徴量生成、学習計算などなど)を、できるだけ簡単に実行できるようにしてあげたい、というところだったそうです。
設計をざっくりとまとめると、
というもので、AWSサービスとコンテナをフルに活用して、シンプルさ/モニタリングしやすさ/拡張しやすさを実現したそうです。
RCOでも、内製のデータ分析プラットフォームである「Crois」(こちらの記事が詳しいです)を開発しており、
といった点は、両システムともに共通しています。
(※ CroisはジョブをFargateで実行できるようになりました)
この設計はサーバーレスなジョブ実行基盤として1つの定石なのかもしれないと感じました。
一方で、Croisが想定する利用者と利用シーンは発表のシステムよりも広く、そのために設計・機能に違いが出ています。
主な機能の違いでいうと、CroisではITプランナーがデータサイエンティストの作ったモデルを簡単に利用できるようにするために、
などの機能が用意されています。
もしCroisのジョブ実行部分を抜き出して、データサイエンティストなどが使いやすい形にすると、発表にあったような構成になるのかもしれないと感じました。
似たようなシステムでも、設計思想によってはっきりと違いが出てくる点が個人的におもしろかったです。
発表者によると、UIダッシュボードを用意したり、OSSとして公開することを目標に開発を続けていくそうなので、 こちらも負けないようにCroisの開発を続けていきたいところです。
せっかくなので写真を少しだけ。
入国してからずっと天気がよく、とても快適に過ごせています。
カンファレンス参加が目的ですが、海外出張は世界の都市がどんなところかを知れるのもよいところです。
Strata NYの紹介と、1つのセッションついて弊社のデータ分析プラットフォームであるCroisと比較しながら簡単に説明させていただきました。
Session Day 2についても記事をまとめる予定ですのでお待ち下さい!
RCO アドテク部では、データ分析やデータ分析基盤構築を得意とするエンジニアなどを募集しています。