Alibaba Cloudがデータ分析に強い理由【前編】自社の課題解決から生まれた3つの設計思想(テックコラム)

世界3位のIaas市場シェアを持つAlibaba Cloud(アリババクラウド)。2017年には国際オリンピック委員会のクラウドサービスパートナーになるなど、あらゆるビジネスから注目を集めています。

AlibabaCloudにおいて特筆すべきは「データ分析」でしょう。「独身の日」とも呼ばれる世界最大の24時間ショッピングイベント「天猫ダブルイレブン(W11)」の際は、大量の取引処理とデータ分析をこなしており、優れたパフォーマンスが証明されています。今回は「なぜAlibaba Cloudはデータ分析に強いのか」を紐解いていきます。

 

概要

自社ECプラットフォームの課題解決のため、データ活用基盤の研究・開発に真摯に取り組んできた背景
「技術で未来を切り拓く」をモットーに、高品質なサービスを提供するために妥協しない企業姿勢
「Fast Data(ファストデータ)」「Live Data(ライブデータ)」「Intelligent Data(インテリジェントデータ)」というAlibaba Cloudの3つの設計思想

 

 

 

Alibaba Cloudによるデータ分析の背景


f:id:sbc_kitano:20200811122821j:plain
 

〈黎明期〉ベンダー依存の課題
1999年に中国で創業したアリババグループは、ECプラットフォームの構築から事業をスタートさせました。世界一の人口を持つ中国でのEC事業の成長に伴い、こうした量と扱うデータ量が急増しました。当初のアーキテクチャでは商用のデータベース製品を採用していましたが、サーバの負荷が大きくプラットフォーム全体が不安定な状況に陥っていました。
いわゆるベンダーロックインから脱却するため、まずはオープンソースのMySQLを複数クラスターで対応可にしました。これにより取引処理の課題が解消されます。

〈拡大期〉データ量とスケーリングの課題
その後、ビッグデータやHadoop普及に伴い、大量データの高速処理をマネージドスタイルで処理するために、Apache Hiveをブランチしながら開発した「MaxCompute」という、サーバレス型フルマネージドプラットフォームの独自開発に成功しました。

〈成長期①〉サイロ化とデータ活用の課題
MaxCompute」により、大量のデータをリニアにスケーリングしながら高速で処理することができるようになりました。しかしビッグデータとして、DataLakeやDWHなど大量のデータに対する「データのサイロ化」や「データから価値を生み出すという視点」に課題を残します。この課題を解決するため、データマネジメントの観点から開発されたサービスが「E-MapReduce」です。異なるクラスターを挟んだ横断分析やトレンド分析など、幅広いシナリオでデータを管理・分析することが可能となりました。

〈成長期②〉ログデータの収集と活用の課題
一方、データ収集基盤にはFluentdを利用していましたが、スケールができないことやセキュリティ面に手間を要することから「Log Service」を開発しました。

f:id:sbc_kitano:20200807201442p:plain
〈ログサービスの管理画面〉

〈成熟期〉バッチ処理速度の課題
量が多くなるにつれ、バッチ処理の速度に課題が生まれます。そこでアリババは、バッチ処理ではなく流入データをそのまま流して処理する「リアルタイム処理(ストリーム処理)」を実現するために、Apache Flinkのマネージドサービス「RealtimeCompute」を開発します。これによって、ビジネスの意思決定における圧倒的なスピード感を実現させました。

 

試行錯誤と未来を拓く姿勢


このように、Alibaba Cloudは課題発見とそれを解決するためのサービスの開発を繰り返してきました。試行錯誤の背景には巨大市場、中国を地盤としていることが挙げられます。

中国の人口は14億人以上で、GDPはアメリカに次ぐ2位。世界時価総額ランキングで上位に入る企業も増えています。世界のビジネスをリードするマーケットでは当然、通信量も多くなるでしょう。つまり、膨大なデータをもたらす収集・処理し、価値のある分析・マネジメントが必要となります。AlibabaCloudは、極めて質の高いクラウドサービスが求められる環境の中で誕生したのです。

Alibaba CloudのData Lake、ETL、DWH対応プロダクト
〈DataLake、ETL、DWH対応のプロダクト〉

アリババグループの企業姿勢もアリババクラウドに反映されています。
例えば、中国で普及する信用スコアサービス「芝麻信用(Zhima Credit)」向けには、「支付宝(Alipay)」「淘宝網(Taobao)」からの購買履歴などのデータを「MaxCompute」に集約。毎日300万件を超える様々な定例処理でもリニアにスケーリングしながら、ユーザーの嗜好や、他ユーザーとの交友関係などのデータを生成しています。これにより、過去にECサイトなどで収集したデータから、信頼や精度の高い「信用スコア」へ分析し、その結果を芝麻信用へ提供しています。

このような大規模処理を実現するプロダクトサービスを世に出すために、早いスピードで様々なシナリオテストを経てから、Alibaba Cloudを代表するプロダクトサービスとしてサービスイン。高品質サービスを提供するためには、妥協をしない方針です。

Alibaba Cloudは 「技術で未来を切り拓く」をモットーにしており、様々なお客様の課題を全て技術で解決してきました。社内活動としても、Alibaba Cloudはオープンソースソフトウェアのコミットメントにかなり積極的です。Apache FlinkのコミッターおよびPMCの7割はAlibaba Cloudのエンジニアです。このようなエンジニア集団によるクラウドサービスだからこそ、データ分析に非常に強いという背景があります。

 

Alibaba Cloudの3つ設計思想


最後に、ここまで解説した課題解決の背景や企業姿勢から生まれた、Alibaba Cloudの設計思想について説明します。3つの設計思想を順に紐解いていきましょう。

f:id:sbc_kitano:20200807234817j:plain
〈Alibaba Cloudのデータ分析プラットフォームの3つの設計思想〉

まずは「Live Data(ライブデータ)」は対象とするデータへのこだわりで、「データは鮮度が命」という考え方に基づきます。バッチではなくリアルタイム、データへの直接的なリクエストなどにこだわる姿勢は、より鮮度の高いデータを活用することで、タイムリーな意思決定をしたい思いの表れと言えるでしょう。

2つ目の「Fast Data(ファストデータ)」について。これは手法へのこだわりです。一般的にファストデータというと、リアルタイム(ストリーミング)処理を意味しますが、Alibaba Cloudの「Fast Data」はそれだけではありません。
AlibabaCloudのデータ分析における特長として、シンプルなアーキテクチャで分析基盤を構築できることや、細かいパラメータ調整を排除していることが挙げられます。このいわば”クイックスタート”へのこだわりが、設計思想としての「Fast Data」が意味するもう一つの側面です。

最後の「Intelligent Data(インテリジェントデータ)」はビジネスの意思決定に必要な有用なデータのことを指します。スピーディな意思決定のために、そんな有用なデータを導くプロセスをショートカットする設計思想でAlibaba Cloudは開発されています。例えば、GUIが豊富であったり、約10分で抽出、変換、格納、分析・可視化を実現できるケースもあったりと、ユーザーが確実かつ迅速に有用なデータを得られるようになっています。

そして以上の3つの設計思想で開発されたAlibaba Cloudのプロダクトには、共通して持つ特長が3つ挙げられます。
後編では、そのようなプロダクトの特長を活かした日本市場でのケーススタディと、今後の展望についてお話します。

 

〈後編はこちら〉

www.sbcloud.co.jp

 


f:id:sbc_kitano:20200807195231j:plain

SBクラウド株式会社技術部部長

サール バシル(El Hadji Bassirou Sarr)

ソフトバンクで10年以上のインフラ運用経験を経て、2016年よりSBクラウドの立ち上げから参画。ローカライズ、オペレーション&サポート、プロダクト企画開発などの責任者を歴任し、2018年より総勢約70名の多国籍チームである同社の技術部門のトップを務める。

f:id:sbc_kitano:20200807195951p:plain

SBクラウド株式会社技術部ソリューションアーキテクト課

大原 陽宣

2019年からSBクラウドにJoin。収集、分散処理、ETL、検索、分析、機械学習基盤の構築、運用等を経て、現在分散系をメインとしたビッグデータとデータベースを得意・専門とするデータエンジニア。 AlibabaCloud MVP。