Alibaba Cloudのビッグデータ分析系プロダクトの紹介(前編)

技術課の牛嶋です。 Alibaba CloudはパブリッククラウドとしてIaaSサービスを提供していますが、いわゆるビッグデータを用いた分析関連のプロダクトも充実しているという特徴があります。今回はその特徴を伝える為に、概要、アーキテクチャ、シナリオという3つの観点からAlibaba Cloudの分析関連のプロダクトを解説したいと思います。

E-MapReduce

概要

Alibaba Cloud Elastic MapReduce (または E-MapReduce) は、大量のデータの処理と分析を容易にするビッグデータ処理ソリューションです。

E-MapReduce は、ECS (Alibaba Cloud Elastic Compute Service) 上に構築され、Hadoop エコシステムと Spark エコシステムのコンポーネントによるトレンド分析、データウェアハウス、オンラインおよびオフラインのデータ処理など、幅広いシナリオでデータを柔軟に管理します。 また、 Alibaba Cloud OSS や Alibaba Cloud RDS など、他のクラウドストレージシステムやデータベースシステムとの間の、データのインポートやエクスポートが容易に実現できます。

アーキテクチャ

以下の図のように、E-MapReduce クラスターは Hadoop エコシステムに基づいて構築されています。

https://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/en-US/2959252851/p10313.png

これにより、Alibaba Cloud OSS (オブジェクトストレージサービス) および ApsaraDB (RDS) などのクラウドサービスとシームレスにデータ交換され、複数のシステム間でデータが共有され、転送されます。 これにより、さまざまなタイプの業種のアクセスニーズが満たされます。

シナリオ

E-MapReduce クラスターはApache Hadoop および Spark でサポートされているすべてのシナリオがサポートされます。

E-MapReduce は Hadoop および Spark クラスターに基づいているため、Alibaba Cloud ECS は独自の物理ホストと同じように使用されます。 以下の図では、E-MapReduce のいくつかの典型的なアプリケーションシナリオの詳細が示されます。

1. オフラインデータ処理

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/17827/155911095310336_ja-JP.png

2. アドホックデータ分析

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/17827/155911095310337_ja-JP.png

3. 大量のデータのオンラインサービス

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/17827/155911095310338_ja-JP.png

4. ストリームデータ処理

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/17827/155911095310339_ja-JP.png

MaxCompute

概要

MaxComputeは、GB、TB、PB 級のデータに対応した高速なデータウェアハウスソリューションで、主に構造化データの一括保存と一括計算に使用されます。MaxCompute は従来の各種分散コンピューティングモデルに対応しており、ビジネスコストを削減し、データセキュリティを確保しながら、大量データの計算に関する課題を解決できます。

MaxComputeは大容量のデータウェアハウスソリューションだけでなく、ビッグデータ分析機能とモデル化サービスも提供しており、大量データの分析と処理を簡便化できます。データトンネル、また、大容量データを分析するのに、分散コンピューティングに関する詳細な知識は必要ありません。

アーキテクチャ

以下の図のように、CPU/GPUクラスターに基づいたデータ分析APIを提供して、様々なエコシステムにあるインターフェイスから利用可能です。

シナリオ

1. 大規模な履歴データチャネルとしての利用

TUNNELは、並列性の高いデータのアップロードとダウンロードサービスを提供します。 TUNNEL サービスは、TB 級や PB 級の日次データのインポートとエクスポートに対応しているため、全データや履歴データを一括インポートする際に特に便利です。 また、TUNNEL サービスは Java プログラミングインターフェイスを実装しており、MaxCompute クライアントツールには、ローカルファイルやサービスデータの交換に対応したコマンドが用意されています。

2. リアルタイムおよび増分データチャネルとしての利用

リアルタイムのデータアップロード向けには、レイテンシを低減して使いやすい DataHub サービスが MaxCompute に搭載されています。 DataHub サービスは、増分データのインポートに特に適しています。 DataHub は、Logstash 、Flume、 Fluentd 、Sqoop などの多様なデータ転送プラグインにも対応しています。また、ログ機能も備えています。 ログは MaxCompute に送られ、次に DataWorks でログ解析とマイニングが実行されます。

3. SQL を用いた解析

MaxCompute では、データはテーブル形式で保存されます。 MaxCompute では、外部インターフェイス用の SQL クエリ関数を使用できます。 MaxCompute は従来のデータベースソフトウェアと同じように操作できるだけでなく、PB 級のデータを処理することもできます。

4. UDF: ユーザー定義関数を用いた解析

MaxCompute には、コンピューティングに関するユーザーニーズを満たす数多くの組み込み関数が実装されていますが、カスタム関数を作成することもできます。

5. MapReduceを用いた解析

MapReduce は、MaxCompute に実装されている Java MapReduce プログラミングモデルです。 Java プログラミングインターフェイスが採用され、開発プロセスを簡素化する設定になっていますが、MapReduce を使用する前に、分散コンピューティングの基本概念を理解し、関連のあるプログラミング経験を積むことを推奨します。 MaxCompute MapReduce では、Java プログラミングインターフェイスを使用できます。

6. Graphを用いた解析

MaxCompute の Graph 機能は、反復グラフ計算向けの処理フレームワークです。 グラフ計算ジョブでは、グラフを使ってモデルが構築されます。 グラフは頂点と辺から構成され、 頂点と辺には値が含まれます。 グラフの編集と展開が繰り返し実行された後、最終結果が得られます。 代表的なアプリケーションには、PageRank、SSSP アルゴリズム、K 平均法アルゴリズムなどがあります。グラフは編集と展開が繰り返し実行され、最終的な結果が表示されます。 代表的なアプリケーションには、PageRank、単一始点最短距離アルゴリズム、K 平均法クラスタリングアルゴリズムなどがあります。

7. アドホッククエリ

小さなデータセット (100 GB 未満) のクエリは、MaxCompute テーブルを低レイテンシで簡単にクエリできるように最適化されています。 MaxCompute データを ADS (AnalyticDB)、RDS (Relational Database Service) や、その他のシステムにインポートする必要がないため、必要なリソースと管理コストが削減されます。

このシナリオには、クエリ用の柔軟なデータオブジェクト、複雑なロジック、迅速なクエリ、クエリロジックの簡単な調整、および 1 分以内の低レイテンシクエリ要件などの特徴があります。 ユーザーは多くの場合、SQL スキルを習得し、クエリ分析に使い慣れたクライアントツールを使用したいデータアナリストです。

8. レポートと分析

分析レポートは、ETL (Extract-Transform-Load) プロセスで統合された MaxCompute プロジェクトデータに基づいて生成されます。 レポートは、定期的なチェックのためマネージャーとビジネスユーザーに提供されます。

このシナリオには、クエリ対象のデータオブジェクトは通常集約されたデータである、という特長があります。 クエリ対象のデータオブジェクトは、小さいデータセットに含まれます。 クエリは、固定された簡単なクエリロジックに基づいています。 このシナリオでは低レイテンシという要件があります。 ほとんどのクエリでは、レイテンシは 5 秒以内です。 クエリのレイテンシ時間は、データ量とクエリの複雑さによって大きく異なります。

9. オンラインアプリケーション

MaxCompute プロジェクトデータは、オンラインアプリケーションをサポートするために RESTful API にカプセル化できます。

このシナリオでは、MaxCompute Lightning は高速クエリエンジンとして機能し、MaxCompute テーブルデータが 手作業による介入を最小限とした API サービスとして提供されます。 これは Alibaba Cloud DataWorks のデータサービスコンポーネントを統合することによって可能になります。

DataWorks

概要

DataWorks は、PaaS (Platform as a Service) 製品として、Alibaba Cloud 重要なプラットフォームです。 DataWorks は、完全クラウド型のワークフロー機能と、ワンストップ型のデータ開発および管理インターフェイスを提供し、顧客企業のデータマイニングとデータ探索を支援します。DataWorks は、MaxCompute をコアコンピューティングおよびストレージエンジンとして使用して、オフライン環境での強力なデータ処理、分析、マイニング能力を実現しています。 DataWorks はデータの転送と変換を容易にします。他のデータストレージサービスからデータをインポートして変換し、最終的に他のデータシステムへ伝送するためにデータを抽出することも可能です。

アーキテクチャ

DataWorks におけるデータ分析のフローは以下の図をご参照ください。

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/16167/15514199658910_en-US.png

シナリオ

1. インターネット ビッグデータ アプリケーションサービス向けクラウドプラットフォームの構築

企業による基幹業務へのフォーカスを支援

すべての業務基盤を短時間で Alibaba Cloud へ移管し、膨大なリソースとともに業務の生産性を最適化します。 Alibaba Cloud の成熟した企業向けスケーリングソリューションによって、シームレスにスケーリングすることや関連事項への集中対応は不要となります。

投資費と運用保守費を削減

オンプレミスのビッグデータ基盤に必要な物的リソース、労力、研究開発投資を大幅に削減できます。

セキュリティと安定性

クラウドへの完全データ移行は、DataWorks の包括的なサービス機能と安定した安全なパフォーマンスによって保証されています。

推奨する組み合わせ

DataWorks + AnalyticDB + MaxCompute

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/16169/15589211898914_ja-JP.png

2. 気象データクエリと広告事業ログ分析

作業効率を向上

すべてのログデータは SQL 文で解析され、業務効率は 5 倍以上向上します。

ストレージ利用率を改善

DataWorks によってすべてのストレージとコンピューティング費用は 70% 削減し、パフォーマンスと安定性も向上します。

ビッグデータ製品の使いやすさを向上

MaxCompute は多様なオープンソースソフトウェアに対応するプラグインを提供しているため、クラウドへの容易なデータ移管が可能です。

推奨する組み合わせ

DataWorks + Data Integration + AnalyticDB + Quick BI + MaxCompute

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/16169/15589211898916_ja-JP.png

3. 細かな管理操作

ビジネスインサイトの向上

MaxCompute のコンピューティング機能により、数百万ものユーザーが細かな管理を行えるようになります。

データ駆動型ビジネス

DataWorks は、強化されたデータ分析機能と効果的な監視機能を提供することによってビジネスを強化します。

業務要求に対する迅速な対応

DTplus エコシステムは新たな業務データの分析要求に迅速に対応します。

推奨する組み合わせ

DataWorks + Data integration + Quick BI + MaxCompute

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/16169/15589211908917_ja-JP.png

Quick BI

概要

Alibaba Cloud Quick BIは、ビッグデータ分析と視覚化されたデータ表示をサポートするクラウドコンピューティングベースのサービスです。軽量で使いやすいBIツールです。データソースとデータセットを作成することにより、データに対してアドホッククエリと分析を実行できます。ワークブックとダッシュボードを使用してデータを視覚化できます。

クイックモデリング

データセットは3つのステップで作成できます。

強力なデータ分析機能

Quick BIを使用すると、ワークブックを作成できます。 Quick BIを使用して、データを分析し、複数のデータソースに基づいてレポート(日次、月次、年次レポートなど)を作成できます。 Quick BIは300以上の一般的なデータ分析機能をサポートしており、分析結果の最適化に役立ちます。

多様なデータ視覚化機能

Quick BIは、縦棒、線、横棒、面、円、ファンネル、レーダー、階層、散布図など、21を超えるグラフの種類をサポートしています。 Quick BIは、ジオバブルマップ、ジオマップ、ダッシュボード、かんばん、ツリーマップ、LBSマップ、極座標図、単語雲、竜巻、フロー分析、クロステーブルもサポートしています。これらのグラフを使用して、ビジネスデータを視覚化できます。

保護モード

Quick BIでは、同じグループスペースのメンバーが同じオブジェクトを編集できます。これにより、ビジネスデータを効率的に分析できます。

多次元データ分析

Webインターフェイスは、Microsoft Excelのようなドラッグアンドドロップ操作、迅速なデータインポート、リアルタイム分析をサポートしています。これにより、新しいモデルを構築することなく、さまざまなディメンションに基づいてデータを分析できます。

柔軟なレポート方法

Quick BIで作成されたレポートは、独自のシステムに埋め込むことができます。これにより、Quick BIコンソールにログオンしなくてもレポートを表示できます。

アーキテクチャ

Quick BIは以下のプロセスでデータの視覚化を実現します。 http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/9062/155650702937888_en-US.png

シナリオ

1. 動的データ分析と効果的な意思決定

データ駆動型のビジネス運用と管理では、顧客維持率やアクティブ顧客率などのデータに基づいて分析レポートを作成する必要があることがよくあります。 Quick BIは使いやすく、動的なデータ分析と効果的な意思決定をサポートする複数のデータプレゼンテーション手法を提供します。次のお客様の問題が解決されました。

データを取得するための不便さを解決

より適切な意思決定のために、ビジネスマネージャーは、さまざまな条件に基づいてデータをクエリするためのSQLステートメントを作成するように技術スタッフに依頼する必要があることがよくあります。

レポートの生成と維持の難しさを解決

バックエンド分析システムのデータは頻繁に変更され、開発サイクルが長く、システムの開発および保守が困難です。

チャートのデザインは非友好的であり、多大な労力がかかるのを解決

HighChartなどのツールを使用して作成されたレポートは、わかりやすく視覚化されており、多大な労力を必要とします。

推奨される構成

RDS + Quick BI

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/9066/15447851051040_en-US.png

2. 独自のシステムと統合されたレポート

配送サービスプロバイダーは、データの視覚化と分析を可能な限り低いコストで最短の時間でサポートするシンプルなBIプラットフォームを構築したいと考えています。このプラットフォームは、重要なビジネスデータを会社の管理システムに統合し、さまざまな部門や地域の従業員にデータサポートを提供することになっています。 Quick BIはユーザーの問題を解決し、次の機能を提供します。

使いやすい

システムは迅速で使いやすいです。すべてのデータ要件を満たし、簡単に開始できます。

データ表示の効率が大幅に向上

システムと統合してデータ分析を実行します。データの視覚化と分析の効率を大幅に向上させます。

単一のエントリポイント

スタッフは、複数のシステムを切り替える必要がなくなりました。

推奨される構成

RDS + Quick BI

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/9066/15447851051041_en-US.png

3. 取引データの権限管理

データは、特定の支払いプラットフォームの各市長にとって重要です。マネージャーは、さまざまな都市でのビジネスの発展を測定するためのトランザクションデータを必要とします。時間内にリスクを特定し、ドリルダウンして問題を特定し、解決することが重要です。データアクセス制御は、データチームにとってデータ分析と同じくらい重要です。この要件に基づいて、Quick BIは次の機能を提供します。

行レベルの権限

同じレポートは、ユーザーロールごとに異なる方法で表示されます。上海市のマネージャーは、上海市場に関連するデータのみを表示できます。

動的なビジネス要件

統計的指標は、ビジネスの成長に伴って常に変化します。サーバーがすべての要求を処理できない場合、サーバーの応答が遅くなります。

ソース間のデータ統合と高いコンピューティングパフォーマンス

Alibaba CloudのBI機能を利用して、複数のソースにわたるデータ分析とコンピューティングパフォーマンスのボトルネックの問題を解決できます。

推奨される構成

ログ+ RDS +Quick BI + MaxCompute

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/9066/15447851051042_en-US.png

あとがき

前編の解説は以上となります。IaaSサービスのみの利用だと、学習コストの観点から他社クラウドを採用しがちと思いますが、中国で実践されている最先端の分析に興味があるのであれば、Alibaba Cloudの上記プロダクトを用いた分析も実施してみてはいかがでしょうか。  ※後編では、DataV、Image Search、Machine Learning Platform For AI、Elasticsearch、Realtime Computeを紹介したいと思います。