Alibaba Cloudのビッグデータ分析系プロダクトの紹介(後編)

技術課の牛嶋です。 Alibaba CloudはパブリッククラウドとしてIaaSサービスを提供していますが、いわゆるビッグデータを用いた分析関連のプロダクトも充実しているという特徴があります。今回はその特徴を伝える為に、概要、機能/アーキテクチャ、シナリオという3つの観点からAlibaba Cloudの分析関連のプロダクトを解説したいと思います。

前編後編のうちの後編となります。前編は以下となります。

www.sbcloud.co.jp

DataV

概要

DataV は、Alibaba Cloud のデータ可視化サービスで、膨大な量の複雑なデータを視覚的なダッシュボードとして分析および表示できます。 DataV は、データ可視化エクスペリエンスをより多くのユーザーに提供することを目的としており、経験の浅いエンジニアがグラフィカルユーザーインターフェイスを介して高度な可視化アプリケーションを簡単に構築できるよう支援します。 DataV は、展示会、ビジネスモニタリング、リスク警告、地理情報分析などのシナリオで、データ表現の要件を満たすことができます。

機能

多様なシナリオテンプレート

データ可視化の設計で最も難しいのは階層構造および単一の品目における多様なデータソース間の関係に関する理解です。 これには色遣い、レイアウト、および図表の包括的な利用が関係しています。 DataV はコントロールセンター、地理解析、リアルタイムモニタリング、レポーティング、プレゼンテーションその他多くのシナリオに使える複数のテンプレートを提供しています。 プロのデザイナーに依頼しなくてもハイレベルなデザインとインパクトのある可視化プレゼンテーションを実現できます。## シナリオ

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/16513/15583310117711_ja-JP.gif

可視化ウィジェットライブラリが充実

DataV は、ベーシックな図表にとどまらず、2 次元マップ、3 次元マップをベースにデータと輸送路、ヒートマップ、散布図などの地理情報とを手間をかけずにうまく組み合わせることができます。Echart、AntV-G2 などサードパーティのチャートライブラリも DataV と完全に統合されます。

多様なデータソースに対応

DataV は Alibaba Cloud AnalyticDB、リレーショナルデータベースサービス (RDS)、ローカル CSV ファイル、オンライン API へのアクセス、およびさまざまなデータソースへの動的な要求に対応しています。 DataV はビッグデータのリアルタイムな演算、モニタリングに関連した需要に応えます。 DataV はビッグデータおよびクラウド演算の可能性をフル活用します。

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/16513/15583310117714_ja-JP.png

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/16513/15583310117714_ja-JP.png

ユーザーに優しいインターフェイス

ユーザーはグラフィカルインターフェイスおよび構成可能なウィジェットによりドラッグアンドドロップの操作だけで簡単にプロフェッショナルな可視化プロジェクトを作成できます。

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/16513/15583310117715_ja-JP.gif

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/16513/15583310117716_ja-JP.gif

ウィジェット

  • 縦棒グラフと横棒グラフ
  • 折れ線グラフ
  • 円グラフ
  • 散布図
  • フラットマップウィジェット
  • 3D効果付きフラットマップ
  • 3D地球儀
  • メディア
  • テキスト
  • ネットワーク図
  • インタラクション(iframeやタイムライン)

シナリオ

  1. Log Serviceと組み合わせた、Kubernetesログ情報の可視化 jp.alibabacloud.com

  2. 日本地図上での桜前線のシミュレーション実現 https://www.sbcloud.co.jp/help/best-practice/product/datav/datav-sakura/index.htmlwww.sbcloud.co.jp

Image Search

概要

Image Search は、ディープラーニングと大規模機械学習技術に基づくインテリジェントな画像検索サービスです。画像認識と検索をサービスに組み込むことで、さまざまな業種やシチュエーションで画像を検索することができます。Image Search は、類似または同一の画像を検索して見つけ出すために必要な機能を備えています。

メリット

Image Search には、次のようなメリットがあります。

  • 高精度: 業界をリードする検索サービスを提供します。
  • 高速レスポンス: クエリにミリ秒単位で応答します。
  • 大規模検索: 100 億個以上の検索対象をサポートします。
  • リアルタイムインタフェース: データを動的に追加または削除できます。
  • 柔軟性: 個々の要件に柔軟に対応します。

機能

Image Searchには以下2種類の機能があります。

  • 商品画像検索: この機能を使用して、入力画像と類似または同一の商品に関する情報を得ることができます。
  • 一般画像検索: この機能を使用して、入力画像と類似または同一の主題や要素を含む画像を見つけることができます。

利用手順

Image Searchの機能を利用するには、次の手順に従います。

  1. 検索モードの選択  →商品画像検索もしくは一般画像検索のいずれかを選択します。

  2. インスタンスの作成  →[クエリ頻度] と [容量] を選択の上、購入期間を指定して作成します。

  3. データのインポート  →画像検索元となるデータについて、以下より選択して実装します。     Image Searchインスタンスの直接アップロード    OSSの画像をインポート    *SDKを用いた独自の実装

  4. Image Search APIの呼び出し  →以下のリファレンスにしたがって、Image Searchの検索機能を利用します

画像の検索 - 開発者ガイド| Alibaba Cloud ドキュメントセンター

シナリオ

1. オンラインショッピングの画像検索

オンライン商品検索のユーザーエクスペリエンスを向上させるため、Image Search は中国の淘宝 (Taobao) 網に拍立淘 (Pailitao) 機能 (商品撮影・購入機能) として組み込まれました。拍立淘 (Pailitao) がリリースされた 2014 年以来、毎日のユニークユーザー数は順調に伸び続け、1 日あたり数百から数千万に増加しました。この増加は、ますます多くのユーザーがオンラインショッピングで画像検索機能を利用したことを示しています。従来のキーワード検索とは異なり、拍立淘 (Pailitao) では、商品の簡単な写真を撮るだけでよく、商品名を打ち込む必要はありません。これにより、オンラインショッピングの手順が簡素化され、ユーザーエクスペリエンスが向上します。

http://docs-aliyun.cn-hangzhou.oss.aliyun-inc.com/assets/pic/66657/intl_en/1519635902356/plt_en_new.png

2. 写真サイトでの画像検索

スマートフォンを使用してインターネットにアクセスできる人が増え、写真共有サイトや写真共有 SNS が急速に登場しています。これらのウェブサイトには何十億もの写真と画像が保存されていますが、そのほとんどは、単純なキーワードによる検索のみをサポートしています。Image Search を使用すれば、API を利用して画像検索エンジンを構築し、1 枚の画像を数十億枚の画像から検索することができます。これにより、検索効率と全体的なユーザーエクスペリエンスが大幅に向上します。

http://docs-aliyun.cn-hangzhou.oss.aliyun-inc.com/assets/pic/66657/intl_en/1518174955628/pc-tongyong-en.jpg

Machine Learning Platform For AI

概要

Alibaba Cloud Machine Learning Platform for AI(PAI)は、ユーザーに対して技術スキル要件が低くても、優れたパフォーマンスを発揮できるオールインワンの機械学習サービスを提供します。 PAIでは、機械学習実験をすばやく確立してデプロイし、アルゴリズムとビジネス間のシームレスな統合を実現でき、Alibaba Groupの本格的なアルゴリズムアプリケーションシステムに基づいて構築されています。中国において何万人もの開発者やエンタープライズユーザーにサービスを提供しており、 AI用の機械学習プラットフォームに基づいて、製品の推奨、財務リスク管理、画像識別、音声認識などのサービスをすばやく構築して、人工知能を実装できます。

特徴

ユーザーインターフェース

ドラッグアンドプル方式を使用して、機械学習実験をすばやく簡単に構築できます。

https://img.alicdn.com/tfs/TB1ZQxNbmCWBuNjy0FhXXb6EVXa-794-567.png

機械学習プロセス全体の計算結果を視覚的に表示できます。

https://img.alicdn.com/tfs/TB1fkp2bh9YBuNjy0FfXXXIsVXa-1136-641.png

豊富なアルゴリズムコンポーネント

回帰、分類、クラスタリング、テキスト分析、関係マイニング、および他の多くのモデルのための100を超えるアルゴリズムモジュールを提供します。

前処理ツールとソフトウェア、機能エンジニアリング、分析システム、アプリケーション領域、一般的な機械学習アルゴリズム、金融アルゴリズムをサポートします。

https://img.alicdn.com/tfs/TB1E.kebntYBeNjy1XdXXXXyVXa-649-207.jpg

All-in-one service

ユーザーが同じプラットフォームでデータクレンジング、機能エンジニアリング、機械学習アルゴリズム、評価、オンライン予測、オフラインスケジューリングを実装できるようにすることで、包括的なサービスエクスペリエンスを提供します

超大規模コンピューティングフレームワークKunpeng

非同期および並列通信の一貫した最適化を通じて、AI用機械学習プラットフォームは、高スループットと低遅延のパラメーター交換、複数のタイプのストリーミングデータのI / O、および1回限りのフェイルオーバーをサポートします。この戦略は、数百億の機能と数千億のパラメーターモデルを含むトレーニングタスクをサポートします。この戦略は、アルゴリズムサービスの長期サポートを通じて蓄積された豊富な経験に支えられています。 Alibabaは、線形モデル、意思決定ツリー、ディープスパースモデルをカバーする統合アルゴリズムシステムを開発しました。大規模なスパース機能のシナリオでは、AI用機械学習プラットフォームは動的な機能制御をサポートしており、いつでもモデル機能を追加および削除できるため、推奨、広告、検索などのCTR予測シナリオに強力なツールを提供します。

アーキテクチャ

次の図は、AIの機械学習プラットフォームのアーキテクチャを示しています。

http://docs-aliyun.cn-hangzhou.oss.aliyun-inc.com/assets/pic/72421/intl_en/1526989330884/structure.png

CPUおよびGPUクラスターで構成されるインフラストラクチャ層が最下層にあります。

その次のレイヤーには、Alibabaコンピューティングフレームワークで、MapReduce、SQL、MPI、その他のコンピューティングメソッドが含まれています。

上から2番目のレイヤーはモデルアルゴリズムレイヤーで、データの前処理、機能エンジニアリング、機械学習アルゴリズム、およびユーザーが特定の基本的な仕事を完了するのに役立つその他の基本コンポーネントが含まれています。

最上層はアプリケーション層です。 Alibabaの内部検索、推奨、Ant Financialなどのプロジェクトのデータマイニングは、AIの機械学習プラットフォームに依存しています。

シナリオ

PAIを用いたユースケースについて以下で、英語になりますが、日本でも馴染みもあり有効なシナリオを紹介します。

1. Heart disease prediction

www.alibabacloud.com

2. Financial risk management

www.alibabacloud.com

3. Product recommendation

www.alibabacloud.com

4. Credit card bill statements-based-credit scorecard

www.alibabacloud.com

5. Implement image classification by TensorFlow

www.alibabacloud.com

Elasticsearch

概要

Elasticsearch (ES) は、Lucene を基盤とする分散型のリアルタイム検索・分析エンジンです。 Elasticsearch は、Apache License 下で リリースされているオープンソースプロダクトです。 Elasticsearch は、エンタープライズデータ向けの主流の検索エンジンです。 Elasticsearch の提供する分散サービスにより、大量のデータセットをほぼリアルタイムで保存、クエリ、および分析することができます。 通常、Elasticsearch は複雑なクエリや高パフォーマンスアプリケーションに対応するための基本的なエンジンやテクノロジとして使用されます。

Alibaba Cloud Elasticsearch には、Elasticsearch 5.5.3 with Commercial Feature、Elasticsearch 6.3.2 with Commercial Feature、Elasticsearch 6.7.0 with Commercial Feature など、複数のバージョンがあります。 また、X-Pack プラグインも含まれています。 Alibaba Cloud Elasticsearch では、データの分析と検索が可能です。 Alibaba Cloud Elasticsearch は、オープンソースの Elasticsearch に基づき、エンタープライズクラスの権限制御、セキュリティモニタリング、アラート、自動レポートをサポートします。

X-Pack は Elasticsearch の商用アドオンの 1 つで、セキュリティ、アラート、モニタリング、レポート、グラフの機能が、インストールしやすい 1 つのパッケージにまとめられています。 X-Pack は Kibana に組み込まれ、権限付与、認証、ロールベースの権限制御、リアルタイムモニタリング、可視化レポート、機械学習などのサービスを提供します。

機能

特徴

  • 分散型のリアルタイムファイルストレージです。 各フィールドにはインデックスが作成され、検索可能です。
  • 分散型のリアルタイム分析・検索エンジンです。
  • X-Pack。エンタープライズクラスの権限管理とリアルタイムのシステムモニタリングを行う Elasticsearch の商用アドオンです。
  • 最大 100 台のサーバーにスケーリング可能で、ペタバイト規模の構造化データと非構造化データを処理します。
  • IK Analyzer プラグインをサポートします。
  • 24 時間 365 日、公式の Elasticsearch Technical Support による技術サポートを受けることができます。

組み込みプラグイン

Alibaba Cloud Elasticsearch が提供する組み込みプラグインには、主に以下のものがあります。

IK Analyzer:Java をベースとするオープンソースの中国語トークナイザーキット。 オープンソースコミュニティでよく知られている言語分析用プラグインです。 Pinyin Analyzer:ピン音トークナイザー。 Smart Chinese Analysis プラグイン:デフォルトの Lucene 中国語トークナイザー。 ICU Analysis プラグイン:Lucene ICU トークナイザー。 ICU は安定性に優れ、テスト済みの強力で使いやすいライブラリのセットです。さまざまなプラットフォーム上のアプリケーションの Unicode サポートを実現します。 Mapper Attachments Type プラグイン:Apache テキスト抽出ライブラリ Tika を使用して、さまざまなファイルタイプのコンテンツを文字列に解析する添付ファイル対応プラグイン。

シナリオ

Alibaba Cloud Elasticsearch は、次のシナリオで使用されます。

  • 商品検索に対応する大型家電オンラインショップを運営する必要がある。 この場合、Alibaba Cloud Elasticsearch を使用して商品カタログと在庫データを保存し、商品検索と自動推奨のサービスを顧客に提供できます。
  • トランザクションデータを収集、保存して、トレンド、統計、概要、例外の分析レポートを生成する必要がある。 この場合、Logstash を使用してデータを収集、集計、解析し、そのデータを Elasticsearch に保存する必要があります。 データが Elasticsearch に転送された後、目的のデータを取得または集計できます。
  • 価格を比較するプラットフォームを運営し、価格最優先の顧客に最適な取引を提供する必要がある。
  • レポート分析とビジネスインテリジェンス (BI) の分野でビッグデータに対して複雑な分析を実行する必要がある。 この場合、Elasticsearch の集計機能を使用できます。

Realtime Compute

概要

Realtime Compute は、Apache Flink をベースに、リアルタイムのビッグデータ処理が可能になるワンストップ、ハイパフォーマンスのプラットフォームを提供します。ストリーミングデータ処理、オフラインデータ処理、および非構造化データ処理など多様な利用イメージで広く使用されています。 また、ビッグデータをリアルタイムで処理して解析し、ビジネスの洞察および意思決定に活用できます。

アーキテクチャ

次の図は、Realtime Compute排他モードのアーキテクチャを示しています。

http://static-aliyun-doc.oss-cn-hangzhou.aliyuncs.com/assets/img/40823/155764225130941_en-US.png

Realtime Computeの排他モードでは、購入したすべてのECSインスタンスが計算クラスターのVPCで完全にホストされます。現在、Realtime Computeの排他モードは、ECSインスタンスへのログオンをサポートしていません。 コンピューティングクラスターを作成すると、Realtime ComputeはRealtime ComputeアカウントでElastic Network Interface(ENI)に適用されます。 ENIを使用して、VPC内のすべてのリソースにアクセスできます。 計算クラスターがインターネットにアクセスできるようにするには、NATゲートウェイとエラスティックIPアドレスをENIにバインドします。詳細については、Alibaba Cloud公式Webサイトのドキュメントを参照してください。 Realtime Computeが適用するENIは、Realtime Computeアカウントの独立したセキュリティグループに属しています。 VPC内の別のセキュリティグループのサービスにアクセスするには、セキュリティグループのルールを構成します。

シナリオ

Eコマース業界での利用 www.alibabacloud.com IoT産業での利用 www.alibabacloud.com Video配信での利用 www.alibabacloud.com

あとがき

後編の解説は以上となります。前編と合わせて、E-MapReduce、MaxCompute、DataWorks、Quick BI、DataV、Image Search、Machine Learning Platform For AI、Elasticsearch、Realtime Computeについて解説いたしました。 上記以外にもMachine Translation、Dataphin、Intelligent Speech Interaction、Intelligent Service Robotとデータ分析があり、また中国アカウントにも他にもありますので、1つでも興味を持ってAlibaba Cloudって凄いなと感じてもらえれば幸いです。