MaxCompute

プロダクト紹介

MaxComputeとは

ビッグデータコンピューティングサービスである MaxCompute (旧 ODPS) は、GB、TB、PB 級のデータに対応した高速なデータウェアハウスソリューションです。

MaxCompute は、従来の各種分散コンピューティングモデルに対応しており、ビジネスコストを削減し、データセキュリティを確保しながら、大量データの計算に関する課題を解決できます。

また、MaxCompute は DataWorks とシームレスに統合されるため、MaxCompute のデータ同期化、タスク開発、データ ワークフロー開発、データの操作、保守、管理をワンストップで実行できます。

MaxCompute は、主に構造化データの一括保存と一括計算に使用されます。 大容量のデータウェアハウスソリューションだけでなく、ビッグデータ分析機能とモデル化サービスも提供します。データ収集技術の多様化と広域化が進むにつれ、産業界でのデータの大容量化が加速しています。 データ容量が、従来のソフトウェア業界では扱うことができなかった 100 GB、TB、更にはPB 級にまで拡大しています。

大容量データの場合、単一サーバーでは処理能力が限られるため、分散コンピューティングに移行するのが一般的です。 しかし、分散コンピューティングモデルの維持管理は容易でなく、高い専門性がデータアナリストに求められます。分散モデルを使用する場合、データアナリストはビジネスニーズを理解するだけでなく、基盤のコンピューティングモデルにも精通する必要があります。 MaxCompute を使用することで、大量データの分析と処理を簡便化できます。また、大容量データを分析するのに、分散コンピューティングに関する詳細な知識は必要ありません。

注:libaba グループでは、大規模インターネット企業のデータウェアハウスと BI 分析、E-commerce サイトの Web ログ解析とトランザクション分析、およびユーザー特性とインタレストマイニングなどの分野で、MaxComputeを幅広く使用しています。

MaxCompute ラーニングパス

「MaxCompute ラーニングパス」を使用すると、MaxCompute に関する概念、基本操作、および高度な操作を素早く学習できます。

プロダクトの利点

  • 大規模コンピューティングとストレージ

    MaxCompute は、大規模データ (最大で PB 級) の保存と処理に適しています。

  • 複数の計算モデルに対応

    MaxCompute は、SQL、MapReduce、Graph、MPI 反復アルゴリズム、およびその他のプログラミング モデルを基盤としたデータ処理方法に対応しています。

  • 堅牢なデータセキュリティ

    MaxCompute は、すべての Alibaba Group ビジネスのオフライン解析を 7 年以上に渡って安定的に支え、マルチレイヤーサンドボックス保護およびモニタリング機能を備えています。

  • 優れた費用対効果

    MaxCompute は、オンプレミスのプライベートクラウドモデルに比べ、調達費を 20% から30% 削減できます。

機能

  • データトンネル
    • 大規模な履歴データチャネルに対応しています。

      TUNNELは、並列性の高いデータのアップロードとダウンロードサービスを提供します。 TUNNEL サービスは、TB 級や PB 級の日次データのインポートとエクスポートに対応しているため、全データや履歴データを一括インポートする際に特に便利です。また、TUNNEL サービスは Java プログラミングインターフェイスを実装しており、MaxCompute クライアントツールには、ローカルファイルやサービスデータの交換に対応したコマンドが用意されています。

    • リアルタイムおよび増分データチャネル

      リアルタイムのデータアップロード向けには、レイテンシを低減して使いやすい DataHub サービスが MaxCompute に搭載されています。 DataHub サービスは、増分データのインポートに特に適しています。DataHub は、Logstash 、Flume、 Fluentd 、Sqoop などの多様なデータ転送プラグインにも対応しています。また、ログ機能も備えています。ログは MaxCompute に送られ、次に DataWorks でログ解析とマイニングが実行されます。

  • コンピューティングおよび解析タスク
    MaxCompute は、複数のコンピューティングモデルに対応しています。
    • SQL: MaxCompute では、データはテーブル形式で保存されます。 MaxCompute では、外部インターフェイス用の SQL クエリ関数を使用できます。MaxCompute は従来のデータベースソフトウェアと同じように操作できるだけでなく、PB 級のデータを処理することもできます。

      注:
      • MaxCompute SQL は、トランザクション、インデックス、更新と削除操作に対応していません。
      • MaxCompute SQL 構文は、Oracle や MySQL とは異なり、他のデータベースの SQL 文を MaxCompute にシームレスに移行できないので注意してください。
      • MaxCompute SQL では、クエリを秒からミリ秒単位で実行できますが、結果をミリ秒単位で返すことはできません。
      • MaxCompute SQL の利点は、ラーニングコストを低く抑えられることです。 複雑な分散コンピューティングに関する知識は必要ありません。 データベース操作の経験があれば、MaxCompute SQL を短期間で習得できます。
    • UDF: ユーザー定義関数

      MaxCompute には、コンピューティングに関するユーザーニーズを満たす数多くの組み込み関数が実装されていますが、カスタム関数を作成することもできます。

    • MapReduce: MapReduce は、MaxCompute に実装されている Java MapReduce プログラミングモデルです。 Java プログラミングインターフェイスが採用され、開発プロセスを簡素化する設定になっていますが、MapReduceを使用する前に、分散コンピューティングの基本概念を理解し、関連のあるプログラミング経験を積むことを推奨します。 MaxCompute MapReduce では、Javaプログラミングインターフェイスを使用できます。
    • Graph: MaxCompute の Graph 機能は、反復グラフ計算向けの処理フレームワークです。 グラフ計算ジョブでは、グラフを使ってモデルが構築されます。 グラフは頂点と辺から構成され、頂点と辺には値が含まれます。 グラフの編集と展開が繰り返し実行された後、最終結果が得られます。 代表的なアプリケーションには、PageRank、SSSP アルゴリズム、K平均法アルゴリズムなどがあります。グラフは編集と展開が繰り返し実行され、最終的な結果が表示されます。代表的なアプリケーションには、PageRank、単一始点最短距離アルゴリズム、K 平均法クラスタリングアルゴリズムなどがあります。
  • SDK

    開発者向けに便利なツールキットが用意されています。 詳細は、「MaxCompute SDK」をご参照ください。

  • 安全性

    Maxcompute には、データを保護するための強力なセキュリティサービスが搭載されています。詳細は、「セキュリティガイド (security guide)」をご参照ください。