【デモあり】3つのプロダクトですぐに可視化できるリアルタイム分析(テックコラム)

 

Alibaba Cloudのデータ分析における考え方でも特に重視されているのが「リアルタイム分析」です。本稿では、その基本的な考え方のおさらいから、従来のバッチ処理分析との違い、そしてこれを簡単に実現するAlibaba Cloudプロダクトの活用方法について解説します。

 

概要

・鮮度の高いデータを利用するリアルタイム分析は、バッチ処理では得られなかった新たな洞察をもたらす
・製造業の不良品検知や、小売業のレコメンデーションや店舗内人流の可視化を簡単に構築(デモあり)

・Log Service、Realtime Compute、Elasticsearchの3 Stepで、簡単にリアルタイム分析を実現

 

なぜ、リアルタイム分析が重要なのか


Alibaba Cloudのデータ分析プラットフォームは、3つの設計思想「Live Data」「Fast Data」「Intelligent Data」に基づき、鮮度の高いデータを、素早く示唆のあるデータ変換することで、ビジネスの意思決定を加速させることを目指しています。この設計思想により、Alibaba Cloudのデータ分析プラットフォームは世界中の小売、製造、流通、通信、広告、金融、エネルギーなど、様々な業界に導入された実績があります。

Alibaba Cloudのデータ分析プラットフォームの3つの設計思想
〈Alibaba Cloudのデータ分析プラットフォームの3つの設計思想〉

たとえば製造業では、工場の機械が不良品を出す時に、
・不良品が発生してからそのデータを取得するまでにかかる時間
・不良品を区別するためのデータ分析にかかる時間
・データの分析結果から次のアクションまでにかかる時間
は、不良品が数百、数千となってくると単体では僅かな処理時間でも、トータルで大きな差が出てきます。

製造業の不良品検出

小売業では、お客様の入店から退店の間に、プロモーションやレコメンド、割引セールなどを通じてお客様と関わる機会を失わないように、顧客データと店舗内での行動をすぐに把握・分析する必要があります。

小売業のレコメンデーションとindoor map分析
〈小売業のレコメンデーションと人流可視化デモ〉

情報の価値は、時間の経過と共に失われていきます。リアルタイム分析は、情報が新鮮なうちに活用することで、顧客満足度や運用効率の向上などを実現し、収益を増やす手段となります。同時に待ち時間を大幅に短縮するので、工数を削減にも繋がります。

ここまで掲載したデモ画面のような分析・可視化が簡単に実現可能なAlibaba Cloudのユーザーは、多くがリアルタイムなビジネス・インサイト(ビジネスに必要な意思決定)によってビジネス上の大きなメリットを享受しています。

 

従来のバッチ処理分析との違い


バッチ処理による従来の分析は「結果反省型」で、「何が起きたのか」を振り返るのに役立ちますが、次の結果が出るまで半日〜1日かかるのが一般的です。一方、リアルタイム処理による分析は、「今何が起きているのか」を即時可視化するため、顧客のその場の反応に応じて打ち手を決めるような、リアルタイムな洞察による新たな価値をもたらします。

従来のバッチ処理分析との違い
〈従来のバッチ処理分析との違い〉

 

リアルタイム分析を実現する3つのプロダクト


データ分析は、収集→処理・蓄積→可視化という3つの段階で進めます。その方法は目的や用途、環境に応じて様々です。

しかし、データを可視化するまでは様々な課題があります。
例えば、データ収集の段階では、オンプレサーバからパブリッククラウド、IoT、RDBMS、エッジ、OT(制御技術)まで様々な場所で新しいデータが発生します。これらのデータにシームレスにアクセスできることが収集の第一歩ですが、簡単ではありません。

しかしそういったケースでも、Alibaba Cloudを使ったリアルタイム分析が役立ちます。これらのプロダクトを活用することで、既存のシステムを大きく変えることなく、シンプルにリアルタイム分析をスタートすることができます。データ分析の流れに沿って、各プロダクトをご紹介します。

リアルタイム分析のための3つのプロダクト
〈リアルタイム分析のための3つのプロダクト〉

収集

まずはデータ収集で活躍するLog Serviceです。リアルタイム分析のスタートとなるデータ収集で最大の課題の1つは、バラバラの環境から、既存構成の変更や足跡を残すことなくデータを転送することです。Log Serviceはこれを解決します。

Log Serviceは30種類以上の様々なデータソースをサポートする、ログデータの一元管理サービス。最大の特徴は、エージェントをインストールすることで、Alibaba Cloud以外の環境からもデータを収集することが可能な点です。

エッジからフォーマットを持たないsyslogなど大量かつ多様なデータをリアルタイムに収集し、Alibaba Cloudに接続するソリューションを提供し、データパイプラインの各ポイントの可視化を実現します。ゼロコーティングでデータを収集するため、既存システムの変更や追加作業は不要です。

シンプルですぐに可視化できるLog Serviceは、Alibaba Cloudのデータ分析プロダクトのPaaSとして中国や全世界を含めて300社以上の企業が導入しています。インフラ環境が複雑化したエンタープライズだけでなく、スタートアップやスモールスタートに適したプロダクトとしても高い評価を受けています。

処理・蓄積

データをリアルタイムに収集できたその先で待ち受ける次の課題は、大容量かつ複数のソースのデータに対し、1つも欠損や重複することなく処理をすることです。ここでRealtime Computeの出番です。

Realtime Computeは、フォールトトレランス戦略を使用して正確かつ1回限りの処理を保証(exactly once)するApache Flinkを、Alibaba CloudのApache Flinkコアコミッターたちが最適化しながら、Kubernetes上にデプロイしたフルマネージドサービスです。生成されたデータを低コストで分散ストリーミングし、リアルタイムでJOIN処理やデータ整形し、ターゲットテーブルへ出力します。

可視化

データをリアルタイムでテーブルへ格納したあと、最後に待ち受ける課題が、どのようにデータからビジネス上の利益(アリババの考え方では”Business Insight”)へ変換するかです。ここで、Elasticsearchが活用できます。

Alibaba CloudのElasticsearchは、検索・分析エンジンとしておなじみのElasticsearchとは少し異なります。アリババとElastic社とのパートナーシップにより、正規サービスと同じ機能を持ちながら、Alibaba Cloud Elasticsearchの独自機能として、パフォーマンス最適化、SQLによる分析、機械学習による分析などを実装しており、簡単に分析・可視化が実現できます。(※冒頭の製造業や小売業のデモも、Alibaba CloudのElasticsearchの独自機能で実装したものです。店舗内の顧客人流の可視化のために、店舗内のマップを独自で作ることもできます。)そしてこれらを正規版よりも低コストで利用することができるのが大きな魅力です。

【参考】各プロダクト詳細
【参考】各プロダクト詳細

まとめ


従来のバッチ処理によるデータ分析に比べ、リアルタイム分析は、意思決定のスピードをはじめ、ビジネスに大きなメリットをもたらします。一方でリアルタイム分析は、技術的には比較的新しく、なかなか世の中に情報が多くない領域でもあります。しかしアリババはこれまで、自社のビジネスの様々なシーンでリアルタイム分析を利用したサービスを提供してきました。その技術とノウハウが詰まったAlibaba Cloudのプロダクトを活用することで、ハードルが高いと思われがちなリアルタイム分析も非常に容易に実現が可能です。ぜひ一度試してみてはいかがでしょうか。

 

〈関連リンク〉

Alibaba Cloud データ分析力の紹介&Log Serviceで収集・可視化・異常検知・レポーティングする from SBクラウド株式会社

Alibaba Cloudで動かすElasticsearch! from SBクラウド株式会社

f:id:sbc_kitano:20200807195951p:plain

SBクラウド株式会社 技術部 ソリューションアーキテクト課

大原 陽宣

2019年からSBクラウドにJoin。収集、分散処理、ETL、検索、分析、機械学習基盤の構築、運用等を経て、現在分散系をメインとしたビッグデータとデータベースを得意・専門とするデータエンジニア。AlibabaCloud MVP。