ビッグデータ

ビッグデータについて解説します。

ビッグデータとは

3つのV

ビッグデータはその名前が表す通り、一般的なデータ処理ソフトウェアでは扱えないほど膨大なデータの集まりのことを意味しています。情報科学の分野では、数十テラバイトから数ペタバイトの範囲のデータが対象とされています。元々はデータマイニング(データ収集)の文脈で使われていました。それが2010年頃のクラウドやスマートフォンの普及を境にして、ビジネス上重要なトレンドワードとして使われるようになります。ここ数年はvolume(量)、velocity(速度)、variety(種類)の頭文字である「3つのV」を使って表現されることが主流となっています。

ビッグデータが注目される理由

ビッグデータ

スマートフォンの普及や通信技術の急激な発展は、それに伴って世界で流通するデータ量を押し上げています。総務省によると、2015年との比較で2020年に世界で流通するデータ量は約2.7倍、年平均で22%ずつ成長していると発表されています。ウェブ上でのユーザーの行動データだけではなく、近年ではIoTを用いた健康情報、環境情報、位置情報などあらゆる情報がクラウド上に送られ、様々な場面で活用が進みつつあります。

これら大量のデータがクラウドに保存されるだけでは何か大きな価値につながりづらいのですが、これに加えて近年AI(機械学習)の技術が実用化できる水準にまで達しています。近年のAIは人間が介入せずとも、データから特徴量を抽出し、データの分類、予測、回帰、推定を行います。Googleを始めとする検索エンジンや、AmazonやNetflixのレコメンドシステムなど、ビッグデータとAIを用いることで、急激にその精度を高めた事例は企業の大小を問わず数多く存在します。そのため領域問わず様々な場面でビッグデータを集めること、それをAIで分析して新しい価値を見つけることが、これまでにないビジネスチャンスとして世界中から注目を集めているのです。

ビッグデータを支える技術

NoSQL(Not only SQL)

NoSQLはMySQLやPostgreSQLなど、マトリックス型の保存形式であるRDBMS(リレーショナルデータベースマネジメントシステム)以外のデータベースを表す言葉として定義されます。NoSQLは通常キーとバリューという組み合わせだけでデータ保存を行い、データの読み書き速度に特化しています。シンプルな形式でデータを保持できるため、非構造化された様々なデータについても簡単に保存を行うことができます。Alibaba CloudのTable Storeなどクラウドサービスでも利用することができます。

MapReduceとHadoop

2003年10月にGoogle File Systemと呼ばれる分散ファイルシステム、2004年12月にMapReduceと呼ばれるビッグデータ処理技術、Googleはこの2つの論文を立て続けに発表しました。この論文で発表された技術はそれまで困難とされていた数テラから数ペタバイトに及ぶデータ処理技術に大きな変化をもたらします。実装されたコードはGoogleから公開されなかったものの、OSSの先駆けであるApache Nutchプロジェクトがこの技術を採用、2005年7月頃にApache Hadoopとしてプロジェクトが独立します。2006年にはYahooが検索エンジンのバックエンドにHadoopを採用、プロジェクトは急加速し、その後Facebook、Twitter、LinkedInなど数多くのIT企業で利用されました。

Hadoopの仕組みは当時革命的で、大量なデータの構造化と保存のコストを大幅に削減しました。しかしながら、Hadoopは高速なクエリ処理には対応しておらず、リアルタイム性を求められるシーンに課題を残すこととなりました。

ディープラーニング

第3次AIブームの火付け役としても名高いディープラーニングですが、技術の起源自体は1957年にまで遡ります。人間の脳を模したパーセプトロンという手法が考案され、その後2006年に多層にネットワーク積みを重ねる手法が考案されました。しかし当時のコンピュータの計算量(CPU、GPU)では十分な性能を発揮できませんでした。それが2010年ごろからハードウェアが技術に耐えうるだけの性能を持ち始めます。その後、ディープラーニング は猫の画像の識別、囲碁の世界王者への勝利など様々なニュースで世界を驚かせます。その裏にはアルゴリズムが学習したビッグデータが存在していました。

ビッグデータと個人情報

個人情報保護法の改正

前述したように急激な技術発展に伴い、世の中で扱われる情報はその量、質、種類、全てにおいて大きく変化しました。そのような状況において適切な情報利用を行うことを目的に、2017年日本政府から改正個人情報保護法が施行されます。この法律では規制強化として、個人識別符号の追加、要配慮個人情報の新設、追跡可能性の確保、規制緩和として匿名加工情報の新設が定められました。

この中でビッグデータの活用において特に大きな意味を持ったのが匿名加工情報に関する項目です。企業は、保有しているデータから個人識別子となる情報を加工し、安全な管理体制を担保、匿名加工情報利用を公表することで、該当するデータは個人情報に関するルールが適用されなくなります。

GDPRとCookieの利用制限

個人情報保護の流れは日本だけではなく世界でも大きな潮流です。欧州ではGDPR(EU一般データ保護規則)が2018年に制定されました。これによってIPアドレスとCookieについても個人情報として扱われることになります。世論としても個人情報を企業が営利目的で使用することに対して、年々風当たりが強くなってきていることもあり、Googleは2020年1月に、2年以内にWebブラウザGoogle Chrome上での広告目的でのサードパーティCookieのサポートを段階的に廃止する発表を行っています。

秘密計算とSecure AI

個人のDNAや健康情報など、企業は自社が持っているデータについて外部に分析依頼を行いたくても情報漏洩リスクを考慮して外部へ情報提供が行えないケースがあります。それに対してデータを暗号化したまま分析を行う秘密計算という手法の研究がここ数年進んでおり、金融領域を中心に実証事件も始まりつつあります。この手法が確立されると、分析に当たって提供されていなかったデータについても大量にデータ提供を行えるスキームが成立するため、AIでの学習精度も格段に向上することが見込まれています。

まとめ

IoTやエッジコンピューティングなど、今後世の中ではさらに多くの情報がデジタル化され、ビッグデータとして集積されていきます。またクラウドの普及で企業は取得したデータを容易に分析する環境も整いつつあります。しかし個人情報に対する法規制も強化される動きがあるように、情報の取り扱いにはより一層の慎重さも求められています。ビッグデータを使った価値提供と安全性の担保、企業はその両面に向き合う必要があります。