データ統合に必要な仕組み Data Lake / ETL / DWH とCDPの構成

顧客の属性データや行動データを統合を進めるうえで、Data Lake(データレイク)やETL(Extract/Transform/Load)、DWH(Data Warehouse:データウェアハウス)といったシステムの役割について知る必要があります。

また、CDP(Customer Data Platform:カスタマーデータプラットフォーム)は、それらのシステムを用いて構成されます。

この記事では、非エンジニアがデータ統合を検討するうえで知っておきたいシステムに関する基礎知識をご紹介します。

データ統合基盤 “CDP” とは

CDPは、顧客データを管理するためのプラットフォームで、さまざまなシステムやマーケティングツールでバラバラで管理されてしまっているデータを統合管理し、活用するための基盤です。

取り扱うデータはさまざまで、ECサイトであればまずは購入情報を管理するデータベース、在庫を管理するデータベースなどが、中心となるデータです。また、サイト上の行動を管理するアクセス分析のツールや、メール配信ツールやMA(マーケティングオートメーション)、web接客ツールにもユーザーとのコミュニケーションに関するデータが存在します。

さらにECサイトだけでなく店舗も運営している場合には、会員カードや会員アプリで保有しているデータや、POSデータ、受発注管理のデータなどがあります。

これらのデータを統合することで、戦略の立案やマーケティング施策の実施と振り返りに活用できるようになります。

データを統合してBIツールなどを用いることで、それぞれのデータによる断片的な判断ではなく、全体を俯瞰できる情報による正しい判断ができるようになったり、手作業で統合、可視化していた作業を自動化して業務効率化やスピーディーな意思決定が行えるようになったりします。

また、各種マーケティングツールにて個別に判断をして実施していた施策を統合されたデータをもとにセグメントを切って実施し、評価についてもツールごとではなくユーザーの一連の行動をもとに評価できるようになります。

詳しくは、次の記事を参考にしてください。
CDP(カスタマーデータプラットフォーム)とは何か?

データ統合に必要な仕組み Data Lake / ETL / DWH

CDPの検討を含め、データ統合を進めようという話になるとData Lakeや ETL、DWHという言葉に出会うことになりますが、聞いたことはあるがいまいち理解できていないという人も多いのではないでしょうか。

それらの仕組みについて、技術者以外でもイメージができるように大まかな粒度で説明すると次のとおりです。

Data Lake

  • 各種RAWデータを保管する箱(ストレージ)

ETL(Extract/Transform/Load)

  • RAWデータを加工してDWHに連携するハブ
  • DWHに格納されているデータを加工して他のツールに連携、Data Lakeに格納するハブ

DWH(Data Warehouse)

  • 利用しやすいように構造化したデータを保管する箱(データベース)

ストレージ(Data Lake)とデータベース(DWH)の2つが必要となる理由についてはイメージしづらい部分かもしれません。主な理由としては次のとおりです。

まず、大量のデータを扱う際に 直接データベースにデータを保存しようとすると、システムの負荷が大きく、システム全体のパフォーマンスが悪くなり、結果的にデータの欠損が生じてしまうリスクが大きくなります。RAWデータという形でまずはData Lake にストックし、DWHに入れるという構成にすることでリスクを低減できます。

また、システム間連携において直接データベースと接続する開発にコストが発生しますが、CSVなどのファイルを用いた連携であればコストを下げられるため、それらのファイルをDataLakeなどの外部ストレージとの間でデータを入出力しやすい構成にしておくことにメリットがあります。

AWSやGCPにおけるData Leke / ETL / DWH

データ統合を進めるにあたり、Data Lake / ETL / DWHという言葉ではなくAWS(Amazon Web Service)やGCP(Google Cloud Platform)の提供しているサービスの名称が出てくることが少なくありません。

AWSやGCPが提供しているサービスで、データ統合におけるData Lake / ETL / DWHに該当するサービスは次のとおりです。ただし、それぞれ指しているものや概念として異なる部分があるため、より詳しく知りたい場合は各サービスが提供している情報をご確認ください。

Data Lake

ETL

DWH

CDPの構成

Data Lake およびETL、DWHを用いてデータ基盤を構築するにあたり簡易なイメージとしては次のような形となります。CDPと呼ばれるシステムでは、下図のCDPの領域の構成に加えて独自の機能を持っています。

主なデータの扱い方については次のとおりです。

  • CRM・ERP系のデータについてはData LakeにRAWデータを配置、ETLで必要な形に加工してDWHに格納
  • 多くのCDPではwebサイトやモバイルアプリのデータをトラッキングする仕組みがあり、それらをDWHに格納 ※1
  • DWHに格納されたデータをETLを用いてBIツールや広告媒体、メール配信やプッシュ通知配信のツールに連携 ※2
  • 広告媒体やメール配信、プッシュ通知配信の結果をETLを用いてDWHに格納 ※2

※1 バックアップとしてData Lakeにもトラッキングデータを配置するケースも多い
※2 ツールによってはData Lakeを介してCSVで連携

CDPが独自に持っている機能

CDPの構成のうちデータの扱い方としては前段落のようなイメージを持っていただければ良いですが、AWSやGCPにある、該当のシステムを並べるだけではCDPとしては機能しません。

CDPにおいて重要となるのが、収集した顧客ごとのデータの統合や名寄せの処理、集計の処理です。

データの統合や名寄せの処理は、例えばECサイトの顧客データと店舗の会員カードの顧客データの統合がイメージしやすいかと思います。データをただ集めるだけではなく統合するための処理が重要です。

顧客データの統合と名寄については、弊社の提供しているCDPの機能の紹介ではありますが次の記事も参考になるかと思います。
分散した顧客データを統合・名寄せし一人の顧客像を描き出す、SCV機能

集計の処理は、分析を行ったりセグメントを作成したりする際に扱いやすいデータにしておく必要があり重要です。例えば、webサイトのアクセスログをもとにセッション(※3)といった単位のデータを作成しておくことではじめて、ユーザーの月間の訪問回数をもとにした分析やセグメントの作成ができるようになります。

※3 セッションの定義はさまざまですが、アクセスログで確認できる最後のアクセスから30分経過したらセッションが切れるといった定義にすることが多いです。また、その他の複合的な要素を加味して集計の処理を行います。

CDPではこれらを自動処理する機能と管理画面から任意の処理設定を行える機能を持っていますがAWSやGCPなどを用いて構築する場合には、これらの処理をゼロから開発する必要があります。

また、CDPによりますがSQLを書かずに管理画面から自由にセグメントを作成できる機能を提供しているツールが多くあります。このような機能ををゼロから開発しようと思うと、金額的なコストも時間的なコストも非常に大きなものとなってしまいます。

まとめ

今回はデータ統合に必要な仕組み関連するシステム Data Lake / ETL / DWH とCDPの構成についてご紹介しました。

データの統合は必ずしもCDPが必要ではありませんが、データ統合を行ったうえでのデータの可視化や分析、各種マーケティングツールでのデータ活用という観点ではCDPの導入を検討した方が良いケースも多いです。

なぜデータ統合を行うのか、どのような分析を行いたいのか、どのような施策を行いたいのかなど目的を整理したうえで、どのような構成が必要となるのかを検討することが重要です。

EVERRISEでは、CDP「INTEGRAL-CORE」を提供のみでなく、目的に合わせたデータ統合基盤の開発やコンサルティングも行っております。データ統合および活用についてご検討されている方はぜひお気軽にご相談ください。

  • このエントリーをはてなブックマークに追加
  • Pocket