データクレンジングと名寄せとは?顧客データを正確に管理する方法

近年、DX(デジタルトランスフォーメーション)の取り組みの中で、自社の顧客データの活用の実施・検討をする企業が増えている一方、顧客データを適切な形で統合できないということがシステム構築上の課題となっている企業も少なくありません。顧客データを統合する前段階の作業として重要なのが「データクレンジング」と「名寄せ」です。

本記事では、なぜ重複したデータが発生するのか、データクレンジングと名寄せとはなにか、顧客データ統合の必要性について紹介します。

なぜ重複した顧客データが発生するのか

顧客データの重複は、主に2つのタイミングで発生します。1つ目はデータの入力・登録時に発生するケース、2つ目は複数のシステム・データベースに存在する顧客データを統合する際に発生するケースです。

1つ目の入力・登録時に発生するケースは具体的には次のような状況です。

  • webのフォーム等で、顧客が入力する際にゆらぎが発生する
  • 顧客データの入力方法が統一されておらず、担当者ごとに異なる形式で入力する
  • 導入運用が決まっていない段階で発生した顧客データが存在している
  • 運用が変更になったが、変更前のデータが残っている

単体のデータベースにおいてこのような重複が発生します。これらは表記ゆれから発生するもので、データクレンジングの作業で重複を減らすことができます。

2つ目の複数のシステム・データベースを統合する際は、同一人物であるかどうかの判別を何らかのルールで行う必要があり、ルール次第で重複が発生します。データベースごとにデータの持ち方が異なるケースが多いため、それぞれのデータベースに存在するデータに対してデータクレンジングを行い、名寄せの処理を行い統合します。

データクレンジング・名寄せとは

データクレンジングとは

本記事では、顧客データ統合の観点でのデータクレンジングについて説明します。
データクレンジングとは、重複や誤記、表記ゆれを削除・修正してデータの品質を高める作業です。機械学習の観点ではそれらに加えて、破損したデータや異常値を含むデータなどを標準化する処理も含めてデータクレンジングと呼ぶことが多いです。

例えば、会社名の「株式会社」と「(株)」が混在している場合、同じ会社であっても表記が一致していないために、データを分析する際に別々の会社と判別してしまいます。他にも、電話番号の表記が統一されていなかったり、生年月日が和暦西暦が混在している場合にも別々のデータとしてプログラムが判別します。
データクレンジングではこのような各種データの表記ゆれなど整理します。

図1:表記ゆれのイメージ

データクレンジングが行われていない状態だと、検索してもうまくデータが出てこなかったり、重複して抽出されるデータが生じる可能性があります。またCRMや、MAといったツールを使用する際に、同じ人物に営業を行ったり、同じ内容のメールを送信してしまうということも発生する可能性があります。

名寄せとは

名寄せは、複数のデータベースにある顧客データを、一つの顧客データとして統合する作業です。顧客を識別する際に共通のIDが存在する場合にはIDをKeyにして統合を行います。共通のIDが存在しない場合には名前、メールアドレス、住所、電話番号などの属性データをKeyにし、一致する顧客を「同一顧客」と識別し統合を行います。

図2:統合のKeyとなるデータ

データクレンジングはデータの表記ゆれなどを削除・修正してデータの品質を高める作業で、名寄せは複数あるデータベースの顧客データを一つのデータベースに統合するために行う作業です。

単に名寄せの処理を行うのみでは、重複したデータや誤ったデータが生成される可能性があるため、必要に応じてデータクレンジングの処理を事前に行っておく必要があります。

顧客データ統合の必要性

同一人物の顧客データが複数あることで起きる問題

誤ったデータや重複データが生成されてしまうと、正確に顧客を分析できなくなります。
また、メールとモバイルアプリやプッシュ通知といった複数のプッシュ型のコミュニケーションチャネルを提供している場合に、顧客データが散らばっている状態だと同じ顧客に対して同じ内容の通知を何度もプッシュしてしまい、顧客にとって「うっとうしい」コミュニケーションをしてしまう可能性があります。顧客ごとに受け取りたい情報が異なり、チャネルも異なるため、適切な配信除外の設定が行えるようセグメンテーションを作成する必要があります。

より正確な顧客データ統合を行うために、データクレンジングでデータの品質を高めたうえで名寄せを行い、顧客データの重複を減らすことが重要です。

顧客データ統合により実施できること

DXがバズワードとして存在しますが、顧客データ統合は特に「攻めのDX」の観点においては次のようなテーマに対しての取り組みの前段階として行います。

  • データの可視化
  • 既存商品・サービスの提供価値向上
  • 顧客体験観点でのコミュニケーション改善
  • 新たなビジネスモデルの構築

売上の向上やLTVの向上、他社との差別化および競争力の強化を目的として、このようなテーマを取り組む企業や検討している企業が増えています。

▼攻めのDXについての詳細は、下記の記事をご覧ください。
「攻めのDX」とは ~「守りのDX」と「攻めのDX」の違い~

顧客データ統合のアプローチの1つにCDP

顧客単位でのデータの名寄せ=統合を行ううえで、CDP(カスタマーデータプラットフォーム)の導入がアプローチの1つとしてあります。

CDPは、データ統合を行ったうえでのデータの可視化や分析、各種マーケティングツールでのデータ活用のために必要な機能を備えています。CDPでは、データの統合を行うための機能があり、今回の名寄せという処理を自動で行い利用可能なデータを作ることにも利用できます。

▼CDPの機能やメリットについての詳細は、下記の記事をご覧ください。
CDP(カスタマーデータプラットフォーム)とは何か?

まとめ

顧客データにおけるデータクレンジングと名寄せとはなにか、顧客データ統合をすることでどのようなことが実現できるのかについて紹介しました。

顧客データの名寄せ=統合について、CDPを導入することでシステムを用いて自動で処理を行える環境を構築できます。

EVERRISEではCDP「INTEGRAL-CORE」の提供とあわせて、目的に合わせたデータ統合基盤の開発やコンサルティングも行っております。データ統合および活用についてご検討されている方はぜひお気軽にご相談ください。

  • このエントリーをはてなブックマークに追加
  • Pocket