コラム

2021年1月15日
データドリブンに欠かせない、
データクレンジングの
メリットと必要性
  • BI/データ分析
  • データ連携基盤

生産管理システムや販売管理システムなどに蓄積されたデータは経営判断や営業戦略を立てていくうえで重要な指標となるもの。ただ、実際に使えるデータとして活用するためには、データクレンジングが必要です。

データクレンジングがされたデータは、可視化されることで生きたデータとして活用することができるようになります。

データを可視化して経営判断に活かすためにはBI(ビジネスインテリジェンス)が有効です。BIに関してはこちらの記事で解説していますので、ご一読ください。


データクレンジングとは

データクレンジングとは、データベースに保存されている情報のなかで、重複や誤記、表現の揺れなどがある項目を抽出し、修正・削除を行い最適化する作業を指します。

顧客リストや会員リスト、取扱商品リストなど、企業は通常さまざまなデータを保持しています。しかし、これらのデータが一定のルールに従って整然とまとめられているケースは実はまれで、同じデータが重複していたり、誤表記があったり、また同じ項目なのに表記が異なっていたりといった問題があるケースも少なくありません。特に企業規模が大きく、長年にわたって情報が追加されてきたデータベースにはありがちで、そのまま放置してしまうとデータの運用に支障をきたし、余計なトラブルのもとになってしまう危険性があります。

また、こうしたデータベースは企業の経営判断の材料にしたり、営業戦略を立てる際の参考にするケースもあります。しかし、データクレンジングされていない不完全なデータは誤判断や誤認識の原因にもなり、結果として企業に大きな損害を与えることにもなりかねません。こうしたトラブルを回避するためにもデータクレンジングは重要な作業で、データ運用前にはクレンジング済みのデータかどうかを確認する必要があります。

データクレンジングを行ううえでの手法や実際のプロセスは、以下の記事でも詳しく紹介しています。こちらもぜひご参照ください。


データクレンジングにおける
「名寄せ」とは

データクレンジングを行う際の作業として「名寄せ」という言葉を聞いたことがある方もいるかもしれません。これはデータ内で重複している項目をひとつにまとめて統合する作業で、データクレンジングのなかでも最も重要な作業のひとつです。

前項でも少し触れましたが、データベースにおいてデータが重複するのは珍しいことではありません。架空の「XYZエンジニアリング株式会社」という企業を例にとってみると、顧客リストのなかでは以下のように表記されていることが考えられます。

  • XYZエンジニアリング株式会社
  • XYZエンジニアリング(株)
  • エックスワイゼットエンジニアリング株式会社
  • エックス・ワイ・ゼット・エンジニアリング株式会社
  • XYZエンジニアリング

など、読み方やカタカナ表記、英語表記の違い、中黒を入れるかどうか、または普段呼んでいる略称をそのまま記載してしまったなどのパターンです。また、昔は「XYZエンジニアリング株式会社」だった企業が合併して社名が変わったというケースもあり、これも旧社名と新社名が同じリストに載っていればデータが重複することになります。

人の目で見ればこれらは同じ企業名であり、表記の違いと分かりますが、データベースとして機械的に運用する場合、これらは異なる企業と認識されてしまいます。そのため、データベースを運用していくうえでは一定の表記ルールを定め、そのルールに沿って重複データを修正・削除する名寄せ作業が必要となるのです。

この名寄せはデータクレンジングのメインの作業といってもよく、その重要度から「名寄せ=データクレンジング」と考える人も少なくありません。ただ、名寄せは重複項目の解消をするための作業であるのに対し、データクレンジングはデータの誤記や表記揺れの解消、場合によっては不足データの補填などの作業も含まれるより広い意味を持った言葉として使われるのが一般的です。

この名寄せは、件数が100件程度であれば手作業でデータベースを修正するケースもあります。ただ、項目数が何千件にもわたる場合は人の手で行うのは不可能なため、専用のツールを使って機械的に修正していくのが一般的です。


「粗い」データは
どうして生まれる?

データクレンジングが必要な「粗い」データはなぜ生まれるのでしょうか。日常業務のなかで考えられるケースをいくつかご紹介しましょう。

データ入力における統一ルールの不備

データの重複が起こる原因として最も考えられるのは、そもそも入力する際に表記ルールが設けられていないというケースです。例えば営業部で共有している顧客管理データは営業部の社員がそれぞれ自分の担当顧客を入力していると考えられます。この場合、Aさんは「株式会社」と入力しているのに対し、手間を省きたいBさんは「(株)」と入力していたら、それだけで表記が統一されていないデータが生まれることになります。

社名以外にも、人の名前でも姓名の間を全角スペースにするか半角スペースにするか、電話番号のハイフンや郵便番号の「〒」マークの有無、番地を全角数字と半角数字のどれで入力するかなど、表記が不統一になる原因はいくらでも考えられます。こうした事態を防ぐため、データベース運用の際は表記ルールを設け、それに基づいて定期的にデータクレンジングを行う必要があります。

複数の担当者・部署間で管理していたデータを統合

複数のデータを統合するのも、データ表記の不統一が起こりやすい場面のひとつです。郵便番号の表記を例にとった場合、ある部署では入力したデータを別のシステムと連携して活用することを想定しているため「0000000」と7桁をそのまま入力し、ある部署ではエクセルデータをそのまま宛名ラベルに印刷して郵送に使うことを想定しているため「000-0000」と入力しているなどのケースが考えられます。

データベースを作成する目的や、それをどのように活用するかは部署によって異なります。その目的によって項目の記載の仕方、どのような情報を入力するかが変わるケースもあるため、社内の顧客データを集約したいからといって、そのまま統合してしまうと表記の不統一の原因になってしまうのです。


「粗い」データを
そのまま使用するリスク

データクレンジングはなぜ必要なのでしょうか。ここでは、表記が統一されていない、重複があるなど「粗い」データをそのまま使用することによるリスクについて、考えてみましょう。

業務効率の低下

クレンジングされていないデータをそのまま使うリスクとして、まず思い浮かぶのは業務効率が低下するという問題です。企業が保持しているデータベースは、業務のあらゆる場面で使うことが考えられます。会員登録しているユーザーにDMを送付したり、商品リストから重点商品をリストアップしたり、Webデータベースを構築する際のマスタにするなどその用途はさまざまです。

しかし、データがクレンジングされていないと、こうした作業の際にいちいちデータを整形したり、重複を解消したりといった手間がかかります。せっかく業務効率改善のためにデジタルを導入したのにこんな手間が発生したら……本末転倒といえるのではないでしょうか。

分析精度の低下

企業のデータベースは、経営判断を下したり営業戦略を立てたりする際に市場や顧客の動向分析にも使われます。どのような商品がどの層に売れているのか、将来的に商品を購入してくれそうな潜在顧客はどのくらいいるのかなどのデータは、いずれもビジネスの成功を左右する重要な情報です。

しかし、こうした分析のもととなるデータが不正確であったり、重複が頻繁にあったりしたのでは、正確な判断を下すことはできません。例えば潜在顧客を100社と見積もったのに、実際には重複が多く30社だった……こんな事態になってしまったら、そもそも営業戦略を一から見直す必要さえ出てきます。

顧客の信用を損なう

不正確なデータは、企業の信用にも関わります。契約書や請求書など、顧客に書類を郵便や宅配便で送る場合、通常は社内で保持している顧客リストをもとに送付することになります。しかし、データの重複や誤表記があると、名前を間違ったまま送ったりするだけでなく、本人に大切な書類が届かないといったトラブルにつながることも考えられます。セキュリティの強化やコンプライアンスが重視される昨今、こうした事態になれば企業にとって大きな損害にもつながりかねません。


データを事業に生かすには、データクレンジングが欠かせない

企業が日々の業務のなかで蓄積するデータのなかには、より細密なマーケティング活動や顧客のフォロー、また場合によっては新しい事業のアイデアにつながるものもあり、企業にとっては非常に重要なものといえます。こうしたデータを有効に、そして効率的に活用するためには、ただ蓄積するだけでなくデータクレンジングというメンテナンスが欠かせません。特にデータを売り上げにつなげたいと考えている企業は、データクレンジングや名寄せなどの取り組みを始めてみてはいかがでしょうか。