【データマイニングとは】注目される理由、得られる知見や業界別の応用例などを解説 - CANVAS

ビットコインに関連して「データマイニング」という言葉を聞いたことがある方も多いと思います。今回は「データマイニング」の意味や注目される理由、データマイニングによって得られる知見などについて解説します。

(※もしかしたら仕事頑張りすぎ!? ... そんな方におすすめ『仕事どうする!? 診断』)

1.データマイニングとは

データマイニング(Data Mining)とは、大量のデータから、統計学や機械学習、AIなどの手法を駆使して分析を行い、新たな知見を得ることです。

マイニングとは鉱山の採掘をすることで、データをお宝の山に見立てて、知見を採掘することを指します。

現代は、多くの人がスマートフォンなどのデバイスを使うため、日々、大量のデータが蓄積されていっています。

また、マイニングをする手法も、統計学の進歩や機械学習、AIの進歩により、洗練されていっています。

蓄積する大量のデータからデータマイニングをすることは、企業活動にとって必須となっています。

今の仕事、会社がつらい...無料で相談できる転職エージェント「マイナビエージェント」に相談してみる。

2.データのDIKWモデル

現代は、あらゆるビジネス判断に、根拠となるデータの提示が求められます。

しかし、データというのは収集、蓄積しただけでは価値を持ちません。

そこから何らかの知見を導き出して初めて価値が生じます。

例えば、データマイニングの世界でよく登場する「紙おむつとビールの関係」の話があります。これはあるスーパーで、POSデータを分析したところ、紙おむつとビールを同時購入する人が多かったことから、売り場に紙おむつとビールを並べて陳列したところ、2つの商品の販売数が伸びたという話です。

このようにPOSデータを蓄積しているだけでは意味はなく、分析を行い、そこから何らかの知見を導き出し、施策に反映する必要があります。

そこで、データを価値の大きさから分類したDIWKモデルを理解することが必要になります。

2.1.データ(Data)

保存されているさまざまなデータのことです。

紙おむつとビールの例ではPOSデータがそれにあたります。

ただし、保存しているだけのデータなので、ほとんど価値を持ちません。

2.2.情報(Information)

収集されたデータを分類整理すると情報になります。

商品別売上や日売上集計、月売上集計などの集計表にあたります。

グラフなどで可視化をすれば、傾向などを知ることはできますが、得られる知見はごく基本的なものに限られます。

2.3.知識(Knowledge)

データをさらに分析することで、単純な可視化では得られない知見を導き出すと、それが知識となります。

先の例では「紙おむつとビールを同時購入する人が多い」というものが知識に当たります。

2.4.知恵(Wisdom)

得られた知識を販売施策などに反映し、効果を確かめ、施策の改善を行なっていくことでノウハウ、知恵になります。

先の例では「紙おむつとビールを隣接して陳列する」ということになります。

企業の中で日常的に行われる集計は、データを情報に変える作業です。

従来手法の統計分析による可視化は情報を知識に変える作業です。

データマイニングはさらに深い分析を行い、知識を知恵に変える作業です。

多くの企業は、日々得られるデータを集計、統計分析は行なっていますが、これからはより進んだデータマイニングを行うことで、具体的な施策に反映させることができるようになります。

(DIKWモデルと分析手段の関係。データマイニングは、知識を知恵に変える技術)

3.データマイニングが注目される理由

データマイニングが注目される理由は主に3つあります。

3.1.大量のデータが簡単に集められるようになった

デジタル技術が普及し、企業には日々大量のデータが集まるようになっています。

POSレジは大量の販売記録を蓄積し、消費者はスマートフォンやPCで注文や問い合わせをしたり購入したりして履歴データを蓄積し、企業は業務システムにより活動履歴データを蓄積しています。

さらに、IoT機器が広がり、企業活動をするだけで、自動的に大量のデータが集まるようになっています。

このような大量のデータ＝ビッグデータを従来の集計の仕組みや統計手法では分析することはもはや難しくなっています。

このような大量のデータを処理し、知恵に高める手法としてデータマイニングが注目されています。

3.2.ビジネスが複雑化している

小売業を見ても、販売チャネルは小売店だけではなくなっています。

小売店と百貨店、スーパー、ショッピングモールでそれぞれ売れ行きには違いが出てきます。

さらに、ECもあり、大手ECと小規模ECでは、売れ行きの傾向が異なります。

また、販売価格もセールやセット価格など、さまざまに対応をしなければなりません。

このように複雑化する中で、どのチャネルでどういう売れ方をしているのかを把握しなければ売上を伸ばすことは難しくなっています。

このような複雑なデータから知見を導き出す手法としてデータマイニングが注目されています。

3.3.データマイニングツールの進化

データマイニングを行うには、高度な専門知識が必要になりますが、データマイニングツールも進化しています。

データマイニングツールは、専門的な知識がなくても、データマイニングを自動化し、結果を表示してくれるというものです。

つまり、データマイニングによる知恵を必要としている営業や商品企画のスタッフが、データマイニングの結果を見ることができます。

このようなツールを活用することで、データマイニングから得られる知見をタイムラグなしで現場に反映させることができる環境が整ってきました。

ただし、どのようなツールを入れるか、どのような分析をするか、その分析結果をどう解釈するかについては、データ解析に関する高度な専門知識をもった専門家＝データサイエンティストが必須です。

通常は、データサイエンティストが業務を分析し、どのようなツールを導入してどのような分析をするかを企画し、現場スタッフに対して解釈の方法を研修などで伝えます。

4.データマイニングで得られる知見

データマイニングで得られる知見は、相関、説明、予測、発掘の4つに集約されます。

4.1.相関

複数のアイテムのうち、似ているものを分類してくれます。

人間の想像を超えて、意外な相関関係を導き出してくれて、それが施策の大きなヒントになることがあります。

先ほどの紙おむつとビールがまさに隠れた相関関係を導き出した例になります。

4.1.1.クラスタリング

商品、消費者などを似ているグループにまとめてくれます。

単なる価格や商品ジャンル、年齢、居住地などの人間にもわかりやすいパラメーターだけでなく、広範なパラメーターの中から分類するのに重要なパラメーターを自動的に選び出して分類を行なってくれます。

このため、人間にとっては意外に思える相関関係が浮かびあがり、新たなビジネス施策につながります。

4.1.2.アソシエーション分析

クラスタリングとよく似ていますが、クラスタリングが似ているものをグループ化するのに対し、アソシエーション分析は特定のアイテムとの相関度が高いものを浮かび上がらせます。

紙おむつとビールの関係も、このようなアソシエーション分析の中のひとつの手法であるバスケット分析から導き出されたものです。

4.1.3.協調フィルタリング

クラスタリングとアソシエーション分析を組み合わせた手法です。

ECの「この商品を買った人はこんな商品も買っています」というレコメンド機能に使われていることで有名です。

利用者を購入した商品の履歴からクラスタリングします。

特定の利用者が、クラスタリングされたグループの購入商品のうち、まだ購入していない商品があった場合は、リコメンドすることで購入してくれる可能性が高くなります。

4.2.説明

説明とは、ある数値がどのようなパラメーターで説明できるかを分析するものです。

例えば、天気予報で使われる不快指数は、気温と湿度から導き出されます。この場合、不快指数は、気温と湿度という2つのパラメーターによって説明できます。

より複雑な、例えばアイスクリームの売上が、気温と湿度だけでなく、風力でも説明できるとなれば、発注管理や在庫管理、販促キャンペーンなどに役に立ちます。

4.2.1.主成分分析

目的とする数値を少ない成分で説明し、全体の構造を理解しやすくするための分析です。

例えば、英語、数学、国語、理科、社会の5科目の総合得点で順位を決めた場合、総合得点という数値は5教科のパラメーターで決まることになります。

しかし、これでは複雑すぎるので可視化をすることが難しくなります(5次元のグラフを書く必要があります)。

そこで、パラメーターを要約して、2つの主成分にまとめることができれば、可視化がしやすくなります(2次元のグラフでよくなります)。

このようなことから主成分分析は次元削減、次元圧縮などと呼ばれることもあります。

2次元のグラフにまとめることができれば、散布図を描くことができ、受験者全体がどのような広がり方をしているのか、どのようなグループがあるのかが一目でわかるようになります。

4.2.2.因子分析

因子分析は、パラメーターの背後にある因子を探り出す分析です。

例えば、英語と国語という2つのパラメーターの背後には、言語能力という共通因子が隠れているかもしれません。

このような隠れた因子を探り出すことで、全体構造をより深く理解することができます。

4.3.予測

ビジネスの現場で最も必要とされる予測を行うことができます。

売上を予測することで、発注量を決めることなどができるようになります。

ただし、あくまでも「以前と同じ条件としたら」という条件つきの予測であるため、予測精度を上げるために分析手法を改善し続ける必要があります。

4.3.1.回帰分析

売上などの数値を、客数、天候などの複数のパラメーターから説明をする分析です。

結果はひとつの回帰式として出力されるため、未来の客数、天候などの想定パラメーターを入力すると、未来の売上を予測することができます。

4.4.発掘

機械学習やAIを活用して、大量のデータの中から有用な情報を発掘することです。

4.4.1.テキストマイニング

膨大なテキストデータを分析して、有用な情報を導き出します。

検索語を決めておいて検索をする検索手法とは大きく異なります。

例えば、お客様センターに寄せられた大量のお客様の声のデータを分析して、顧客満足度を推定したり、苦情の分類をしたりします。

4.4.2.イメージマイニング

膨大な画像データを分析して、有用な情報を導き出します。

例えば、服の色やデザインの形といった言語化できないものを分類したり、分析したりすることができます。

4.4.3.パターンマイニング

膨大な時系列データを分析して、有用な情報を導き出します。

例えば、テーマパークの予約をした後には、近隣のホテルを予約するパターンが頻出するとわかれば、テーマパークとホテルのセット商品を販売することで、売上が増加することが期待できます。

【関連記事】「【パラメーターとは】意味や各分野での使われ方をわかりやすく解説」

5.データマイニングの業界別の応用例

データマイニングには次のような応用例がよく知られています。

5.1.小売業

顧客の購入データやアンケートデータから、顧客をクラスタリングし、それぞれのグループに適切なアプローチをしていくというマーケティングはすでに多くの小売企業が採用しています。

また、売上予測を行い、必要な在庫、物流の手配をするということももはや常識になっています。

5.2.金融業界

金融業界では、パターンマイニングによって不正検知をしています。

例えば、東京でクレジットカードを使った5分後にシンガポールでも使われたということは通常ありえません。これにアラートを出して、スタッフがカード利用者に確認をします。

また、突然換金性の高い商品を大量に購入する、突然従来とは異なる使い方をするなどのパターンを検出することで不正利用検知に役立てています。

また、ローンの審査などにも従来の利用履歴からAIや機械学習の手法で与信力を推定して、ローンの可否や限度額を決めています。

5.3.製造業

製造業でもデータマイニングがよく使われています。

工場設備には耐用時間があり、交換部品の交換期間があります。もし、交換時期前に部品が破損をしてラインを止めることになると大きな損失となります。

それを避けるために、工場内に多数のセンサーを置き、そこから得られるデータを解析することで、部品の破損確率を算出し、破損する前に交換作業をするようにしています。

6.データマイニングをするために必要な体制

データマイニングは、今日からすぐに始められるというものではありません。

データマイニングを行い、それを業務に反映させるためには、体制を整えておく必要があります。

6.1.データウェアハウス

データ分析を行う上で、現実的な障害となるのが、企業の中で多くのデータは部署ごとに分散して保有されているということです。

この状態で、データマイニングをしようとすると、担当するデータサイエンティストは、まず社内を回って、必要なデータがどこにあるかを探し出し、そのデータを利用する許可をその部署に対して取らなければなりません。非常に手間のかかる作業になります。

そこで、社内にすべてのデータを一元管理するデータウェアハウスを構築する必要があります。

データウェアハウスが構築されていれば、データサイエンティストは必要な分析をすぐに始めることができるようになります。

6.2.データクレンジング

収集されたデータというのは整っていません。

例えば、同じ金額でも円なのかドルなのかという問題があります。住所や名前などは表記が統一されていないこともあります。

さらに、データの誤記、未入力があり、重複しているデータもあります。

このようなデータを使って、いくら精密な分析を行なっても、出てくる結果は不正確なものになります。

そのため、データを整理するデータクレンジングと呼ばれる作業が必要になります。

人力でやることは不可能なので、データの問題点を抽出して、自動化する仕組みを構築する必要があります。

6.3.適切なツールの導入

データマイニングを行うには適切なツールを導入する必要があります。

どのツールを導入していくかは、その企業がどのような業務をし、どのようなデータが収集されているのか、どのような知見が求められているのかなどを総合的に考えて決めていく必要があります。

データサイエンティストが主体となってツール選定を進めますが、利用するのは業務現場のスタッフであるため、経営層や現場とも協調しながら選定を進める必要があります。

7.まとめ

データマイニングとは、大量のデータから、統計学や機械学習、AIなどの手法を駆使して分析を行い、新たな知見を得ることです。

大量のデータの中から、相関関係、説明、予測、発掘の4つの知見を得ることができます。

小売業、金融業、製造業などではすでに盛んに用いられる一般的な手法になっています。