クロス集計とは?方法と具体例、メリット・デメリットを解説

ビジネススキル・マナー

アンケートなどで得たデータは、そのままの数字を見るだけでなく、クロス集計をすると、得られるものが多くなります。

今回はクロス集計とは何か、その方法と具体例、クロス集計のメリット・デメリットについて解説します。

【関連記事】「「定量」と「定性」の違いとは!?--ビジネスで活かせる「定量」「定性」分析」

1.クロス集計とは

クロス集計とは、アンケート結果などのデータを集計する時に、2つ以上の観点でまとめる統計手法のことです。

最も多いの2×2のクロス集計表たとえばアンケート結果の「はい」「いいえ」を横軸に、「男性」「女性」の性別を縦軸に置く、という方法がよく見られます。

クロス集計を行うことで、より多角的で詳細なデータが見えてくるため、分析がしやすくなります。

2.クロス集計の実例

実際に統計データをクロス集計表にまとめたものを見ると、クロス集計のイメージがつきやすいでしょう

ここでは、実例を内閣府が実施した「市民の社会貢献に関する実態調査」のデータを使って、クロス集計の方法をご紹介します。

【関連記事】「【SWOT分析とは】分析のポイント、応用方法や"町中華"での分析例も解説」

(1)まずは単純集計を行う

クロス集計を行うには、まず単純集計を行う必要があります。単純集計とは、アンケートの回答結果を設問ごとに集計し、百分率で示したものです。集計結果は円グラフや帯グラフで表示されるのが一般的です。

「市民の社会貢献に関する実態調査」からボランティア経験を問う設問を例にとると、以下のようになります。

post692_img1.jpg

(単純集計表とは、全体をひとつの質問項目で整理をした表。最もシンプルな統計表になる)

post692_img2.jpg

(単純集計表は、円グラフの形で可視化をすることが多い)

(2)クロス集計1

単純集計から得られる知見は多くはないため、クロス集計でまとめます。一般的なのは男女別に集計をする方法です。このように分析の視点を決める項目のことを「分析軸」と呼びます。

ボランティア経験の有無について男性・女性を分析軸に集計すると、男性の方がボランティア活動の経験がある人が多いことがわかります。

集計表の縦軸の項目を「表側(ひょうそく)」、横軸の項目を「表頭(ひょうとう)」と呼び、この集計表では分析軸(男性・女性)が表側に置かれています。このように分析軸が表側にある表は「横%表」と呼ばれ、横軸の割合の合計が100%になります。

反対に分析軸が表頭にある表は「縦%表」と呼ばれ、見方が逆になるため縦軸の割合の合計が100%になります。

post692_img3.jpg

(クロス集計表は、質問項目と対象者の属性などで整理をした統計表。「男女」「はい/いいえ」などで2×2の表にするのが最もシンプルな形になる)

post692_img4.jpg

(クロス集計表は、円グラフなどの他、比較をしやすくするために帯グラフで可視化をすることが多い)

【関連記事】「【カスタマージャーニーマップとは】作成に必要な要素と方法、活用メリット」

(3)クロス集計2

クロス集計の分析軸性別の次によく使われるのが年齢です。

ボランティア経験の有無について世代別に分け集計表すると、年齢が高くなるほどボランティア活動の経験者の割合が高くなることがわかります。

このことから「自由時間が増えるとボランティア活動をしやすくなる」という仮説を立てて、れが検証できる調査計画を企画するといったことできます。

post692_img5.jpg

(対象者を世代別に分類したクロス集計表もよく使われる。このように対象者の属性で分けるクロス集計は、属性クロス集計と呼ばれる)

post692_img6.jpg

(属性を2つ以上にわけた場合は、帯グラフを使って可視化をする。世代による傾向が一目でわかる)

【関連記事】「【ハッシュタグとは】マーケティングでの活用法やメリット、分析ツールを紹介」

(4)ロス集計3

クロス集計の分析軸として設定されるのは、性別や年齢といった対象者の属性だけではありません。

ここでの例は、ボランティア経験と寄付の経験の関連を調べたクロス集計です。このように、必要があれば複数の設問を掛け合わせてクロス集計を行うこともあります。

集計結果を見てみるとボランティア経験と寄付経験には強い相関があることがわかります。

post692_img7.jpg

(設問と設問でクロス集計をすると、設問間の関連が見えてくる。このような設問同士でクロス集計をしたものは「設問間クロス集計」と呼ばれる)

post692_img8.jpg

(設問間クロス集計も帯グラフを使って可視化をすると、傾向がつかみやすくなる)

【関連記事】「【コンバージョンとは】コンバージョンをビジネスで活用するさまざまな方法」

3.クロス集計の種類

クロス集計は、どの設問や項目をどのように掛け合わせるかでいくつかの種類に分けることができます。ここでは、最もよく見られる3つの種類について紹介します。

(1)属性クロス集計

性別、年齢、年収、職業、居住地などの回答者の属性別に結果を表示するクロス集計は「属性クロス集計」と呼ばれます。

上記の例では、男女別で集計した「クロス集計1」と年齢別で集計した「クロス集計2」がこれに当てはまります。

属性クロス集計を行うことで、属性ごとの傾向やニーズの違いを読み取ることができます。

(2)設問間クロス集計

上記の「クロス集計3」のように、設問項目を掛け合わせて集計する方法を「設問間クロス集計」と言います。属性ではなく、行動や考え方の傾向を読み取るのに有効な方法です。

たとえば、サービスの「利用頻度」と「満足度」、「運動習慣の有無」と「ある疾患の罹患率」といった組み合わせが考えられます。

属性クロス集計に比べ、より複雑で深い分析を行うことができます。

(3)多重クロス集計

上記の例はどれも2つの項目を掛け合わせる「2重クロス集計」でしたが、項目を3つ以上掛け合わせる方法もあり、これを「多重クロス集計」と呼びます。

例に挙げた「ボランティア経験の有無」については、性別と年齢のどちらも含めて集計することもできます。この場合、性別×年齢×設問となるので「3重クロス集計」です。

詳細な分析を行える分、集計結果の読み取りも複雑になりますが、分析目的に沿っていればより有益なデータを得ることができます。

4.クロス集計のメリット

クロス集計は、ビジネスの現場でも頻繁に使われる統計手法です。クロス集計にはさまざまなメリットがあり、企業の活動に貢献します

(1)結果がわかりやすく、説得力がある

クロス集計は、統計手法の中では初歩的なものですが、それだけに多くの人に伝わる説得力があります。

例えばある企業が「弊社のサービスにお客様の93.2%が満足と回答(弊社調べ)」という単純集計の告知を行っても、「比較すべき基準がわからない」「調査の詳細がわからない」「数字ができすぎで信用しづらい」などの理由で消費者が信頼感を持てないケースも多くありま

しかし、利用年数別、年齢別などのクロス集計の結果をグラフなどで可視化して紹介することで、「利用年数が多い人ほど満足している」「現役世代の満足度が高い」などの情報を伝えることができ、説得力が増します。

複雑な統計情報になると、データは詳細でも理解するのが難しい可能性がありますが、クロス集計は説得力がありながら、誰にとっても理解しやすい「ちょうどいい統計情報」と言えるでしょう。

(2)集計の手間がかからない

アンケート調査の結果をまとめるのに、クロス集計は手間がかかりません。エクセルなどスプレッドシートの「ピボットテーブル機能」を使った集計表の作り方なら、もととなるデータを用意するだけでほぼ自動的にクロス集計表を作成することができます。

クロス集計表を作成したら、それが統計的に有意であるかどうかの検定をする必要がありますが、その計算手順もそれほど難しくないので数日の講習を受ければ誰でもできるようになります。

また、スプレッドシートには検定のための機能備わっており、簡単に計算をさせることができます。

(3)ビジネスの現場で使える

クロス集計とその統計検定は、誰にでもできる初歩的な統計手法でありながら、多くの知見が得られます。

高度な統計手法を扱うには、やはり専門家でなければ難しく、調査計画の段階から専門家に関わってもらう必要があります。しかしクロス集計であれば専門家ではない普通のビジネスパーソンでも、ウェブやSNSでアンケート調査を行い、分析をして、それを広報活動や社内検討材料として使うことができます。

まずは自分たちで簡単な調査を計画・実行してクロス集計による分析を行い、そこから推測される仮説を確かめるためにあらためて専門家に相談する、という選択もできます。

クロス集計は非常に使い勝手のいい統計手法なので、職種にこだわらずに身につけておいた方がいい統計手法です。入門書読むか、統計講習を数日受講する程度で身に付きます。

5.クロス集計のデメリット

使い勝手のいいクロス集計ですが、デメリットも存在します。集計を行う際は、こうしたデメリットも念頭に置いておく必要があります。

(1)より深い知見を導き出すのが難しい

クロス集計は多くの知見を与えてくれますが、それ以上の発展的で深い分析をすることが難しくなる可能性があります。なぜなら、統計調査というのは、データを分析すればできるというものではなく、調査の計画を立てるところから、どのような仮説を検証したいのかを意識して設計する必要があるからです。

クロス集計を前提として設問を組み立てるとその集計結果を受けて新たな仮説を検証したい場合、同じ回答データをもとに検証するのは難しいです。

さらに発展的な検証を行いたい場合は、統計の専門家と相談するなどして新たな調査を計画する必要がある場合があります。

(2)多重クロス集計の罠に陥りやすい

多重クロス集計を行ってより深い知見を引き出そうとすると、細分化の罠にはまる可能性が高くなります。

より詳しく分析しようとして「男女別で、年齢別も合わせて、年収別も合わせて」と、どんどん分析軸を増やして多重化・細分化してしまうと、集計表複雑になり、グラフを使った可視化も難しくなります。

また、あまりに細分化すると、調査人数によっては1つの項目の人数が少なくなりすぎて、統計的に意味のないデータになりかねません。

クロス集計で細分化してより深い分析を行おうとするのではなく、さらに知見を得たい場合は新たに調査計画を立てるのが賢明です。あるいは、最初からより深い統計分析ができるように調査計画を設計しておく必要があります。

6.シンプソンのパラドクス」に注意

クロス集計は万能ではありません。クロス集計でもパラドクスが起きることが知られています。現実にそういう局面に遭遇する確率はきわめて低いですが、そういうことも起こり得るということは知っておくべきです。

(1)シンプソンのパラドクスとは

このパラドクスは、シンプソンのパラドクスと呼ばれるもので、1951年に英国の統計学者エドワード・シンプソンが報告をしました。その内容は、母集団の相関関係と母集団を分割した集団の相関関係に食い違いが生じるケースがあるというものです。

わかりやすく言うと、男女などのクロス集計で、男性で見られる傾向と女性で見られる傾向がいずれも同じであるのに、男女を合計した全体では異なる傾向が現れるというものです。

(2)シンプソンのパラドクスの例

シンプソンが提示したのは次のような例です。今、52人の患者に対してある医療措置をした結果の生存率を調べました(シンプソンが提示したのはトランプを使った例ですが、わかりづらいので架空の医療調査にした例がよく使われます)。

この架空の調査結果は、「男女」「処置の有無」「生存/死亡」の3つの軸がある多重クロス集計になっています。

post692_img9.jpg

(シンプソンが提出したパラドクスの例。52人の対象者にある医療処置を行い、生存率を調べたという想定のもの。3つの軸がある多重クロス集計になっている)

この多重クロス集計ではわかりづらいので、生存率を計算して、2つの軸のクロス集計表に直しました。

post692_img10.jpg

(多重クロス集計表は見づらいので、生存率を計算して、シンプルなクロス集計表にまとめ直した。男性でも女性でも処置をした方が生存率が高くなるので、この処置は効果があると考えられるように見える)

すると、男性でも女性でも処置をした方の生存率は高くなり、この医療処置が有効であるかのように見えます。

ところが男女を合計してみると、処置をしていない場合も、処置をした場合も生存者と死亡者が同数になります。つまり、処置をしてもしなくても生存率は50%で、この処置をしても意味がないような結果になりました。

どうしてこんなことが起きるのかというと、「女性の処置あり」の人数が他と比べて多く、しかも生存率が低いということが要因です。これにより、男性の高い生存率が打ち消されてしまいました。

post692_img11.jpg

(男女をまとめて生存率を比較してみると、処置をしてもしなくても生存率は50%であり同じになる。つまり、この処置は意味がないという結論になってしまう)

(3)シンプソンのパラドクスの教訓

このシンプソンのパラドクスからわかるのは、データに偏りがあってはならないということです。偏りがあり、突出して大きい項目(この例では女性)があると、その項目での傾向が全体にも大きく影響をしてきます。

このパラドクスから、クロス集計をするにあたっては、2つの教訓が得られます。

(1)統計調査をするときは、できるだけ調査人数を大きくする。

どの程度の人数にすれば統計的に有効と言えるのかを決める統計手法もあります。

(2)クロス集計するときには、項目間の調査人数の偏りに注意する。

特定の項目のサンプル数が極端に多い、逆に極端に少ない場合は、クロス集計から得られる知見に誤りが生じる可能性があります。

クロス集計をする時には、項目で分けた時にサンプル数もチェックして、大きな偏りがないことを確認しておきます。

また、新たにクロス集計を目的とした調査計画を立てる時は、クロス集計に使う分類項目間で調査数の偏りが出ないようにする工夫が必要になります。

男女、年齢、職業、地域などの項目で、いずれも母集団の構成比と大きくずれないようにすることが重要です。どのようにすれば母集団に近い構成比の調査ができるかについても、統計調査計画の手法が確立しているので、習得しておくと良いでしょう

スキルアップを目指すなら
まずはプロにご相談ください
マイナビエージェントについて詳しく知る >

6.まとめ

クロス集計とは、アンケート結果などのデータを集計する時に、2つ以上の観点でまとめる統計手法のことです。「はい/いいえ」「男女」の2軸で表やグラフなどにまとめるのが一般的です。

クロス集計シンプルな統計手法であり、専門家でなくてもスプレッドシートなどを使って簡単に扱うことができます。単純集計よりも深い知見が得られるため、ビジネスの現場で多用されています。

クロス集計を活用してビジネスに有益なデータを手に入れ、企業の活動を成功に導きましょう。

\転職するか迷っていてもOK/
マイナビエージェントに無料登録して
転職サポートを受ける

原稿:牧野武文(まきの・たけふみ)

テクノロジーと生活の関係を考えるITジャーナリスト。著書に「Macの知恵の実」「ゼロからわかるインドの数学」「Googleの正体」「論語なう」「街角スローガンから見た中国人民の常識」「レトロハッカーズ」「横井軍平伝」など。

この記事をシェア

  • facebook
  • このエントリーをはてなブックマークに追加
  • X(旧Twitter)

同じカテゴリから
記事を探す

ビジネススキル・マナー

同じキーワードから
記事を探す

求人情報

TOPへ