【クロス集計とは】クロス集計の方法と具体例、メリット・デメリットを解説

【クロス集計とは】クロス集計の方法と具体例、メリット・デメリットを解説

アンケートなどで得たデータは、そのままの数字を見るだけでなく、クロス集計をすると、得られるものが多くなります。

今回はクロス集計とは何か、その方法と具体例、クロス集計のメリット・デメリットについて解説します。

【関連記事】「「定量」と「定性」の違いとは!?--ビジネスで活かせる「定量」「定性」分析」

1.クロス集計とは

クロス集計とは、アンケート結果などのデータを集計する時に、2つ以上の観点でまとめる統計手法のことです。

最も多いのは、アンケート結果の「はい」「いいえ」を横軸に、「男性」「女性」の性別を縦軸に置いた2×2のクロス集計表です。

2.クロス集計の実例

クロス集計の定義を読むとわかりづらいかもしれませんが、クロス集計はさまざまな場所で使われているため、見ればすぐにわかります。

実例を内閣府が実施した「市民の社会貢献に関する実態調査」のデータを使ってご紹介します。

【関連記事】「【SWOT分析とは】分析のポイント、応用方法や"町中華"での分析例も解説」

(1)単純集計

アンケートの回答者全体を、設問の回答項目で分け、百分率で示したものです。これは単純集計と呼ばれ、円グラフや帯グラフで表示されるのが一般的です。

post692_img1.jpg

(単純集計表とは、全体をひとつの質問項目で整理をした表。最もシンプルな統計表になる)

post692_img2.jpg

(単純集計表は、円グラフの形で可視化をすることが多い)

(2)クロス集計1

単純集計から得られる知見は多くはないため、クロス集計でまとめます。一般的なのは男女別に集計をしてみる方法です。このようにすると、男性の方がボランティア活動の経験がある人が多いことがわかります。

ここで、「なぜ男性の方がボランティア活動の経験者が多いのか?」という設問を立てて、「男性の方が自由時間が多い」「仕事を通じて社会関係が広がっている」などの仮説を立て、それが正しいかどうかがわかる調査計画を立てていきます。

post692_img3.jpg

(クロス集計表は、質問項目と対象者の属性などで整理をした統計表。「男女」「はい/いいえ」などで2×2の表にするのが最もシンプルな形になる)

post692_img4.jpg

(クロス集計表は、円グラフなどの他、比較をしやすくするために帯グラフで可視化をすることが多い)

【関連記事】「【カスタマージャーニーマップとは】作成に必要な要素と方法、活用メリット」

(3)クロス集計2

クロス集計で性別の次によく使われるのが年齢です。世代別に分けてクロス集計表をつくります。すると、年齢が高くなるほどボランティア活動の経験者の割合が高くなることがわかります。

この知見から「自由時間が増えるとボランティア活動をしやすくなる」という仮説を立てて、それが検証できる調査計画を企画することができます。

このような性別、年齢、年収、職業、居住地などの回答者の属性別に結果を表示するクロス集計は「属性クロス集計」と呼ばれます。

post692_img5.jpg

(対象者を世代別に分類したクロス集計表もよく使われる。このように対象者の属性で分けるクロス集計は、属性クロス集計と呼ばれる)

post692_img6.jpg

(属性を2つ以上にわけた場合は、帯グラフを使って可視化をする。世代による傾向が一目でわかる)

【関連記事】「【ハッシュタグとは】マーケティングでの活用法やメリット、分析ツールを紹介」

(4)設問間クロス集計

対象者の属性ではなく、必要があれば設問と設問でクロス集計を行うこともあります。ここでの例はボランティア経験と寄付の経験の関連を調べたクロス集計です。

この結果から、ボランティア経験と寄付経験には強い相関があることがわかります。このような相関が、統計的に意味がある(有意)かどうかを検定する統計手法も整っています。

post692_img7.jpg

(設問と設問でクロス集計をすると、設問間の関連が見えてくる。このような設問同士でクロス集計をしたものは「設問間クロス集計」と呼ばれる)

post692_img8.jpg

(設問間クロス集計も帯グラフを使って可視化をすると、傾向がつかみやすくなる)

【関連記事】「【コンバージョンとは】コンバージョンをビジネスで活用するさまざまな方法」

3.クロス集計のメリット

クロス集計は、ビジネスの現場でも頻繁に使われる統計手法です。その理由はさまざまなメリットがあるからです。

(1)結果がわかりやすく、説得力がある

クロス集計は、統計の表現の中では初歩的なものですが、それだけに多くの人に伝わる説得力があります。

例えばある企業が「弊社のサービスにお客様の93.2%が満足と回答(弊社調べ)」という単純集計の告知を行っても、「比較すべき基準がわからない」「調査の詳細がわからない」「数字ができすぎで信用しづらい」などの理由で消費者に伝わるものは多くありません。

しかし、利用年数別、年齢別などのクロス集計の結果をグラフなどで可視化をして紹介することで、「利用年数が多い人ほど満足している」「現役世代の満足度が高い」などの情報を伝えることができます。

複雑な統計情報になると、理解をするのが難しく見てもらえない可能性がありますが、クロス集計は複雑でもなく、同時に多くの知見が得られる「ちょうどいい統計情報」なのです。

(2)集計の手間がかからない

アンケート調査の結果をまとめるのに、クロス集計は手間がかかりません。スプレッドシートのピボットテーブル機能を使えば、ほぼ自動的にクロス集計表を作成してくれます。

クロス集計表を作成したら、それが統計的に有意であるかどうかの検定をする必要がありますが、計算手順は難しくなく、数日の講習を受ければ誰でも使えるようになります。

また、スプレッドシートには検定をする機能が備わっており、簡単に計算をさせることができます。

(3)ビジネスの現場で使える

クロス集計とその統計検定は、誰にでもできる初歩的な統計手法でありながら、多くの知見が得られます。

それ以上の高度な統計を扱うには、やはり専門家でなければ難しく、調査計画の段階から専門家に関わってもらう必要がありますが、クロス集計であれば専門家ではない普通のビジネスパーソンがウェブやSNSでアンケート調査を行い、分析をし、それを広報活動や社内検討材料として使うことができます。

まず、自分たちで簡単な調査を計画し、実行し、クロス集計による分析を行い、さらにそこから推測される仮説を確かめるためにあらためて専門家に相談するということができます。

非常に使い勝手のいい統計手法なので、職種にこだわらずに身につけておいた方がいい統計手法です。入門書を数冊読むか、統計講習を数日受講する程度で身に付きます。

4.クロス集計のデメリット

使い勝手のいいクロス集計ですが、デメリットも存在します。

(1)より深い知見を導き出すのが難しい

クロス集計は多くの知見を与えてくれますが、それ以上の深い分析をすることが難しくなる可能性があります。なぜなら、統計調査というのはデータを分析すればできるというものではなく、調査の計画を立てるところから、どのような仮説を検証したいのかを意識して設計する必要があるからです。

クロス集計をしてみて、新たな仮説を検証したい場合、同じデータから導き出そうとするのではなく、統計の専門家と相談をして、新たな調査を計画する必要がある場合があります。

(2)多重クロス集計の罠に陥りやすい

クロス集計に使ったデータからより深い知見を引き出そうして罠にはまるのが多重クロス集計です。最初のクロス集計で男女別と年齢別の2つのクロス集計を作った後、より詳しく分析しようとして各年齢別を男女別に分けたクロス集計表をつくりたくなります。

この程度であればまだ意味はありますが、さらに「男女別で、年齢別で、年収別に」と、どんどん分類項目を追加していきがちです。こうなると集計表のつくり方も複雑になり、グラフを使った可視化も難しくなります。

また、あまりに細分化をすると、調査人数によっては、1つの項目の人数が少なくなりすぎて、統計的に意味のないデータになりかねません。

調査計画を立てるときは、クロス集計表を目的として、シンプルな調査計画にし、さらに知見を得たい場合は新たに調査計画を設計します。

あるいは、最初からクロス集計で終わらずに、より深い統計分析ができるように調査計画を設計しておく必要があります。

5.シンプソンのパラドクス

クロス集計は万能ではありません。クロス集計でもパラドクスが起きることが知られています。現実にそういう局面に遭遇する確率はきわめて小さいですが、そういうことも起こり得るということは知っておくべきです。

そのパラドクスは、シンプソンのパラドクスと呼ばれるもので、1951年に英国の統計学者エドワード・シンプソンが報告をしました。厳密な定義は母集団の相関関係と母集団を分割した集団の相関関係に食い違いが生じるケースがあるというものです。

わかりやすく言うと、男女などのクロス集計で、男性で見られる傾向と女性で見られる傾向がいずれも同じであるのに、男女を合計した全体では異なる傾向が現れるというものです。

シンプソンが提示したのは次のような例です。今、52人の患者に対してある医療措置をした結果の生存率を調べました(シンプソンが提示したのはトランプを使った例ですが、わかりづらいので架空の医療調査にした例がよく使われます)。

この架空の調査結果は、「男女」「処置のあるなし」「生存/死亡」の3つの軸がある多重クロス集計になっています。

post692_img9.jpg

(シンプソンが提出したパラドクスの例。52人の対象者にある医療処置を行い、生存率を調べたという想定のもの。3つの軸がある多重クロス集計になっている)

この多重クロス集計ではわかりづらいので、生存率を計算して、2つの軸のクロス集計表に直しました。

post692_img10.jpg

(多重クロス集計表は見づらいので、生存率を計算して、シンプルなクロス集計表にまとめ直した。男性でも女性でも処置をした方が生存率が高くなるので、この処置は効果があると考えられるように見える)

すると、男性でも女性でも処置をした方の生存率は高くなり、この医療処置が有効であるかのように見えます。

ところが男女を合計してみると、処置をしていない場合も、処置をした場合も生存者と死亡者が同数になります。つまり、処置をしてもしなくても生存率は50%で、この処置をしても意味がないような結果になりました。

どうしてこんなことが起きるのかというと、「女性の処置あり」の人数が他と比べて多く、しかも生存率が低いということです。これにより、男性の高い生存率が打ち消されてしまいました。

post692_img11.jpg

(男女をまとめて生存率を比較してみると、処置をしてもしなくても生存率は50%であり同じになる。つまり、この処置は意味がないという結論になってしまう)

このシンプソンのパラドクスからわかるのは、データに偏りがあってはならないということです。偏りがあり、突出して大きい項目(この例では女性)があると、その項目での傾向が全体にも大きく影響をしてきます。

このパラドクスから、クロス集計をするにあたっては、2つの教訓が得られます。

(1)統計調査をするときは、できるだけ調査人数を大きくする。

どの程度の人数にすれば統計的に有効と言えるのかを決める統計手法もあります。

(2)クロス集計するときには、項目間の調査人数の偏りに注意をする。

特定の項目のサンプル数が極端に多い、逆に極端に少ない場合は、クロス集計から得られる知見に誤りが生じる可能性があります。

クロス集計をする時には、項目で分けた時にサンプル数もチェックして、大きな偏りがないことを確認しておきます。

新たにクロス集計を目的とした調査計画を立てる時は、クロス集計に使う分類項目間で調査数の偏りが出ないようにする工夫が必要になります。

男女、年齢、職業、地域などの項目でクロス集計をする時は、いずれも母集団の構成比と大きくずれないようにする必要があります。どのようにすれば母集団に近い構成比の調査ができるかについても、統計調査計画の手法が確立しています。

6.まとめ

クロス集計とは、アンケート結果などのデータを集計する時に、2つ以上の観点でまとめる統計手法のことです。「はい/いいえ」「男女」の2軸で表やグラフなどにまとめるのが一般的です。

クロス集計は、シンプルな時計手法であり、専門家でなくてもスプレッドシートなどを使って簡単に扱うことができ、同時に、深い知見が得られるため、ビジネスの現場で多用されています。

原稿:牧野武文(まきの・たけふみ)
テクノロジーと生活の関係を考えるITジャーナリスト。著書に「Macの知恵の実」「ゼロからわかるインドの数学」「Googleの正体」「論語なう」「街角スローガンから見た中国人民の常識」「レトロハッカーズ」「横井軍平伝」など。

この記事をシェアしよう!