2017年09月01日

誰でも統計備忘録

「データの真ん中」

こんにちは。アシスタントエージェントの中内です。


今回は「真ん中」という言葉について統計の面から考えていきます。

「データの真ん中」と言われると、次の2つを思い浮かべる方が多いかと思います。
そう!「中央値」と「平均値」ですね!
お分かりかもしれませんが、簡単にその2つの言葉の説明をしますね。

「中央値」… データの値を大きい順に並べた時にちょうど真ん中に位置する値。
「平均値」… データを全て足してそれをデータ数で割った値。

言葉としては似ていても、実際は全く異なる値です。
また、「中央値」だけであったり、「平均値」だけでデータを考えようとすることは危険とされています。

具体例を挙げますね!
例えば、「Aグループの3人とBグループの3人に数学のテストを受けてもらい、グループの合計点で勝負をした」とします。
勝負の結果を聞く前に、各グループの中央値を聞いてみたところ

Aグループの中央値は 90点
Bグループの中央値は 63点

とのことでした。直感的に言えば、「Aグループは中央値が90点なんて賢い子が集まったんだな、この勝負Aグループが勝ちだろうな」という印象を受ける方が多いのではないかと思います。

しかし、なんと結果としては引き分けでした!
どういうことか、各グループ内の点数の内訳を見てみると

Aグループ ⇒ [2点,90点,91点] 3人の合計点:183点(平均61点)
Bグループ ⇒ [50点,63点,70点] 3人の合計点:183点(平均61点)

これは「中央値」だけでデータを考えたため、実態と乖離してしまったんですね。
これは極端な例なので分かる人から見れば「そりゃそうだ」という感じだと思います。

データの真ん中を考える時には「中央値だけ」「平均値だけ」というのは避けましょう!
より確実にデータを見るのであれば「標準偏差」を求めましょう。

「標準偏差」はデータのバラつき具合についての情報をもつ値です。「標準偏差」の値が大きければバラつきが大きく、値が小さければバラつきが小さいというように見ることが出来ます。
先ほどの例での「標準偏差」を求めてみると

Aグループの標準偏差 ⇒ 約43.1(バラつきが大きい)
Bグループの標準偏差 ⇒ 約8.29(バラつきが小さい)

標準偏差を見てみると、安易に「Aグループの勝ちだ!」と言えないと思います。

このように「データの真ん中」を見たり考えたりする際は、「中央値」「平均値」「標準偏差」、あと今回は紹介していませんが「最頻値」などを考慮すると良いでしょう。

データの分布がどのような形をしているのかを少しだけ意識することが大事です!


次回はその分布の形の代表的なものを紹介しますね!
それでは!