• FVM大賞2015 優秀賞 受賞
  • 平成26年度福岡市トライアル発注認定事業者
  • 平成25年度福岡市ステップアップ最優秀賞 受賞
  • 平成25年度九州ニュービジネス優秀賞 受賞
  • 福岡県情報セキュリティ連絡協議会加盟企業
  • 福岡ベンチャーマーケットプレゼン企業
  • 福岡大学共同開発企業
  • 経営革新計画 第1936承認企業
  • 平成23年度九州地域中小企業事業家支援
    お助け隊事業アドバイザー企業
  • 平成23年度福岡市競争入札参加有資格企業

誰でも統計備忘録

現代ではなくてはならないものとなった統計について、学んだことを簡単に書き綴ります。誰でも統計備忘録

2017年9月01日(金曜日)  (中内 浩希)

「データの真ん中」

こんにちは。アシスタントエージェントの中内です。


今回は「真ん中」という言葉について統計の面から考えていきます。

「データの真ん中」と言われると、次の2つを思い浮かべる方が多いかと思います。
そう!「中央値」と「平均値」ですね!
お分かりかもしれませんが、簡単にその2つの言葉の説明をしますね。

「中央値」… データの値を大きい順に並べた時にちょうど真ん中に位置する値。
「平均値」… データを全て足してそれをデータ数で割った値。

言葉としては似ていても、実際は全く異なる値です。
また、「中央値」だけであったり、「平均値」だけでデータを考えようとすることは危険とされています。

具体例を挙げますね!
例えば、「Aグループの3人とBグループの3人に数学のテストを受けてもらい、グループの合計点で勝負をした」とします。
勝負の結果を聞く前に、各グループの中央値を聞いてみたところ

Aグループの中央値は 90点
Bグループの中央値は 63点

とのことでした。直感的に言えば、「Aグループは中央値が90点なんて賢い子が集まったんだな、この勝負Aグループが勝ちだろうな」という印象を受ける方が多いのではないかと思います。

しかし、なんと結果としては引き分けでした!
どういうことか、各グループ内の点数の内訳を見てみると

Aグループ ⇒ [2点,90点,91点] 3人の合計点:183点(平均61点)
Bグループ ⇒ [50点,63点,70点] 3人の合計点:183点(平均61点)

これは「中央値」だけでデータを考えたため、実態と乖離してしまったんですね。
これは極端な例なので分かる人から見れば「そりゃそうだ」という感じだと思います。

データの真ん中を考える時には「中央値だけ」「平均値だけ」というのは避けましょう!
より確実にデータを見るのであれば「標準偏差」を求めましょう。

「標準偏差」はデータのバラつき具合についての情報をもつ値です。「標準偏差」の値が大きければバラつきが大きく、値が小さければバラつきが小さいというように見ることが出来ます。
先ほどの例での「標準偏差」を求めてみると

Aグループの標準偏差 ⇒ 約43.1(バラつきが大きい)
Bグループの標準偏差 ⇒ 約8.29(バラつきが小さい)

標準偏差を見てみると、安易に「Aグループの勝ちだ!」と言えないと思います。

このように「データの真ん中」を見たり考えたりする際は、「中央値」「平均値」「標準偏差」、あと今回は紹介していませんが「最頻値」などを考慮すると良いでしょう。

データの分布がどのような形をしているのかを少しだけ意識することが大事です!


次回はその分布の形の代表的なものを紹介しますね!
それでは!