2025/3/22

平均値、中央値、最頻値の使い分けは?具体例と合わせて代表値を解説【統計学】

Thumbnail for 平均値、中央値、最頻値の使い分けは?具体例と合わせて代表値を解説【統計学】

代表値とは

代表値とは、多数の数字によって構成されるデータを端的に示すための数値です。 データの中心的な傾向や特徴を示します。 データの代表となる値であり、データ間の比較や分析に用いることができます。

代表値には、平均値、中央値、最頻値があります。 これらはそれぞれ異なった特徴(メリット・デメリット)があるため、 適切な代表値を選択することが重要です。

それぞれの特徴と違い

3つの代表値である平均値、中央値、最頻値の それぞれの特徴と違いを紹介します。

平均値

平均値

定義 : データの合計をデータの個数で割った値
(全データを均した値。重心に位置する。)

データ全体の中心的な傾向を示す値

メリット

  • 計算の手間が比較的少ない : 計算で使用するのは足し算・割り算のみのため、他の代表値と比較して、計算が簡単。
  • 数学的・統計的応用範囲が広い : 多くの数学的・統計的手法では平均値を使用した計算が多く、応用範囲が広い。
  • データ全体を反映する : データ内のすべての値を使用して算出されるため、データ全体を反映する。 データがそぎ落とされていないため、データ数がわかれば総量も算出可能。

デメリット

  • 外れ値に敏感 : データに外れ値が含まれる場合、大きく影響を受ける。
  • 分布の偏りに対して無効 : データの分布が左右対称でない場合、平均値はデータの代表値として適切ではない場合がある。

中央値

中央値

定義 : 昇順 or 降順に並べたときに、中央に位置する値

データの代表的な傾向を示す値

メリット

  • 外れ値に対して影響が少ない : 外れ値の影響を受けにくく、データの代表値に使用できる。
  • 分布の偏りに対して有効 : データの分布が左右対称でない場合でも、その影響を受けづらい。

デメリット

  • 計算の手間が多い : データを昇順または降順に並び替える必要があり、四則演算以外が入るため、計算が複雑になる。
  • 数学的・統計学的応用範囲が狭い : 多くの数学的・統計的手法では平均値が使用されており、直接的に応用できる範囲は狭い。
  • データ全体を反映しない : 外れ値や分布の偏りに対する影響は少ない反面、中央のデータ付近以外を考慮せず、データ全体を反映しない。

最頻値

最頻値

定義 : データの中で出現頻度が一番高い値

データ内での一般的な値

メリット

  • 外れ値に対して影響が少ない : 外れ値の影響を受けにくく、データの代表値に使用できる(中央値と同様)。

  • 分布の偏りに対して有効 : データの分布が左右対称でない場合でも、その影響を受けづらい(中央値と同様)。

  • カテゴリデータに適する : 平均値や中央値と異なり、最頻値はカテゴリデータに適用できる (逆に、量的データでは使用しづらい)。

デメリット

  • 計算の手間が多い : データを昇順または降順に並び替える必要があり、四則演算以外が入るため、計算が複雑になる(中央値と同様)。

  • 数学的・統計学的応用範囲が狭い : 多くの数学的・統計的手法では平均値が使用されており、直接的に応用できる範囲は狭い(中央値と同様)。

  • データ全体を反映しない : 外れ値や分布の偏りに対する影響は少ない反面、分布のピーク付近のデータ以外を考慮せず、データ全体を反映しない(中央値と同様)。

  • わずかな差で大きく変わる可能性がある : 分布に複数のピークがあり、その頻度の差が小さい場合、わずかに頻度の値が変化しただけで結果が大きく変わる可能性がある。

  • 複数の値になる可能性がある : 最頻値は複数の値になる可能性がある。その場合、適切な解釈が必要。

3つの代表値の比較表

平均値中央値最頻値
計算の手間✅比較的少ない❌多い❌多い
数学的・統計学的応用範囲✅広い❌狭い❌狭い
データ全体を...✅反映する❌反映しない❌反映しない
外れ値に対して...❌敏感✅影響が少ない✅影響が少ない
分布の偏りに対して...❌無効✅有効✅有効
適したデータ量的データ量的データ
順位データ
順位データ
カテゴリデータ
その他❌わずかな差で大きく変わる可能性あり
🟡複数の値になる場合あり

量的データ、順位データ、カテゴリデータの関係

量的データ は、連続値を用いたデータのことで、さらに分類すると比率データや間隔データに分けられます。

順位データ は、大小関係はあるものの、その間隔に意味がない離散値を用いたデータのことです。
質的データに分類されます。

カテゴリデータ は、数値を用いないデータのことです。
質的データに分類されます。

分類データの種類
量的データ比率データ質量、時間、金額など
量的データ間隔データ温度、湿度など
質的データ順位データ満足度、成績順位など
質的データカテゴリデータ性別、血液型、都道府県など

具体例

以下は、各データに対する代表値の例です。

(分布の形状、外れ値の有無、分析の目的などによっては、 最適な代表値は以下から変わる場合があります)。

平均値が使用される例

データデータの種類分布の偏り・外れ値の大きさ
テストの得点量的データ
製品の寸法・重量データ量的データ
財務諸表の収益量的データ
日々の気温量的データ
GDP(一人当たりの国民全体の経済力)量的データ
商品の売り上げデータ量的データ

中央値が使用される例

データデータの種類分布の偏り・外れ値の大きさ
住宅(不動産)価格量的データ
所得量的データ
企業の給与量的データ
顧客滞在時間データ量的データ
顧客満足度調査の回答順位データ

最頻値が使用される例

データデータの種類分布の偏り・外れ値の大きさ
アンケート「好きな色は?」の回答カテゴリデータ
最も売れている商品サイズ順位データ
webサイトのアクセス時間帯分析順位データ

代表値の選定方法

代表値として平均値、中央値、最頻値のどれを選ぶか、選定方法を紹介します。

総合的な判断が必要

データの特性、分布の形状や分析の目的に応じて 適切な代表値を選択することが重要です。
代表値の選定方法は1通りだけではないので注意してください。

場合によっては、複数の代表値を併用すること、
他の統計値や分析方法を用いることも検討しましょう。

簡易フローチャート

以下は、代表値の選定方法を簡易的に示したフローチャートです。 主に、単峰性の分布を持つデータを対象としています。

カテゴリーデータ?カテゴリーデータ?頻度が重要?頻度が重要?順位データ?順位データ?分布は偏っている?or外れ値が大きい?分布は偏っている?or外れ値が大きい?データの背景全体の特徴も把握したい?データの背景全体の特徴も把握したい?最頻値最頻値平均値平均値他の代表値の併用、 多角的分析を検討 他の代表値の併用、 多角的分析を検討 中央値中央値NoNoNoNoNoNoYesYesNoNo終了終了NoNoYesYesYesYesYesYesYesYes

多峰性のデータの場合

多峰性の分布を持つデータの代表値の選定方法は簡単ではありません。 手っ取り早く行えるアプローチとしては、以下の2つがあります。

  • 方法1. 分布中の各ピークごとに最頻値を算出する。 複数の最頻値が得られる。

  • 方法2. 全データの中央値を算出する。 ピーク位置からはずれる可能性が大きいが、全体を代表する1つの中央値が得られる。

多峰性の分布を持つデータには、 複数のグループが混在している可能性が高いです。 可能であれば、それぞれのグループごとに分離して分析することが望ましいです。

とりあえず3つ算出するのも手

量的データの場合、 とりあえず3つの代表値を算出してみるのも手です。 3つの代表値に大きな差がなければ、 分布の偏りや外れ値がほとんどないと判断できます。

まとめ

3つの代表値のおおまかな選定方法について説明しました。 選定の基準は主に

  • 分布の偏りや外れ値の有無
  • データの種類

になりますが、 分布のピークの数、データの特性や分析の目的によっても 適切な代表値は変わります。 総合的に判断して、適切な代表値を選択することが重要です。


平均値平均値頻度頻度

中央値中央値50%50%50%50%頻度頻度

最頻値最頻値頻度頻度

サンプルデータ (テストの得点 )
テストの得点 [点]
152
270
377
4100
555
685
769
859
958
1065
1172
1258
1370
1469
1542
1669
1761
1858
1973
2060
2182
2263
2351
2478
2566
2693
2781
2870
2975
3051
3173
3280
3379
3468
3572
3695
3765
3873
3980
4066
4186
4274
4390
4472
4564
4669
4783
4855
4968
5057
5155
5261
5356
5454
5568
5676
5758
5860
5978
6065
6163
6272
6356
6467
6577
6673
6766
6862
6959
7072
7170
7273
7365
7493
7555
7662
7771
7867
7973
8066
8177
8287
8371
8482
8564
8663
8779
8876
8965
9087
9179
9271
9351
9468
9586
9670
9765
9878
9977
10061
テストの得点 [点]テストの得点 [点]00.050.1度数度数

サンプルデータ (不動産価格 )
不動産価格 [10,000 JPY]
1513
2662
3252
4335
51324
6402
7580
8750
9557
10109
11450
12293
131256
14468
15398
16365
17621
184
19464
201468
2170
22494
23627
24302
25346
26739
27169
28106
291574
30942
31203
32604
33804
34955
35957
36118
37869
38305
39768
40376
41140
42212
43205
44209
45234
46381
47454
4813
491287
50395
51638
521158
53143
54143
551058
56192
57124
58766
59997
60581
61563
62318
63264
64462
6514
661073
671013
68494
69218
7041
71835
72726
73273
74568
75582
76244
77125
78493
79144
80582
812024
8297
83216
84487
85174
86565
87266
88326
89621
90894
9171
92331
93389
94108
95257
961125
97734
98842
99209
100634
不動産価格 [10,000 JPY]不動産価格 [10,000 JPY]00.050.1度数度数
サンプルデータ (顧客満足度)
顧客満足度
14
23
33
45
55
64
75
82
92
102
115
123
133
143
155
162
171
182
192
203
212
222
232
242
252
264
271
282
295
303
314
323
332
343
353
363
375
384
393
402
414
422
431
441
453
464
473
484
494
503
514
521
531
543
552
563
575
582
595
605
612
622
632
644
653
664
674
682
692
702
714
725
734
745
754
764
773
785
795
802
815
822
834
842
852
862
873
884
892
902
914
924
934
942
952
964
975
982
992
1002
顧客満足度顧客満足度00.050.1度数度数

サンプルデータ (好みの色)
好みの色
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
好みの色好みの色00.050.1度数度数