2025/1/19

仮説検定とは?手順もわかりやすく図解【統計学】

Thumbnail for 仮説検定とは?手順もわかりやすく図解【統計学】

仮説検定は、統計学の中でも重要なツールの1つです。 高校数学でも取り扱われるようになりました。 「意味わからない」という人でも、 視覚的に概要を理解できるよう仮説検定について解説します。

仮説検定(「統計的仮説検定」「検定」と呼ばれることも)とは 「仮説が正しいのかを、統計学的に検証すること」 です。 「その結果は偶然か、それとも何か要因があるのか」などを検証します。

たとえば、 以下のような例題があったとします。

例題

「100g入りのフライドポテト」という商品があったとします。 実際にこの商品を5品買って質量を測ってみると、 平均95gでした。

公表値100gとの間に差がありますが、 この結果は公表値通りと言えるのでしょうか。 それとも公表値通りではないと 結論付けた方が良いのでしょうか。

仮説検定を用いると、 上記のような問いに対して、 客観的な結論が導き出せます。

仮説検定では、 まず対立仮説と それを否定する帰無仮説を立てます。 そして帰無仮説が成り立たないことを示すことで、 対立仮説が成り立つと結論付けます。 この流れは、 大まかに以下の4つに分けられます。 手順1~3で、否定するためのモデル(帰無仮説とその言い換えの否定)を構築し、 手順4で否定できるか検証します。

  • 手順1. 対立仮説と帰無仮説を立てる。
    確認したい仮説(対立仮説)と、
    それを否定する仮説(帰無仮説)を設定します。 帰無仮説では母集団が仮定されます。

  • 手順2. 使用する検定統計量を決定する。
    帰無仮説の真偽を判定するために用いる尺度(検定統計量)を決めます。 これにより統計的に、検定統計量の分布までは自動的に決定します。 検定統計量の分布は、 母集団から作られる無限個の標本を仮定して形成されています。

  • 手順3. 棄却域を決定する。
    帰無仮説の判定基準となる検定統計量の範囲(棄却域)を決めます。 母集団と1つの標本から検定統計量を得た場合に、 値がほぼ入らないはずの範囲が設定されます。

  • 手順4. 帰無仮説の真偽を判定する。
    帰無仮説を基に検定統計量を算出し、 棄却域に入るか評価を行います。 ここで初めて実際のデータ(標本)を用いて評価します。

それぞれの手順について解説していきます。

仮説検定では、2つの仮説を立てることから始まります。

  • 対立仮説 H1H_1 :確認したい仮説
  • 帰無仮説 H0H_0 :対立仮説を否定する仮説

帰無仮説が否定されることを示すことで、 対立仮説が成り立つことを証明するのが、 仮説検定の大まかな流れになります。

以下で、それぞれの仮説について述べ、手順の具体例を示します。

仮説検定の大まかな流れは、 確認したい仮説と、それを否定する2つの仮説を立て、 後者が成り立たないことを示します。 仮説の否定を否定して、仮説を肯定(証明)する、 いわゆる背理法です。 確認したい仮説を対立仮説 H1H_1 と言い、 それを否定する仮説を帰無仮説 H0H_0 と言います。

対立仮説は、 確認したい、証明したい内容を設定します。 集団全体を示す公表値などについて、 「その数値は正しくないのではないか?」 というような、確認したい疑念などを仮定したりします。 この仮説は、統計学的に言い換えると、 「母集団を示す統計値として、その数値は間違っている」 というように、 母集団について仮定していることになります。

帰無仮説は、 対立仮説を否定する仮説です。 対立仮説を設定すると、自動的に決まります。 上記の対立仮説の場合、 集団全体を示す公表値などについて、 「その数値は正しい」 と仮定することになります。 統計学的に言い直すと、 「母集団を示す統計値として、その数値は正しい」 ということになります。 つまり、母集団についての統計値を仮定していることになります。

帰無仮説を基に、母集団を仮定して検証を進めていき、 仮定が正しくないことが言えれば、 対立仮説が成り立つという結論が導けます。

手順1で立てる仮説として、 以下のような例があります。

  • 対立仮説 H1H_1 : 「フライドポテトの質量は100gではない」
  • 帰無仮説 H0H_0 : 「フライドポテトの質量は100gである」 これは、次の例題がある場合に設定されます。
例題

あるバーガーショップで 以下のようなフライドポテトが販売されています。

  • 1品当たりの質量:100g(公表値)

このフライドポテトを5品買って、 質量を実測すると以下の結果でした。

  • 平均:95g
  • 不偏分散:8g2

このショップで販売しているフライドポテト1品の 質量は公表値通りと言えるのでしょうか? フライドポテト1品の質量が正規分布に従うとします。

対立仮説には、本来検証したい内容を設定します。 今回は「フライドポテトの質量が公表通りか疑わしい」 ことを検証したいので、以下のように設定します。

  • 対立仮説 H1H_1 : 「フライドポテトの質量は100gではない」

帰無仮説には、対立仮説の否定を設定します。 今回の場合は、以下のように設定されます。

  • 帰無仮説 H0H_0 : 「フライドポテトの質量は100gである」

仮説検定では、帰無仮説が正しいと仮定して進めていきます。 つまり母集団の平均 (このショップで販売した すべてのフライドポテトをかき集めてきたと仮定して、 そのすべての質量の平均) は100gであると仮定します。

手順1で帰無仮説を立てたら、 これを評価するための尺度として検定統計量を決めます。 検定統計量とは、 帰無仮説の否定に使用する 統計的な値のことです。 母集団と1標本の統計値から1つ算出できます。 使用する検定統計量をここで決めますが、 実際にその値を算出するのは もっと後(手順4)なので注意です。

以下で、検定統計量の考え方について述べ、 決め方の具体例を示します。

検定統計量は (簡単に「統計量」と言うことも)、 帰無仮説の否定に使用する、 統計的な値です。 どんな値になるのかは、 統計学的に決まります。 仮説から導いた検定統計量が、 統計学的に決まっている値から外れていると、 仮説が正しくないことを意味します。

たとえば、 「統計学的には、 〇の値は 1\triangle_12\triangle_2にはならないはずだ。 しかし、帰無仮説 H0H_0 が正しいとして〇を算出すると、 その範囲に入った。」 となれば、 帰無仮説は否定されます。 この「〇の値」というのが、 検定統計量になります (「1\triangle_12\triangle_2」は、 棄却域という。 手順3にて決定)。

検定統計量は、 母集団と1標本の両方の統計値(平均や分散など) から1つ算出されます。 母集団の統計値は、 帰無仮説によって仮定されます。 そのため、 標本を1つ取得できれば、 検定統計量が1つ得られる ことになります。 得られた1つの検定統計量と、 統計学的に導かれる値の範囲 1\triangle_12\triangle_2 を比較して、結論を出すことになります。

どの検定統計量を使用するのかは、 与えられた条件をみて、 適切に選択する必要があります。 選択時に考慮すべき点は主に2つあります。

  1. 選択する検定統計量は、 仮定や手元の情報から算出できるか。
  2. 検定統計量によっては、 使用できる前提条件が存在するが、 それを満たしているのか。

また注意点として、 この手順の段階では、 使用する検定統計量を選択するだけです。 仮説とデータを使って 実際の検定統計量の算出は行いません。 実際に検定統計量を算出するのは、 統計学的にどんな値の範囲になるのか 決めた後(手順3の後)です。 基準を決める前に 検定に使用する数値がわかっていると、 判定の客観性が失われてしまいます。

母平均と標本平均、不偏分散 がわかる場合、 検定統計量には tt 値が選択できます。 手順1の具体例(以下)が、 この条件に該当します。

帰無仮説 H0H_0 : 「フライドポテトの質量は100gである」

母平均は、帰無仮説 H0H_0 から設定できます。 標本平均、不偏分散は、 フライドポテトの質量を実際に測定したデータから 得られます。

まず母平均について考えてみます。 帰無仮説を言い換えると 「フライドポテトの質量の 母平均 は100gである」 になります。 公表値100gは、 母集団の平均値を意味するためです。 さらに別の言い方をすると、 「これまでに販売してきたすべてのフライドポテトを 漏れなくかき集め、質量を測れたとしたら 平均質量100gになる」 になります。

次に、標本平均、不偏分散について考えてみます。 フライドポテトを実際に購入し、 重さを測ることで、 標本の平均(標本平均)と分散(不偏分散)は 取得することができます。 また購入する数によって、 サンプルサイズは決まります。

上記のように、 母平均と標本平均、不偏分散 がわかる場合、 検定統計量として、 tt 値が選択できます。

  • tt : 検定統計量
  • xˉ\bar{x} : 標本平均
  • μ\mu : 母平均
  • s2s^2 : 不偏分散
  • nn : サンプルサイズ
t=xˉμs2nt = \frac{\bar{x} - \mu}{\sqrt{\frac{s^2}{n}}}

tt 値には、使用条件があります。 「母分散が正規分布に従うこと」 というものですが、 今回の例では満たしているものとします。

使用する検定統計量を決めた(手順2)次は、 帰無仮説の判定基準となる検定統計量の範囲(棄却域)を決めます。 帰無仮説から算出される検定統計量が 棄却域に入れば、 帰無仮説は棄却されます。

棄却域を決めるには、 次の2つの設定が必要になります。

  • 設定項目1: 有意水準 α\alpha
  • 設定項目2: 検定方式(両側検定か片側検定か)

以下では、 これら2つの項目を設定する理由を説明した後、 各項目について説明します。 2つの項目から棄却域を決める方法と 具体例も示します。

帰無仮説から算出される検定統計量を 判定するための基準(棄却域)を決めることが、 手順3の目的です。 つまり 「仮説が否定されるときに検定統計量が入る範囲」 を決めることが目的です。 判定基準を決めるためには、 確率分布の区切り方を定める必要があります。 そのために、 有意水準 α\alpha と検定方式の2つを設定します。

検定統計量は、従う確率分布が統計学的にわかっています。 そのため、 使用する検定統計量を決めた(手順2)時点で、 仮説が正しい場合の 検定統計量の確率分布は 自動的に定まります (確率分布というのは、 ある値からある値の間に入る確率を示すものです)。 確率分布から、 「仮説が正しいときに検定統計量のすべて(100%)が入る範囲」 が決まるのが理想的です。 その範囲に、仮説から算出した検定統計量が入らなければ、 仮説が否定できるためです。 この場合、仮説を否定する基準が自動的に決まります。

しかし実際は、 判定基準を設定するためには、 人為的に区切りを作る必要があります。 その理由は、 確率分布の値は完全には0にならないためです (検定統計量が有限の値のとき)。 「検定統計量のすべて(100%)が入る範囲」 を設定しようとすると -\inftyから\infty となってしまいます。

そこで、 人為的に区切りを作ります。 これにより 「すべて(100%)が入る範囲」を決める代わりに 「ほぼすべてが入る範囲」が決まります。 「ほぼすべてが入る範囲」を採択域と言い、 採択域の外側を棄却域と言います。 棄却域が帰無仮説を否定する基準になります。 棄却域に、帰無仮説から得られた検定統計量が入ると、 「帰無仮説が棄却」(ほぼ否定)されます。

「ぼほすべての検定統計量が採択域に入る」 =「ほぼすべての検定統計量が棄却域に入らない」 というのは、 帰無仮説 H0H_0 を言い換えたものに相当します。 その否定として 「無視できない割合で棄却域に入る検定統計量が存在する」 が設定されます。 確率を含む仮説なので 「ほぼ」や「無視できない割合で」 という文言が含まれています。

棄却域を決めるために (確率分布を人為的に区切るために)、 以下2つの設定が必要です。

  • 「ほぼすべて」の外側の確率を何%とするか:有意水準 α\alpha
  • 確率分布を片側から区切るか、両側から区切るか:検定方式

棄却域を決定するために、 有意水準 α\alpha を設定します。 有意水準 α\alpha とは、 帰無仮説が正しい場合に、 「検定統計量の値が棄却域に入る確率」 のことです。 一般的に 0.05 (5%) または0.01 (1%) が 設定されます。

有意水準 α\alpha の意味は、 「『偶然である』とする確率」の限界値 とも言えます。 有意水準 α\alpha 未満の確率の事象が起きたときは、 「偶然ではない」 「意味のある差異(有意差)がある」 と判断されます。

帰無仮説が正しい場合、 検定統計量は 「偶然」も含めて、ほぼすべて採択域に入り(確率 : 1-α\alpha)、 きわめて珍しいことが起きたときに棄却域に入ります(確率 : α\alpha)。 確率分布のグラフ上では、 採択域の面積が1-α\alpha 棄却域の面積がα\alpha 相当します。

帰無仮説が正しいときの、 採択域、棄却域、有意水準α\alpha 意味を整理すると以下の通りです。

  • 採択域
    • 発生確率(確率分布上での面積) : 1-α\alpha
    • ほぼすべての検定統計量が入る範囲
    • 偶然で生じると言える範囲
  • 棄却域
    • 発生確率(確率分布上での面積) : α\alpha
    • 無視できる程度の確率でしか生じない、 きわめて珍しいことが起きたときに入る範囲
    • 偶然でもなかなか生じない範囲
      → 偶然ではなく、意味のある差異(有意差)があると判断される範囲

棄却域を決定するため、 有意水準 α\alpha の他に、 検定方式を設定します。 検定方式とは、 帰無仮説が正しい場合に、 「確率分布上のどの位置に棄却域を配置するか決める方式」 のことです。 両側検定と片側検定の2種類から選択します。

棄却域を設定する、 つまり確率分布を区切るとき、 面積は有意水準 α\alpha (設定項目1) によって決まります。 面積のほかに、もう1つ、 「棄却域を確率分布のどこに配置するか」 を決めなければ、 具体的に確率分布を区切れません。 これを決めるのが「検定方式」です。

検定方式には2種類あり、 面積α/2\alpha/2の領域を、確率分布の両側に配置して区切る方法と、 面積α\alphaの領域を、確率分布の片側に配置して区切る方法があります。 それぞれ「両側検定」「片側検定」と呼びます。

  • 両側検定:
    • 棄却域の位置:確率分布の上下(図上では左右)の両側2か所
    • 棄却域の面積:α/2\alpha/2(1か所あたり)
  • 片側検定(下側検定、上側検定):
    • 棄却域の位置:確率分布の下側または上側(図上では、右側または左側)の1か所
    • 棄却域の面積:α\alpha(1か所あたり)

片側検定はさらに2種類に分かれ、 棄却域の配置場所を 確率分布の下側にするか上側にするかによって名称が変わります。

  • 下側検定:
    • 棄却域の位置:下側(図上では右側)
  • 上側検定:
    • 棄却域の位置:上側(図上では左側)

設定項目2つが決まると、 棄却域の範囲が具体的に決まります。 このときに使うのが分布表です (計算ツールを用いる方法もあります)。

分布表には、 検定統計量の具体的な値が記載されています。 分布表から値を読み取るには、 設定項目2つに1つ追加した 以下の3つのパラメータが必要になります。

  • 自由度
  • 有意水準 α\alpha
  • 検定方式

自由度は、 サンプルサイズ - 1 の値です。 サンプルサイズというのは、 1標本あたりのデータ数になります。 取得した(または取得する予定の) データ数を設定します。

表の中で使用する有意水準 α\alpha と検定方式には、 上記までに決めた

  • 設定項目1の有意水準 α\alpha の値
  • 設定項目2の検定方式(片側検定か両側検定か) を設定します。 α\alphaは、「危険率」と表記されている場合もあります。

分布表から読み取った検定統計量が、 棄却域の上限・下限に使われます。

  • 両側検定の場合
    • 下限:-(分布表の値)
    • 上限:分布表の値
  • 片側検定(下側検定)の場合
    • 下限:なし
    • 上限:分布表の値
  • 片側検定(上側検定)の場合
    • 下限:-(分布表の値)
    • 上限:なし

手順1~2の具体例の設定を使い、 棄却域の決定を行ってみます。

手順1~2の設定

  • 帰無仮説 H0H_0: 「フライドポテトの質量は100gである」
  • 検定統計量 : tt

採択域を決めるため、 以下の2つを設定します。

  • 設定項目1: 有意水準 α\alpha = 0.05 (5%)
  • 設定項目2: 検定方式 = 両側

データの数(サンプルサイズ)が5個の場合、 自由度は v=51=4v = 5 - 1 = 4 になります。

これらの条件使って tt 分布表を確認すると、 t=2.776t = 2.776 になるので、 棄却域(帰無仮説がほぼ否定される tt 値の範囲)は、 t<2.2776,2.2776<tt<-2.2776, 2.2776<t に決まります。

両側検定の場合のtt 分布表

ν\nuα0.05\alpha=0.05 のとき α0.01\alpha=0.01 のとき
112.706 63.657 
24.3039.925
33.1825.841
42.7764.604
52.5714.032

手順3で、帰無仮説がほぼ否定される統計量の範囲(棄却域)を決めました。 次は、実際にデータを使って統計量を算出し、 手順3で決めた範囲に入るかどうか、検証を行います。 入れば帰無仮説はほぼ否定(棄却)され、対立仮説がほぼ正しい(採択)という結論が出せます。

以下では、 仮説の棄却と採択を行う手順について説明し、具体例を示します。

手順1~3までに決まった内容を基に、 結論を導きます。 ステップは下記になります。

  • i. 仮定とデータから検定統計量を計算する
  • ii. 採択域と比較する
  • iii. 結論を出す

実際の測定データ(1標本)と、 仮定した母集団の統計値を使い、 検定統計量を算出します。

この検定統計量は、 帰無仮説が成り立つことを前提とした値です。 統計学的にほぼあり得ない値であると、 結論づけられた場合、 この仮説がほぼ否定されます。

実際の測定データ(1標本)を 計算に用いるのは、 この手順4が初めてになります。

iの検定統計量の値と棄却域を比較します。

棄却域は、手順3までで決めた検定統計量の範囲です。 「帰無仮説が正しい場合に、 統計学的にほぼ入らないはず」 の範囲を意味します。 つまり、 iの検定統計量が 棄却域に入ると 帰無仮説はほぼ否定されます。

iiの結果を踏まえて、 帰無仮説がほぼ否定されるかどうかの結論を出します。

帰無仮説がほぼ否定されることを「棄却する」と言います。 その結果、 対立仮説がほぼ成り立つことになります。 このことを対立仮説を「採択する」と言います。

手順1~3の具体例の設定を使い、 結論まで導きたいと思います。

手順1~3の設定

  • 帰無仮説 H0H_0 : 「フライドポテトの質量は100gである」
  • 棄却域 : t<2.2776,2.2776<tt < -2.2776, 2.2776 < t
    • 検定統計量 : tt
    • 有意水準 α\alpha : 0.05
    • 検定方式 : 両側検定
    • サンプルサイズ : 5

結論までは、

  • i. 仮定とデータから tt 値を計算する
  • ii. 棄却域と比較する
  • iii. 結論を出す の順で進めていきます。

仮説とデータから得られる数値を 計算式に代入し、 tt 値の算出を行います。

仮説から下記が得られます。

  • 母平均 = 100

データについては、 実際にフライドポテトを5品購入し、 それぞれの質量を測定することで、 1サンプル分の平均質量と分散値が 取得できます。 ここでは、測定して以下の結果が得られたとします。

  • サンプル平均 = 95
  • 不偏分散 = 8

データの取得条件である、 サンプルサイズについてですが、 1標本(1サンプル)には、5品分の質量(データ)が含まれるので

  • サンプルサイズ = 5

です。 もし、使用するデータのサンプルサイズを、 棄却域の決定時(手順3)のサンプルサイズから変更する場合には、 再度、棄却域の決定をやり直す必要があります。

上記の値を使って tt 値を算出すると次の通りになります。

  • tt : 検定統計量
  • xˉ\bar{x} : 標本平均 = 95
  • μ\mu : 母平均 = 100
  • s2s^2 : 不偏分散 = 8
  • nn : サンプルサイズ = 5
t=xˉμs2n=9510085=3.95\begin{aligned} t &= \frac{\bar{x} - \mu}{\sqrt{\frac{s^2}{n}}} \\ &= \frac{95 - 100}{\sqrt{\frac{8}{5}}} \\ &= -3.95 \end{aligned}

棄却域は

  • t<2.2776,2.2776<tt < -2.2776, 2.2776 < t です(手順3より)。 仮説から導いた値は
  • t=3.95t= -3.95 です(手順4 iより)。

この2つを比較すると、 仮説から導いた tt 値は、 棄却域の中にあることがわかります。

帰無仮説が成り立つ前提で、 検定統計量の評価を行ったところ、 棄却域に入りました(手順4 ii)。

この結果から、

  • 帰無仮説 H0H_0 : 「フライドポテトの質量は100gである」 は、棄却されます。 そして、
  • 対立仮説 H1H_1 : 「フライドポテトの質量は100gではない」 が採択されます。

最終的に、 「フライドポテトの質量は100gではない可能性が高い」 と結論付けられます。

仮説検定では、確認したい仮説を否定する仮説を立て、 それが成り立たないことを示すことで、 確認したい仮説が成り立つと結論付けます。

大まかに次の手順で進めます。

手順1. 仮説を立てる。
対立仮説と帰無仮説を立てる。

手順2. 使用する検定統計量を決定する。
帰無仮説が成り立つかの評価に用いる検定統計量を決める。

手順3. 判定基準となる検定統計量の範囲を決定する。
帰無仮説が成り立つかの判定基準となる棄却域を、統計学的に決定する。

手順4. 実際のデータから検証を行う。
帰無仮説と実験データから検定統計量を計算し、棄却域にはいるか検証し結論を出す。