2024/12/12

相関係数の算出と単回帰分析ツール【統計学】

Thumbnail for 相関係数の算出と単回帰分析ツール【統計学】

この計算ツールでは、データ列間の相関値(相関係数)が算出できます。 スプレッドシートにデータ列を記入することで、テーブルに相関係数が表示され、データの散布図とフィッティング直線がグラフに表示されます。 使い方の詳細は後述します。

マーカーセット数:1/5
ABCDEFGHIJ
153.0235.06
265.8151.35
313.830.16
420.2939.45
540.2140.39
651.7353.54
752.4658.33
831.1528.88
939.5436.91
1030.4624.75
1145.0552.28
1232.2136.22
1333.7125.85
1441.537.64
1555.8150.55
1652.0545.91
1767.3473.99
1830.8336.75
1988.0985.82
2034.3952.80
2138.3649.63
2213.9810.02
2352.0749.95
24-5.75-11.38
2515.376.64
2648.1649.75
2775.6375.54
2837.9528.79
2964.3973.38
3068.4267.71
3160.7961.50
3255.4967.20
33-1.433.14
340.69-2.68
3580.3878.72
3626.2128.87
3753.0228.51
X11Y11

解析するデータ列を記入してください。 スプレッドシート上の一番上の行にある2つの "1" マーカーは、それぞれ X1X_1Y2Y_2 を意味しています。 このマーカー位置の列に記入したデータ列が、それぞれ X1X_1Y2Y_2 として扱われます。 マーカーの位置はドラッグで移動できるので、複数のデータ列を記入しておき、解析したいデータ列を切り替えることもできます。

マーカーの数は最大5セットまで増やせます。 スプレッドシート上の"-", "+" ボタンを押してみてください。 "セル初期化" ボタンは、スプレッドシート上の数値を削除します。

グラフ上では、スプレッドシートに入力したデータ列の散布図およびフィッティング直線が表示されます。 グラフの横軸が XX 、縦軸が YY になっています。 初期の状態では X1X_1Y1Y_1 の1セットが表示されていますが、 スプレッドシート上のマーカーセット数を増やすと表示されるデータセットの数も増え、重ねて表示されます。

テーブルでは、スプレッドシートに入力したデータ列間の相関係数 およびフィッティング直線の数式と決定係数が表示されます。 表示される相関係数は、ピアソンの相関係数とスピアマンの相関係数の 2種類を表示しています。


相関係数(相関値)は、絶対値が1に近いほど「高い相関」を示し、0に近いほど「低い相関」を示します。 一般的に 0.6 or 0.7以上の場合に「相関あり」とするケースが多いようです。

ここでは、ピアソンの相関係数とスピアマンの相関係数の 2種類を用いています。 ピアソンの相関係数は、データの母集団が正規分布である という仮定の元で使用されます。 ピアソンの相関係数よりも外れ値に強く、 またデータに正規性がなくても使用できます。 データ列が直線関係でなく、単調増加・単調減少の関係性(指数関数や対数関数など)であれば相関関係を算出できますが、 それ以外 (2次関数など) の関係性では、たとえ実際には相関があっても低い相関係数になります。 相関係数の値だけでなく、散布図も必ず確認してください。

ピアソンの相関係数 (Peasonの積率相関係数) は次の式で表されます。

  • xix_i : データ XXii 番目の値
  • yiy_i : データ YYii 番目の値
  • x\overline{x} : データ XX の平均値
  • y\overline{y} : データ YY の平均値
  • nn : データ数

スピアマンの相関係数 (Spearmanの順位相関係数) は、 各データの値を順位に変換し、 順位同士でピアソンの相関係数を算出したものになりますが、 次の式が多用されます。

  • DiD_i : xix_ixix_i の順位の差
  • nn : データ数

ここではデータの関係が直線関係(線形関係)であると仮定しており、 1次関数による線形回帰分析を使用しています。 使用するデータごとに、1次関数によるフィッティングが妥当であるのか の判断が必要なので、ご注意ください。

フィッティング直線は、傾き aa と切片 bb の2つのパラメータによって決まります。 計算式は次の通りです。

  • yiy_i : データ YYii 番目の値
  • y\overline{y} : データ YY の平均値

決定係数として、ここでは次の式を使用しています。 フィッティング直線が実際のデータにどの程度合致しているのかを示しています。 0に近いほど不一致であり、1に近いほど一致していることを意味します。

  • fif_i : データ YYii 番目の推定値 (フィッティング直線の値)