この計算ツールでは、データ列間の相関値(相関係数)が算出できます。 スプレッドシートにデータ列を記入することで、テーブルに相関係数が表示され、データの散布図とフィッティング直線がグラフに表示されます。 使い方の詳細は後述します。
| A | B | C | D | E | F | G | H | I | J |
1 | 53.02 | 35.06 | | | | | | | | |
2 | 65.81 | 51.35 | | | | | | | | |
3 | 13.83 | 0.16 | | | | | | | | |
4 | 20.29 | 39.45 | | | | | | | | |
5 | 40.21 | 40.39 | | | | | | | | |
6 | 51.73 | 53.54 | | | | | | | | |
7 | 52.46 | 58.33 | | | | | | | | |
8 | 31.15 | 28.88 | | | | | | | | |
9 | 39.54 | 36.91 | | | | | | | | |
10 | 30.46 | 24.75 | | | | | | | | |
11 | 45.05 | 52.28 | | | | | | | | |
12 | 32.21 | 36.22 | | | | | | | | |
13 | 33.71 | 25.85 | | | | | | | | |
14 | 41.5 | 37.64 | | | | | | | | |
15 | 55.81 | 50.55 | | | | | | | | |
16 | 52.05 | 45.91 | | | | | | | | |
17 | 67.34 | 73.99 | | | | | | | | |
18 | 30.83 | 36.75 | | | | | | | | |
19 | 88.09 | 85.82 | | | | | | | | |
20 | 34.39 | 52.80 | | | | | | | | |
21 | 38.36 | 49.63 | | | | | | | | |
22 | 13.98 | 10.02 | | | | | | | | |
23 | 52.07 | 49.95 | | | | | | | | |
24 | -5.75 | -11.38 | | | | | | | | |
25 | 15.37 | 6.64 | | | | | | | | |
26 | 48.16 | 49.75 | | | | | | | | |
27 | 75.63 | 75.54 | | | | | | | | |
28 | 37.95 | 28.79 | | | | | | | | |
29 | 64.39 | 73.38 | | | | | | | | |
30 | 68.42 | 67.71 | | | | | | | | |
31 | 60.79 | 61.50 | | | | | | | | |
32 | 55.49 | 67.20 | | | | | | | | |
33 | -1.43 | 3.14 | | | | | | | | |
34 | 0.69 | -2.68 | | | | | | | | |
35 | 80.38 | 78.72 | | | | | | | | |
36 | 26.21 | 28.87 | | | | | | | | |
37 | 53.02 | 28.51 | | | | | | | | |
X1 - Y1
X2 - Y2
X3 - Y3
X4 - Y4
X5 - Y5
| X1-Y1 | X2-Y2 | X3-Y3 | X4-Y4 | X5-Y5 |
---|
ピアソンの相関係数 |
---|
| 0.926 | NaN | NaN | NaN | NaN |
---|
スピアマンの相関係数 |
---|
| 0.873 | NaN | NaN | NaN | NaN |
---|
単回帰直線 |
---|
| y = | y = | y = | y = | y = |
---|
| 0.994 x | x | x | x | x |
---|
| + -0.603 | + | + | + | + |
---|
決定係数 |
---|
| 0.857 | NaN | NaN | NaN | NaN |
---|
解析するデータ列を記入してください。 スプレッドシート上の一番上の行にある2つの "1" マーカーは、それぞれ X1 と Y2 を意味しています。 このマーカー位置の列に記入したデータ列が、それぞれ X1 と Y2 として扱われます。 マーカーの位置はドラッグで移動できるので、複数のデータ列を記入しておき、解析したいデータ列を切り替えることもできます。
マーカーの数は最大5セットまで増やせます。 スプレッドシート上の"-", "+" ボタンを押してみてください。 "セル初期化" ボタンは、スプレッドシート上の数値を削除します。
グラフ上では、スプレッドシートに入力したデータ列の散布図およびフィッティング直線が表示されます。 グラフの横軸が X 、縦軸が Y になっています。 初期の状態では X1 と Y1 の1セットが表示されていますが、 スプレッドシート上のマーカーセット数を増やすと表示されるデータセットの数も増え、重ねて表示されます。
テーブルでは、スプレッドシートに入力したデータ列間の相関係数 およびフィッティング直線の数式と決定係数が表示されます。 表示される相関係数は、ピアソンの相関係数とスピアマンの相関係数の 2種類を表示しています。
相関係数(相関値)は、絶対値が1に近いほど「高い相関」を示し、0に近いほど「低い相関」を示します。 一般的に 0.6 or 0.7以上の場合に「相関あり」とするケースが多いようです。
ここでは、ピアソンの相関係数とスピアマンの相関係数の 2種類を用いています。 ピアソンの相関係数は、データの母集団が正規分布である という仮定の元で使用されます。 ピアソンの相関係数よりも外れ値に強く、 またデータに正規性がなくても使用できます。 データ列が直線関係でなく、単調増加・単調減少の関係性(指数関数や対数関数など)であれば相関関係を算出できますが、 それ以外 (2次関数など) の関係性では、たとえ実際には相関があっても低い相関係数になります。 相関係数の値だけでなく、散布図も必ず確認してください。
ピアソンの相関係数 (Peasonの積率相関係数) は次の式で表されます。
- xi : データ X の i 番目の値
- yi : データ Y の i 番目の値
- x : データ X の平均値
- y : データ Y の平均値
- n : データ数
r=n1∑in(xi−x)2n1∑in(yi−y)2n1∑in(xi−x)×(yi−y) スピアマンの相関係数 (Spearmanの順位相関係数) は、 各データの値を順位に変換し、 順位同士でピアソンの相関係数を算出したものになりますが、 次の式が多用されます。
- Di : xi と xi の順位の差
- n : データ数
ρ=1−n(n2−1)6∑inDi2
ここではデータの関係が直線関係(線形関係)であると仮定しており、 1次関数による線形回帰分析を使用しています。 使用するデータごとに、1次関数によるフィッティングが妥当であるのか
の判断が必要なので、ご注意ください。
フィッティング直線は、傾き a と切片 b の2つのパラメータによって決まります。 計算式は次の通りです。
- yi : データ Y の i 番目の値
- y : データ Y の平均値
ab=∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)(xi−xˉ)=yˉ−axˉ 決定係数として、ここでは次の式を使用しています。 フィッティング直線が実際のデータにどの程度合致しているのかを示しています。 0に近いほど不一致であり、1に近いほど一致していることを意味します。
- fi : データ Y の i 番目の推定値 (フィッティング直線の値)
R2=1−∑in(yi−y)2∑in(yi−fi)2