相関係数の性質


2変量データ間の関係の強さの指標である相関係数は $~-1 $以上 $~1 $以下の値しかとらない。これをはじめとする、相関係数に関する3つの性質を証明します。
①スケール変換後の相関係数
② $~-1 \le r \le 1 $
③$ |r|=1 $のときの散布図


目次

①スケール変換後の相関係数

スケール変換後の相関係数

2変量データ$ x,y $を$ k $倍したデータの相関係数は、元データの相関係数と同じ値になる。

すなわち、2変量データ$ (x_{i},y_{i})(i=1,\cdots,n) $の相関係数を$ r_{xy} $とすると、この2変量データを$ k $倍した2変量データ$ (X_{i},Y_{i})=(x_{i},y_{i})(i=1,\cdots,n)~$ の相関係数$ r_{XY} $に関して、次の式が成り立つ。
\begin{equation}
r_{XY}=r_{xy}
\end{equation}

つまり、10点満点の数学と英語の小テストの得点をそれぞれ10倍して、100点満点にしたとしても、相関係数の値は変わらないということになります。当然と言えば、当然ですね。証明も、計算をゴリゴリするだけですが、一応下に示します。

証明

2変量データ$ X(=kx),Y(=ky) $に関して、
\begin{align}
\bar{X}&=\displaystyle \frac{1}{n}(X_{1}+X_{2}+\cdots +X_{n}) \\ \\
&=\frac{1}{n}(kx_{1}+kx_{2}+\cdots +kx_{n}) \\ \\
&=k\frac{1}{n}(x_{1}+x_{2}+\cdots +x_{n}) \\ \\
&=k\bar{x}
\end{align}
同様に、
\begin{equation}
\bar{Y}=k\bar{y}
\end{equation}
である。 これを用いて、$ r_{XY} $を式変形していくと、
\begin{align}
&r_{XY} \\
\\
&=\displaystyle \frac{s_{XY}}{s_{X}s_{Y}} \\ \\
&=\displaystyle \frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (X_{i}-\bar{X})(Y_{i}-\bar{Y})}{\displaystyle \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (X_{i}-\bar{X})^2} \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (Y_{i}-\bar{Y})^2}}\\ \\
&=\displaystyle \frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (kx_{i}-k\bar{x})(ky_{i}-k\bar{y})}{\displaystyle \frac{1}{n}\sqrt{ \sum_{i=1}^{n} (kx_{i}-k\bar{x})^2} \sqrt{ \sum_{i=1}^{n} (ky_{i}-k\bar{y})^2}}\\ \\
&=\displaystyle \frac{\displaystyle k^2\sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y})}{\displaystyle k\sqrt{ \sum_{i=1}^{n} (x_{i}-\bar{x})^2} k \sqrt{ \sum_{i=1}^{n} (y_{i}-\bar{y})^2}}\\ \\
&=\displaystyle \frac{\displaystyle \sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y})}{\displaystyle \sqrt{ \sum_{i=1}^{n} (x_{i}-\bar{x})^2} \sqrt{ \sum_{i=1}^{n} (y_{i}-\bar{y})^2}}\\ \\ &=\displaystyle \frac{s_{xy}}{s_{x}s_{y}}\\ \\
&=r_{xy}
\end{align}
以上より、題意は示された。$ \blacksquare $


② $~-1 \le r \le 1 $

定理・定義名

2変量データ$ x,y $の相関係数$ r_{xy} $は、次の値をとる。
\begin{equation}
-1 \le r_{xy} \le 1
\end{equation}

「相関係数は $~-1 $から$ 1 $の値をとる」。高校数学では、当たり前のこととして扱われ、証明については言及されませんでした。実は、ある公式を使うと簡単に証明ができます。↓↓

証明

コーシーシュワルツの不等式
\begin{equation}
\displaystyle \left( \sum_{i=1}^{n}a_{i}^2 \right) \left(\sum_{i=1}^{n}b_{i}^2 \right)\ge \left( \sum_{i=1}^{n}a_{i}b_{i} \right)^2
\end{equation}
を使う。この不等式に、$ a_{i}=x_{i}-\bar{x} , b_{i}=y_{i}-\bar{y} $を代入すると、

\begin{equation}
\displaystyle \left(\sum_{i=1}^{n}(x_{i}-\bar{x})^2 \right) \left(\sum_{i=1}^{n}(y_{i}-\bar{y})^2 \right) \ge \left(\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y}) \right)^2
\end{equation}
両辺、$ \displaystyle \left(\sum_{i=1}^{n}(x_{i}-\bar{x})^2 \right) \left(\sum_{i=1}^{n}(y_{i}-\bar{y})^2 \right) $でわると、
\begin{equation}
1 \ge \displaystyle \left( \frac{\displaystyle \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\displaystyle \sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^2 }} \right)^2
\end{equation}
右辺のカッコの中の分母・分子に$ \displaystyle \frac{1}{n} ~$ をかけて、
\begin{equation}
1 \ge \displaystyle \left( \frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\displaystyle \sqrt{\frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})^2}\sqrt{\frac{1}{n} \sum_{i=1}^{n}(y_{i}-\bar{y})^2 }} \right)^2
\end{equation}
この右辺の分子は$ x~$ と$ y~$ の共分散、分母はそれぞれ$ x~$ ,$ y~$ の標準偏差であるため、
\begin{equation}
1 \ge \displaystyle \left( \frac{s_{xy}}{s_{x}s_{y}} \right)^2=(r_{xy})^2
\end{equation}
よって、$ -1\le r_{xy} \le 1 $が示された。$ \blacksquare $


\begin{multline}
\displaystyle \left(\sum_{i=1}^{n}(x_{i}-\bar{x})^2 \right) \left(\sum_{i=1}^{n}(y_{i}-\bar{y})^2 \right) \\
\\ \ge \left(\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y}) \right)^2
\end{multline}
両辺、$ \displaystyle \left(\sum_{i=1}^{n}(x_{i}-\bar{x})^2 \right) \left(\sum_{i=1}^{n}(y_{i}-\bar{y})^2 \right) $でわると、
\begin{equation}
1 \ge \displaystyle \left( \frac{\displaystyle \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\displaystyle \sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^2 }} \right)^2
\end{equation}
右辺のカッコの中の分母・分子に$ \displaystyle \frac{1}{n} ~$ をかけて、
\begin{equation}
1 \ge \displaystyle \left( \frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\displaystyle \sqrt{\frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})^2}\sqrt{\frac{1}{n} \sum_{i=1}^{n}(y_{i}-\bar{y})^2 }} \right)^2
\end{equation}
この右辺の分子は$ x~$ と$ y~$ の共分散、分母はそれぞれ$ x~$ ,$ y~$ の標準偏差であるため、
\begin{equation}
1 \ge \displaystyle \left( \frac{s_{xy}}{s_{x}s_{y}} \right)^2=(r_{xy})^2
\end{equation}
よって、$ -1\le r_{xy} \le 1 $が示された。$ \blacksquare $


③$ |r|=1 $のときの散布図

$ |r|=1 $のときの散布図

2変量データ$ x,y $の相関係数が$ r_{xy}=1 $のとき、散布図をとると、全てのデータが一直線上に並ぶ。 相関係数1の散布図

証明

$ |r|=1 $ということは、②で用いたコーシー・シュワルツの不等式で等号が成立するということである。コーシー・シュワルツの不等式の等号成立条件は、
\begin{equation}
a_{1}:a_{2}:\cdots:a_{n}=b_{1}:b_{2}:\cdots:b_{n}
\end{equation}
であるため、$ b_{i}=k a_{i} $とおき、ここに$ a_{i}=x_{i}-\bar{x} , b_{i}=y_{i}-\bar{y} $を代入すると、
\begin{equation}
y_{i}-\bar{y}=k(x_{i}-\bar{x})
\end{equation}
$ -\bar{y} $を移項して、
\begin{equation}
y_{i}=k x_{i}+(-k\bar{x}+\bar{y})
\end{equation}
となり、$ (-k\bar{x}+\bar{y}) $は定数なので、全ての$ (x_{i} , y_{i}) $は、一次関数$ y=kx+(-k\bar{x}+\bar{y}) $上に並ぶことが示された。$ \blacksquare $


絶対に $~-1 $から$ 1 $の値をとる相関係数。その証明にコーシーシュワルツの不等式が絡んでくる。一見関係無いように見えて、いろんな定理や公式が絡み合うのが数学のおもしろさですね。

   
 
 

よかったらシェアしてね!
目次
閉じる