相関係数の性質

大学・一般数学統計大学・一般数学


2変量データ間の関係の強さの指標である相関係数は \(~-1 \)以上 \(~1 \)以下の値しかとらない。これをはじめとする、相関係数に関する3つの性質を証明します。
①スケール変換後の相関係数
② \(~-1 \le r \le 1 \)
③\( |r|=1 \)のときの散布図


目次
  • 1. ①スケール変換後の相関係数
  • 2. ② \(~-1 \le r \le 1 \)
  • 3. ③\( |r|=1 \)のときの散布図

①スケール変換後の相関係数

スケール変換後の相関係数

2変量データ\( x,y \)を\( k \)倍したデータの相関係数は、元データの相関係数と同じ値になる。

すなわち、2変量データ\( (x_{i},y_{i})(i=1,\cdots,n) \)の相関係数を\( r_{xy} \)とすると、この2変量データを\( k \)倍した2変量データ\( (X_{i},Y_{i})=(x_{i},y_{i})(i=1,\cdots,n)~\) の相関係数\( r_{XY} \)に関して、次の式が成り立つ。
\begin{equation}
r_{XY}=r_{xy}
\end{equation}

つまり、10点満点の数学と英語の小テストの得点をそれぞれ10倍して、100点満点にしたとしても、相関係数の値は変わらないということになります。当然と言えば、当然ですね。証明も、計算をゴリゴリするだけですが、一応下に示します。

証明

2変量データ\( X(=kx),Y(=ky) \)に関して、
\begin{align}
\bar{X}&=\displaystyle \frac{1}{n}(X_{1}+X_{2}+\cdots +X_{n}) \\ \\
&=\frac{1}{n}(kx_{1}+kx_{2}+\cdots +kx_{n}) \\ \\
&=k\frac{1}{n}(x_{1}+x_{2}+\cdots +x_{n}) \\ \\
&=k\bar{x}
\end{align}
同様に、
\begin{equation}
\bar{Y}=k\bar{y}
\end{equation}
である。 これを用いて、\( r_{XY} \)を式変形していくと、
\begin{align}
&r_{XY} \\
\\
&=\displaystyle \frac{s_{XY}}{s_{X}s_{Y}} \\ \\
&=\displaystyle \frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (X_{i}-\bar{X})(Y_{i}-\bar{Y})}{\displaystyle \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (X_{i}-\bar{X})^2} \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (Y_{i}-\bar{Y})^2}}\\ \\
&=\displaystyle \frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n} (kx_{i}-k\bar{x})(ky_{i}-k\bar{y})}{\displaystyle \frac{1}{n}\sqrt{ \sum_{i=1}^{n} (kx_{i}-k\bar{x})^2} \sqrt{ \sum_{i=1}^{n} (ky_{i}-k\bar{y})^2}}\\ \\
&=\displaystyle \frac{\displaystyle k^2\sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y})}{\displaystyle k\sqrt{ \sum_{i=1}^{n} (x_{i}-\bar{x})^2} k \sqrt{ \sum_{i=1}^{n} (y_{i}-\bar{y})^2}}\\ \\
&=\displaystyle \frac{\displaystyle \sum_{i=1}^{n} (x_{i}-\bar{x})(y_{i}-\bar{y})}{\displaystyle \sqrt{ \sum_{i=1}^{n} (x_{i}-\bar{x})^2} \sqrt{ \sum_{i=1}^{n} (y_{i}-\bar{y})^2}}\\ \\ &=\displaystyle \frac{s_{xy}}{s_{x}s_{y}}\\ \\
&=r_{xy}
\end{align}
以上より、題意は示された。\( \blacksquare \)


② \(~-1 \le r \le 1 \)

定理・定義名

2変量データ\( x,y \)の相関係数\( r_{xy} \)は、次の値をとる。
\begin{equation}
-1 \le r_{xy} \le 1
\end{equation}

「相関係数は \(~-1 \)から\( 1 \)の値をとる」。高校数学では、当たり前のこととして扱われ、証明については言及されませんでした。実は、ある公式を使うと簡単に証明ができます。↓↓

証明

コーシーシュワルツの不等式
\begin{equation}
\displaystyle \left( \sum_{i=1}^{n}a_{i}^2 \right) \left(\sum_{i=1}^{n}b_{i}^2 \right)\ge \left( \sum_{i=1}^{n}a_{i}b_{i} \right)^2
\end{equation}
を使う。この不等式に、\( a_{i}=x_{i}-\bar{x} , b_{i}=y_{i}-\bar{y} \)を代入すると、

\begin{equation}
\displaystyle \left(\sum_{i=1}^{n}(x_{i}-\bar{x})^2 \right) \left(\sum_{i=1}^{n}(y_{i}-\bar{y})^2 \right) \ge \left(\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y}) \right)^2
\end{equation}
両辺、\( \displaystyle \left(\sum_{i=1}^{n}(x_{i}-\bar{x})^2 \right) \left(\sum_{i=1}^{n}(y_{i}-\bar{y})^2 \right) \)でわると、
\begin{equation}
1 \ge \displaystyle \left( \frac{\displaystyle \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\displaystyle \sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^2 }} \right)^2
\end{equation}
右辺のカッコの中の分母・分子に\( \displaystyle \frac{1}{n} ~\) をかけて、
\begin{equation}
1 \ge \displaystyle \left( \frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\displaystyle \sqrt{\frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})^2}\sqrt{\frac{1}{n} \sum_{i=1}^{n}(y_{i}-\bar{y})^2 }} \right)^2
\end{equation}
この右辺の分子は\( x~\) と\( y~\) の共分散、分母はそれぞれ\( x~\) ,\( y~\) の標準偏差であるため、
\begin{equation}
1 \ge \displaystyle \left( \frac{s_{xy}}{s_{x}s_{y}} \right)^2=(r_{xy})^2
\end{equation}
よって、\( -1\le r_{xy} \le 1 \)が示された。\( \blacksquare \)


\begin{multline}
\displaystyle \left(\sum_{i=1}^{n}(x_{i}-\bar{x})^2 \right) \left(\sum_{i=1}^{n}(y_{i}-\bar{y})^2 \right) \\
\\ \ge \left(\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y}) \right)^2
\end{multline}
両辺、\( \displaystyle \left(\sum_{i=1}^{n}(x_{i}-\bar{x})^2 \right) \left(\sum_{i=1}^{n}(y_{i}-\bar{y})^2 \right) \)でわると、
\begin{equation}
1 \ge \displaystyle \left( \frac{\displaystyle \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\displaystyle \sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^2 }} \right)^2
\end{equation}
右辺のカッコの中の分母・分子に\( \displaystyle \frac{1}{n} ~\) をかけて、
\begin{equation}
1 \ge \displaystyle \left( \frac{\displaystyle \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\displaystyle \sqrt{\frac{1}{n} \sum_{i=1}^{n}(x_{i}-\bar{x})^2}\sqrt{\frac{1}{n} \sum_{i=1}^{n}(y_{i}-\bar{y})^2 }} \right)^2
\end{equation}
この右辺の分子は\( x~\) と\( y~\) の共分散、分母はそれぞれ\( x~\) ,\( y~\) の標準偏差であるため、
\begin{equation}
1 \ge \displaystyle \left( \frac{s_{xy}}{s_{x}s_{y}} \right)^2=(r_{xy})^2
\end{equation}
よって、\( -1\le r_{xy} \le 1 \)が示された。\( \blacksquare \)


③\( |r|=1 \)のときの散布図

\( |r|=1 \)のときの散布図

2変量データ\( x,y \)の相関係数が\( r_{xy}=1 \)のとき、散布図をとると、全てのデータが一直線上に並ぶ。 相関係数1の散布図

証明

\( |r|=1 \)ということは、②で用いたコーシー・シュワルツの不等式で等号が成立するということである。コーシー・シュワルツの不等式の等号成立条件は、
\begin{equation}
a_{1}:a_{2}:\cdots:a_{n}=b_{1}:b_{2}:\cdots:b_{n}
\end{equation}
であるため、\( b_{i}=k a_{i} \)とおき、ここに\( a_{i}=x_{i}-\bar{x} , b_{i}=y_{i}-\bar{y} \)を代入すると、
\begin{equation}
y_{i}-\bar{y}=k(x_{i}-\bar{x})
\end{equation}
\( -\bar{y} \)を移項して、
\begin{equation}
y_{i}=k x_{i}+(-k\bar{x}+\bar{y})
\end{equation}
となり、\( (-k\bar{x}+\bar{y}) \)は定数なので、全ての\( (x_{i} , y_{i}) \)は、一次関数\( y=kx+(-k\bar{x}+\bar{y}) \)上に並ぶことが示された。\( \blacksquare \)


絶対に \(~-1 \)から\( 1 \)の値をとる相関係数。その証明にコーシーシュワルツの不等式が絡んでくる。一見関係無いように見えて、いろんな定理や公式が絡み合うのが数学のおもしろさですね。