回帰直線を導くのは回帰分析の1つの手法です。2つのデータがありその関係性や関係の度合いがわかります。
因果関係があるものであれば関係性を数値化することができます。
基本的な考え方
データ分析の1つに回帰分析があります。2つの変数の関係性を直線で示す方法です。
下記のように分布しているデータがあるとします。
なんとなく右上がりの傾向がありますね。仮に傾向を示す直線を仮に引いてみます。
この直線を y=ax+b とした場合の傾き a と切片 b を感覚的ではなく、定量的に求めていきたいと思います。
つまり点と線の距離が最小になるような直線を求めればいいことになります。
赤線の長さの合計が最少になるような直線を求めます。
赤線は yi と axi+b の差の合計になります。
式を作って求めていく
yi-axi+b がマイナスになる場合があり、そのまま合計するとプラスとマイナスが打ち消しあうので、二乗をします。
$f(a,b)= \displaystyle \sum_{i=1}^n (y_{i}-(ax _{i} +b))^2$
$\hspace{ 31pt }= \displaystyle \sum_{i=1}^n) (y_{i}^2+(ax _{i} +b) ^2-2y_{i} (ax _{i} +b))$
$\hspace{ 31pt }= \displaystyle \sum_{i=1}^n) (y_i^2+(ax_i)^2+2ax_ib+b^2-2y_iax_i-2y_ib)$
bを定数と考えて、aを偏微分する。
$\displaystyle\frac{\partial f(a,b)}{\partial a}=-2\sum_{i=1}^nx_i (y_i-ax_i-b)=0$
展開、移項して
$\displaystyle\sum_{i=1}^nx_iy _i=a\sum_{i=1}^nx^2_i+b\sum_{i=1}^nx_i\ \cdots\cdots\cdots\ \mathbf{①}$
aを定数と考えて、bを偏微分する。
$\displaystyle\frac{\partial f(a,b)}{\partial b}=-2\sum_{i=1}^n(y_i-ax_i-b)=0$
展開、移項して
$\displaystyle\sum_{i=1}^ny _i=a\sum_{i=1}^nx_i+bn$
両辺をnで割る。
$\displaystyle\frac{\displaystyle\sum_{i=1}^ny _i}{n}=\frac{a\displaystyle \sum_{i=1}^nx_i }{n}+\frac{bn}{n}$
変数が2つ以上ある関数を微分するときにおこないます。1つの変数だけを変数として、それ以外は定数として微分するやり方が偏微分です。
例えば$2x^3-3y^2+x^2+5y-4$を$x$について偏微分するには$y$を単なる定数と考えると、$6x^2+2x$になります。
$\displaystyle\frac{\displaystyle\sum_{i=1}^ny _i}{n}$ はyの平均、 $\displaystyle\frac{\displaystyle\sum_{i=1}^nx _i}{n}$ はxの平均なので
$\overline{y}=a\overline{x}+b$ になります。移項して
$b=-a\overline{x}+\overline{y}$
これを①に代入する。 $\displaystyle\sum_{i=1}^nx_iy _i=a\sum_{i=1}^nx^2_i+(-a\overline{x}+\overline{y})\sum_{i=1}^nx_i$
両辺をnで割りながら移項
$\displaystyle a\left(\frac{\displaystyle\sum_{i=1}^nx_i^2}{n}- \frac{\overline{x}\displaystyle\sum_{i=1}^nx_i}{n} \right)=\frac{ \displaystyle\sum_{i=1}^nx_iy_i}{n}-\frac{\overline{y}\displaystyle \sum_{i=1}^nx_i}{n} $
$a(\overline{x^2}-\overline{x}^2)=\overline{xy}-\overline{x}\cdot\overline{y}$
$\displaystyle a=\frac{\overline{xy}-\overline{x}\cdot\overline{y}}{ \overline{x^2}-\overline{x}^2}=\frac{\sigma_{xy}}{\sigma_x^2}=\frac{xyの共分散}{xの分散}$
まとめ
$\displaystyle a=\frac{\overline{xy}-\overline{x}\cdot\overline{y}}{ \overline{x^2}-\overline{x}^2}=\frac{\sigma_{xy}}{\sigma_x^2}=\frac{xyの共分散}{xの分散}$
$b=-a\overline{x}+\overline{y}$
今回は触れませんでしたが、関係の度合いをあらわす指標として相関係数や決定係数があります。
式だけ書いておきます。
$\displaystyle変数x、yの相関係数$
$=\frac{x、yの共分散}{xの標準偏差\times yの標準偏差}$
$決定係数=(相関係数)^2$
$標準偏差=\sqrt{分散}$