分析において線形回帰が一般でよく使われています。
その背景として、得られたモデルの妥当性を示す定理や検定方法が色々と体系化され、ライブラリが充実している点があると思います。

ライブラリが充実しているので線形回帰を簡単に行える状況でありますが、注意点として挙げられるのが「結果の解釈を適切に行えるか?」だと思います。

今回は、その中でも「行った解釈・検定について、その前提条件をデータが満たしているか?」という点に着目します。
そもそも前提条件を満たしていない場合、解釈や検定が不適となってしまいます。

今回は、線形回帰(OLS)における定理や検定等の前提について整理します。

線形回帰(OLS)に関する各種前提

0.下記での表記について

・Y:目的変数
・X:説明変数
・β:OLSによって得られた回帰パラメータ
・ε:誤差項

1.「回帰パラメータβが不偏推定量」の前提条件

①E[ ε ] = 0
 →式変形により満たす形にできる。
②目的変数 Y と説明変数 X が線形の関係
③E[ ε | X] = 0
 →診断する方法が無い。εの代わりに残差eを使うとしてもOLSの性質から診断不可。(OLSの性質よりeとXに相関が無く、結果的に E[ e | X ] = 0 となる)

2.「βがBLUE(最良線形不偏推定量)」の前提条件

・上記①~③を満たす(「回帰パラメータβが不偏推定量」の前提条件)
④説明変数間にマルチコ(多重共線性)が無い
⑤V[ ε | X ] = σ^2(Xの値問わず一定)
 →標準誤差に影響

3.t検定の前提条件

⑥εが正規分布に従う
 →その正規性を調べる方法としてジャック・ベラ検定があります。また、データ量が多ければ(βは「誤差項の重み付き平均」と見なせるので、中心極限定理より)正規分布に近づくので、正規分布と見なされるかもしれません。ですが、データ量が多くない場合はβの分布が分からず、つまりは、本検定用の統計量がt分布に従うかは分かりません。

4.「βがMVUE(最小分散不偏推定量)」の前提条件

・上記①~⑤を満たす(「βがBLUE(最良線形不偏推定量)」の前提条件)
・上記⑥を満たす(εが正規分布に従う)

By clear

データエンジニア・機械学習・分析等を主とし、Webアプリ開発も行っているフリーランスです。