[Excelにおける回帰分析 (4)回帰分析全体に関する出力] はてなブックマークに追加

Excel(エクセル)における回帰分析の手順と出力の意味を説明します。
このページでは、回帰分析全体に関する出力を説明します。

関連ファイル
Excelにおける回帰分析(最小二乗法)の手順と出力:このHTMLの印刷板に当たる18ページのPDF(約480KB)です。
Excelにおける回帰分析(最小二乗法)用乱数データ:乱数を用いて、推定値の挙動を見ることのできるExcel(約100KB)です。
分散の不偏推定量:偏差平方和を(n-1)で割ると分散の不偏推定量になることが視覚的に確認できるExcel(約80KB)です。
中心極限定理と擬似正規乱数:一様分布の標本平均が正規分布に近づくことや統計における検定のアイディアが視覚的に確認できるExcel(約60KB)です。
学校は人的資本を形成するのか? (1)教育の経済学:分布やシミュレーションを使って、学歴と平均賃金の関係を説明するHTMLです。
学校は人的資本を形成するのか? (2)賃金格差の実証分析:日本の学歴間賃金格差の実証分析を説明するHTMLです。

目次(3)最小二乗法の性質からの続きです。

このページでは、以下のように表示される回帰分析全体に関する出力を説明します。

Excelの回帰分析全体に関する出力


4.1 決定係数〈重決定R2〉:回帰分析の当てはまりの指標

回帰分析から得られた当てはめ値yhatが、どれだけ被説明変数yを説明できているかを考えます。(2)式yの式の右辺第一項は『回帰分析によって説明できる部分』、右辺第二項は『説明できない推定エラーの部分』に相当します。第一項で説明できる部分が大きい方が、回帰分析の当てはまりが良いという印象があります。しかし、(2)式では平均的なyの水準が高ければ、yhatが高くなります。そこで、(2)式の両辺から平均値を引いた偏差を用いて当てはまりの指標を作ります。

また、偏差を用いても単純に総和をとって当てはまりの指標を作ることはできません。(4)式にあるようにeの総和Σeや平均ebarは0になるからです。そこで、最小二乗法の発想のように二乗してから総和をとることを考えます。切片のある回帰分析では(7)式からybar=yhatbar(4)式からebar=0なので、(2)式の両辺から平均値ybarを引いたy-ybar=yhat-ybar+eに対して二乗和をとります。

y=の偏差平方和=yhatとの偏差平方和+eの二乗和 (12)

(12)式の第二項の2Σ[yhat-ybar]e(4)式(5)式より0になります。よって、(12)式は

y=の偏差平方和=yhatとの偏差平方和+eの二乗和 (13)

と書けます。(13)式の形は[yの偏差平方和]=[yhatの偏差平方和]+[eの二乗和]です。 つまり、『被説明変数yの偏差平方和』は『説明できる分のyhatの偏差平方和』と『説明できない分のeの二乗和』に分解することができます。 (13)式の右辺第一項が第二項に比べて大きければ、回帰分析の当てはまりが良いことになります。割合の指標にするために(13)式の両辺を左辺で割ります。

1=yhatの偏差平方和/yの偏差平方和 (14)

(14)式の黄色に塗った部分が被説明変数yの偏差平方和に占めるyhatの偏差平方和で説明できる割合に相当し、決定係数と呼ばれます。 (14)式の右辺の二つの項は、分子分母ともに二乗の総和の形で必ずプラスです。その和が1になるので、決定係数は0から1の間の値になります。 決定係数〈重決定R2〉は回帰分析の当てはまりの指標であり、yの偏差平方和のうちyhatの偏差平方和によって説明できる割合を表します。

決定係数
決定係数 (15)

4.2 〈重相関R〉:決定係数の正の平方根

決定係数〈重決定R2〉は計算過程で二乗をとっているので、尺度を元に戻すために決定係数の正の平方根をとった値が〈重決定R2〉です。決定係数は0から1の範囲にあるので、正の平方根をとった〈重決定R2〉は必ず決定係数以上、1以下の値になります。

〈重相関R〉 (16)

4.3 自由度修正決定係数〈補正R2〉:説明変数の数を考慮した当てはまりの指標

いったん行った回帰分析に説明変数を追加して、再び回帰分析をする場合を考えます。もし、追加した説明変数が全く回帰分析の役に立たない場合は、回帰分析の結果として追加した説明変数の推定係数は0になります。この場合、推定エラーの二乗和Σe2も追加前の値と変わりません。一方で、追加した説明変数が少しでも回帰分析の役に立つ場合は、0以外の推定係数が得られます。この場合、Σe2は減少します。 実際には、無関係な説明変数であっても推定係数がちょうど0となることはありません。説明変数の追加によって、多少なりともΣe2は減少します。

(15)式で示したように、決定係数は説明変数の数に関係なく、Σe2Σ(yi-ybar)^2に占める割合から算出されます。このため、説明変数の追加は決定係数にプラスの影響しかありません。よって、無関係な説明変数であっても追加すればするほど、決定係数は増加します。

そこで、説明変数を増やすことにマイナスの影響もある当てはまりの指標として、自由度修正決定係数を示すことがあります。 切片を含めて説明変数がk種類あるとすると、自由度修正決定係数は以下の式で定義されます。

自由度修正決定係数
自由度修正決定係数 (17)

自由度修正決定係数は、決定係数よりも小さく1以下の値となり、マイナスもあり得ます。説明変数を追加すれば決定係数を高め、(17)式の黄色に塗った値が減少します。一方で水色に塗った値は分母が減少することで増加します。説明変数を追加した場合、自由度修正決定係数の変化の方向は『黄色の減少分』と『水色の増加分』の逆方向の作用のどちらが大きいかの綱引きによって決まります。自由度修正決定係数〈補正R2〉は、説明変数の数を考慮した当てはまりの指標です。


4.4 〔エラーの〕標準誤差:エラーの平均的なばらつきの推定値

(4)式に示されるように、切片のある回帰分析では、推定エラーの平均ebarは0です。しかし同じ平均0でも±1と±2のそれぞれ2つの標本では、±2の方がばらつきが大きいと言えます。このばらつきの指標を計算するために、まずΣe2と推定エラーeを二乗をしてから総和をとります。その後で標本1つあたりの指標に変換します。

単純に考えれば、Σe2を標本数nで割れば、標本1つあたりの指標になりそうです。しかし、Σe2を標本数nで割ると、真のばらつきに比べて小さめの推定値になる傾向があります。例えば、極端なケースとして標本が2つなら切片を含めた単回帰で完全に説明できて当たり前です。 この場合、Σe2は0になります。しかし、エラーが0でばらつかないのではなく、切片を含めた説明変数の数と標本数が同じなのでΣe2が0となっていると考えられます。標本数をn、切片を含めた説明変数の数をkとすると、説明できて当たり前でないのは(n-k)の値に依存し、この値を自由度と呼びます。

エラーの二乗和Σe2を自由度(n-k)で割ると、不偏分散と呼ばれる偏りのない標本1つあたりのエラーのばらつきが導出できます。また、不偏分散は計算過程で二乗をとっているので、正の平方根をとることで元の尺度の標準誤差という指標にします。 〔回帰統計の〕標準誤差は、エラーの平均的なばらつきの推定値です。

不偏分散s2 (18)
標準誤差s (19)

4.5 〈分散分析表〉と〈有意F〉:切片以外の説明変数は全て無効の検定と確率の上限

統計学や計量経済学では『異なっていない(同質)』や『効果がない(無効)』を主張する仮説を帰無仮説と言います。一方、帰無仮説の反対側の『異なっている(異質)』や『効果がある(有効)』を主張する仮説を対立仮説と言います。直接、対立仮説を肯定することが難しい場合、帰無仮説を否定することで間接的に対立仮説を肯定するという手続きをとります。

〈分散分析表〉は『切片以外の全ての説明変数は無効』⇒『切片以外の説明変数の真の係数は全て0である』という帰無仮説の検定を行っています。 この帰無仮説が正しい場合、切片だけで回帰分析をしても、説明変数を入れて回帰分析をしても、推定エラーの二乗和Σe2に大きな差がないと考えるのが自然です。切片だけで回帰分析をした場合、(10)式からb1=ybarとなり、推定エラーの二乗和はΣ(yi-ybar)^2と被説明変数yの偏差平方和そのものになります。よって、切片以外の説明変数を追加することで減少した推定エラーの二乗和はΣ(y-ybar)2-Σe2となり、(13)式からΣ(yhat-ybar)2であることが分かります。

〈分散分析表〉の[分散の列]には、左隣のセルのΣ(yhat-ybar)2k-1で割ることで、『説明変数あたりの推定エラーの二乗和の減少』を表しています。その1つ下のセルには(18)式で算出される『説明変数を入れても残ったエラーのばらつき』の不偏分散が表示されます。〈観測された分散比〉は以下の(20)式の形で、この2つの数の比率をとっています。

〈観測された分散比〉の推定エラーの二乗和での表記 (20)

また〈観測された分散比〉は、以下のように変形して決定係数で表すことができます。

〈観測された分散比〉の推定エラーの決定係数での表記
〈観測された分散比〉の推定エラーの決定係数での表記 (21)

当てはまりの指標である決定係数が高ければ、(21)式の黄色に塗られている分数の分子が大きく、分母が小さいことで〈観測された分散比〉も高くなることが分かります。

(20)式から『説明変数あたりの推定エラーの二乗和の減少』が大きいほど、(21)式から『決定係数』が大きいほど、〈観測された分散比〉は大きくなることが分かります。このため、〈観測された分散比〉が大きい場合は『切片以外の説明変数の真の係数は全て0である』という帰無仮説は不自然になります。この不自然という感覚を統計で表したのが、〈分散分析表〉の〈有意F〉です。有意Fは『切片以外の全ての説明変数の効果が0である』という帰無仮説のもとで、偶然によって標本が観測されてしまう確率の上限を示しています。

乱数データ[固定シート]〈P21〉表示されている〈有意F〉の[7.68E-25]は7.68*0.1^25を表し、ゼロが25個ならぶほど小さい数です。この場合、「『全ての変数が無効』という帰無仮説が正しければ、7.68*0.1^25以下の確率でしか起こらないことが起こった。」⇒ 「帰無仮説は不自然で、ほぼ確実に効果のある説明変数がある。」という解釈になります。


目次(5)説明変数に関する出力に続きます。