Excel(エクセル)における回帰分析の手順と出力の意味を説明します。
このページでは、回帰分析全体に関する出力を説明します。
目次 : (3)最小二乗法の性質からの続きです。
このページでは、以下のように表示される回帰分析全体に関する出力を説明します。
回帰分析から得られた当てはめ値が、どれだけ被説明変数を説明できているかを考えます。(2)式のの右辺第一項は『回帰分析によって説明できる部分』、右辺第二項は『説明できない推定エラーの部分』に相当します。第一項で説明できる部分が大きい方が、回帰分析の当てはまりが良いという印象があります。しかし、(2)式では平均的なの水準が高ければ、が高くなります。そこで、(2)式の両辺から平均値を引いた偏差を用いて当てはまりの指標を作ります。
また、偏差を用いても単純に総和をとって当てはまりの指標を作ることはできません。(4)式にあるようにの総和や平均は0になるからです。そこで、最小二乗法の発想のように二乗してから総和をとることを考えます。切片のある回帰分析では(7)式から、(4)式からなので、(2)式の両辺から平均値を引いたに対して二乗和をとります。
(12) |
(12)式の第二項のは(4)式と(5)式より0になります。よって、(12)式は
(13) |
と書けます。(13)式の形は[の偏差平方和]=[の偏差平方和]+[の二乗和]です。 つまり、『被説明変数の偏差平方和』は『説明できる分のの偏差平方和』と『説明できない分のの二乗和』に分解することができます。 (13)式の右辺第一項が第二項に比べて大きければ、回帰分析の当てはまりが良いことになります。割合の指標にするために(13)式の両辺を左辺で割ります。
(14) |
(14)式の黄色に塗った部分が被説明変数の偏差平方和に占めるの偏差平方和で説明できる割合に相当し、決定係数と呼ばれます。 (14)式の右辺の二つの項は、分子分母ともに二乗の総和の形で必ずプラスです。その和が1になるので、決定係数は0から1の間の値になります。 決定係数〈重決定R2〉は回帰分析の当てはまりの指標であり、の偏差平方和のうちの偏差平方和によって説明できる割合を表します。
(15) |
決定係数〈重決定R2〉は計算過程で二乗をとっているので、尺度を元に戻すために決定係数の正の平方根をとった値が〈重決定R2〉です。決定係数は0から1の範囲にあるので、正の平方根をとった〈重決定R2〉は必ず決定係数以上、1以下の値になります。
(16) |
いったん行った回帰分析に説明変数を追加して、再び回帰分析をする場合を考えます。もし、追加した説明変数が全く回帰分析の役に立たない場合は、回帰分析の結果として追加した説明変数の推定係数は0になります。この場合、推定エラーの二乗和も追加前の値と変わりません。一方で、追加した説明変数が少しでも回帰分析の役に立つ場合は、0以外の推定係数が得られます。この場合、は減少します。 実際には、無関係な説明変数であっても推定係数がちょうど0となることはありません。説明変数の追加によって、多少なりともは減少します。
(15)式で示したように、決定係数は説明変数の数に関係なく、のに占める割合から算出されます。このため、説明変数の追加は決定係数にプラスの影響しかありません。よって、無関係な説明変数であっても追加すればするほど、決定係数は増加します。
そこで、説明変数を増やすことにマイナスの影響もある当てはまりの指標として、自由度修正決定係数を示すことがあります。 切片を含めて説明変数が種類あるとすると、自由度修正決定係数は以下の式で定義されます。
(17) |
自由度修正決定係数は、決定係数よりも小さく1以下の値となり、マイナスもあり得ます。説明変数を追加すれば決定係数を高め、(17)式の黄色に塗った値が減少します。一方で水色に塗った値は分母が減少することで増加します。説明変数を追加した場合、自由度修正決定係数の変化の方向は『黄色の減少分』と『水色の増加分』の逆方向の作用のどちらが大きいかの綱引きによって決まります。自由度修正決定係数〈補正R2〉は、説明変数の数を考慮した当てはまりの指標です。
(4)式に示されるように、切片のある回帰分析では、推定エラーの平均は0です。しかし同じ平均0でも±1と±2のそれぞれ2つの標本では、±2の方がばらつきが大きいと言えます。このばらつきの指標を計算するために、まずと推定エラーを二乗をしてから総和をとります。その後で標本1つあたりの指標に変換します。
単純に考えれば、を標本数で割れば、標本1つあたりの指標になりそうです。しかし、を標本数で割ると、真のばらつきに比べて小さめの推定値になる傾向があります。例えば、極端なケースとして標本が2つなら切片を含めた単回帰で完全に説明できて当たり前です。 この場合、は0になります。しかし、エラーが0でばらつかないのではなく、切片を含めた説明変数の数と標本数が同じなのでが0となっていると考えられます。標本数を、切片を含めた説明変数の数をとすると、説明できて当たり前でないのはの値に依存し、この値を自由度と呼びます。
エラーの二乗和を自由度で割ると、不偏分散と呼ばれる偏りのない標本1つあたりのエラーのばらつきが導出できます。また、不偏分散は計算過程で二乗をとっているので、正の平方根をとることで元の尺度の標準誤差という指標にします。 〔回帰統計の〕標準誤差は、エラーの平均的なばらつきの推定値です。
(18) | |
(19) |
統計学や計量経済学では『異なっていない(同質)』や『効果がない(無効)』を主張する仮説を帰無仮説と言います。一方、帰無仮説の反対側の『異なっている(異質)』や『効果がある(有効)』を主張する仮説を対立仮説と言います。直接、対立仮説を肯定することが難しい場合、帰無仮説を否定することで間接的に対立仮説を肯定するという手続きをとります。
〈分散分析表〉は『切片以外の全ての説明変数は無効』⇒『切片以外の説明変数の真の係数は全て0である』という帰無仮説の検定を行っています。 この帰無仮説が正しい場合、切片だけで回帰分析をしても、説明変数を入れて回帰分析をしても、推定エラーの二乗和に大きな差がないと考えるのが自然です。切片だけで回帰分析をした場合、(10)式からとなり、推定エラーの二乗和はと被説明変数の偏差平方和そのものになります。よって、切片以外の説明変数を追加することで減少した推定エラーの二乗和はとなり、(13)式からであることが分かります。
〈分散分析表〉の[分散の列]には、左隣のセルのをで割ることで、『説明変数あたりの推定エラーの二乗和の減少』を表しています。その1つ下のセルには(18)式で算出される『説明変数を入れても残ったエラーのばらつき』の不偏分散が表示されます。〈観測された分散比〉は以下の(20)式の形で、この2つの数の比率をとっています。
(20) |
また〈観測された分散比〉は、以下のように変形して決定係数で表すことができます。
(21) |
当てはまりの指標である決定係数が高ければ、(21)式の黄色に塗られている分数の分子が大きく、分母が小さいことで〈観測された分散比〉も高くなることが分かります。
(20)式から『説明変数あたりの推定エラーの二乗和の減少』が大きいほど、(21)式から『決定係数』が大きいほど、〈観測された分散比〉は大きくなることが分かります。このため、〈観測された分散比〉が大きい場合は『切片以外の説明変数の真の係数は全て0である』という帰無仮説は不自然になります。この不自然という感覚を統計で表したのが、〈分散分析表〉の〈有意F〉です。有意Fは『切片以外の全ての説明変数の効果が0である』という帰無仮説のもとで、偶然によって標本が観測されてしまう確率の上限を示しています。
乱数データの[固定シート]〈P21〉表示されている〈有意F〉の[7.68E-25]はを表し、ゼロが25個ならぶほど小さい数です。この場合、「『全ての変数が無効』という帰無仮説が正しければ、以下の確率でしか起こらないことが起こった。」⇒ 「帰無仮説は不自然で、ほぼ確実に効果のある説明変数がある。」という解釈になります。
目次 : (5)説明変数に関する出力に続きます。