なぜ笑うんだい?S&P500の年次収益率は正規分布だよ

 少し前にS&P500の年次収益率が正規分布に従うというこちらのブログ記事を読みました.ファイナンスの実証分析の常識ではインデックスを含む大抵の銘柄で収益率の分布は正規分布より裾の厚い分布になることが知られています.しかし,それはもっと高頻度のデータでの話,すなわち日次や週次,どんなに低頻度でも月次ぐらいまででしょう.株価のような入手が極めて容易いデータについてあえて年次データを使うようなことはほぼありません.統計分析はデータをあつめてなんぼの世界なのであえてスカスカのデータを使うのはデータ演習課題をちゃっちゃと済ませたい学生ぐらいなものなのです.

またファイナンスの専門家界隈では収益率を計算する際には連続複利収益率(対数価格比)が通常用いられ,普通の意味での収益率である単純利益率は理論的には価格の非負性が保証されないため,あまり好まれません.

今回僕が調べたところ上記のブログの通りS&P500の「年次の単純利益率」に関しては正規分布としていいんじゃないかという結果が確認できました.これが奇跡のバランスの上になりたっているのか,もっとロバストな結果で他の資産価格でも成り立つことなのかはいまいち不明でさらなる調査が必要なのですが,現時点でわかっているデータのふるまいについてありのままに書いていきたいと思います.

まず,そもそも単純利益率と連続複利収益率の関係について簡単に書きます.単純利益率と連続複利収益率はそれぞれ

R=(今期の価格ー前期の価格)/前期の価格

r=log(今期の価格/前期の価格)

と定義されます.logは自然対数です.連続複利収益率はその名の通り,前期から今期の間に起こった価格変化に対し,連続的に複利計算したときの利回りを表しています.ここではRを単利,rを複利と略して呼ぶことにします.両者には

r=log(1+R)=R-(R^2)/2+・・・

という関係があり,Rがゼロに近いときはほぼ同じ値ですが,ゼロから離れると-(R^2)/2の影響でrが小さく評価されます.実際のSP500のデータでみてみると,週次と月次ではほぼ差はみられないのですが,年次になると結構な差が出ます(図1).ちなみに今回のデータは1927年12月26日から2022年10月31日までで,週次で4948週,月次で1139か月,年次で95年となっています.

図1:単利(赤)と複利(青)

次にヒストグラムをみます.図2に平均と分散を調整した正規分布との比較を描きました.週次と月次は何となく尖度が大きいようにみえます.年次の複利は左に裾が長い分布になっていて左右対称ではなさそうです.年次では分布の両裾はかなりゼロから離れているので上で述べた通りー(R^2)/2の項の影響で複利の分布は左にずれています.


図2:収益率分布と正規密度(青)
しかしこれでは正規性の判断できるほどの情報ではないのでQQプロットをみます.週次と月次に関しては分布の両裾が正規分布よりかなり厚いことがわかります.年次については分布の左側が裾厚,右側が裾薄となっています.年次単利に関してはかなり正規分布に近いようにみえ,各種正規性の検定では,正規分布でないという帰無仮説は棄却できません.

図3:QQプロット

正規性の検定として,ここではシャピロ-ウィルク検定とジャック-ベラ検定を試しました.どちらの検定でも帰無仮説が「データが正規分布に従っている」です.表1の通り単利年次収益率以外のすべてで帰無仮説は棄却されます.正規分布でないといっていいでしょう.問題は単利年次収益率ですが,正規分布ではないという証拠がみつからないだけで,積極的に正規分布であると言っているわけではないことに注意したいところです.仮説検定というのはそういうものです.初心にかえって図2の単利年次収益率のヒストグラムをもう一度眺めてみても,青線の美しいベル型カーブに重なっているようにみえるでしょうか?仮説検定で言えることはあくまでも他のヒストグラムよりはっきり正規分布ではない!といえる証拠が不十分というだけです.

表1:正規性の検定

この結果をもってして正規分布でリターンの確率計算するのは楽だから気持ちはわかるし,ベンチマークとして活用するのはいいと思います.しかし,それだったら,普通に経験分布(ヒストグラム)の分位点を使って計算する方がまだましなんじゃないかと思うのです.これはバックテストそのものなのでバカにされがちですが,無茶なモデル化から繰り出される計算よりは信用に値するのではないでしょうか.

それはともかく,僕が専門家?として興味があるのは月次までの頻度でみられる収益率分布のファットテイルが,年次では消え去ってしまっている現象の理由です.目星はついていて,ボラティリティ(収益率分布の分散あるいは標準偏差)の持続性の長さの問題だと睨んでいます.

正規分布の分散が確率変数になっているものを混合正規分布と呼びます.混合正規分布の尖度は3よりも大きくなることは割と簡単に証明できます.つまり混合正規分布の分布の裾は正規分布より必ずファットテイルになります.

収益率分布の分散が一定ではなく時間を通じて変化していくことはファイナンスの実証分析では常識となっている現象です.モデルの誤差項に正規分布を使うのはいいとしても,その分散を時変的に設定することによって,ファットテイルやボラティリティクラスタリング(ボラティリティの大きさが持続する現象)などの現象を表現することができます.代表的なものにARCH(auto-reggressive conditional heteroskedasticity)型モデルや確率的ボラティリティモデルなどがあり,最近ではRのパッケージで簡単に扱えるようになっています.

ボラティリティが一定ではなく時間を通じて変動していくことを確認するために,ここでは収益率の2乗の偏自己相関をみてみます(図3).なぜ収益率の2乗かというと収益率の変動幅をみたいからです.収益率の2乗はボラティリティそのものではありませんが,その実現値みたいなもので,実際ARCH型モデルは収益率の2乗の自己回帰(AR)モデルに書き直すことができます.自己回帰モデルとはある時系列変数をその変数の過去の値に回帰させるモデルです.つまり

今期の収益率の2乗=f(前期の収益率の2乗,前々期の収益率の2乗,...)

の関数fがモデルの内容になりますが,ARモデルの場合はただの一次式だったりします.これによって,収益率の2乗という変動幅は過去の変動幅の大きさに応じて変化していく様を捉えることができます.それでは過去の変動幅といってもどのくらい遡ればよいのでしょうか?それを決めるのが偏自己相関になります.図3の赤線が有意水準1%の臨界値,青が有意水準5%の臨界値レベルを表しています.何の仮説を検定をしているかというと,偏自己相関がゼロであるという帰無仮説です.つまり赤線や青線を上下に越えていたらゼロでない偏自己相関が存在し,内側ならば偏自己相関はゼロと判断します.横軸はラグ次数で何期遡れば偏自己相関が消えるか調べています.緑の縦線が1年を表し,週次なら52週,月次なら12か月を表しています.例えば週次のグラフをみれば大体1年(52週)あたりまで遡ってモデルを作ればいいかな(2年とか5年あたりにも単発で有意なところもあるけど)という感じになります.月次でもやや強引ですが12か月あたりまで正の偏自己相関が沢山みられます.つまり週次や月次でデータの場合,変動幅をモデル化するときは1年ぐらいの自己ラグが必要ということになります.他方,年次になると偏自己相関はみられず,過去の変動幅の影響は受けないことがわかります.誤解を恐れずにざっくり言うと変動幅の持続性は1年以内で消えているということになります.結果的に0次のARCHモデルが選ばれることになりボラティリティは一定,よって収益率は正規分布でよいという結論になります.

図4:収益率の2乗の偏自己相関
長くなってしまいました.あとは実際に今回のS&P500のデータを使っていろいろなボラティリティ変動モデルを推定すれば,またわかることもでてくるでしょう.

Reference

コメント

このブログの人気の投稿

債券は株の暴落をヘッジできるのか?

新NISAオルカン積立のみで億り人になる確率

イールドカーブの主成分分析による現時点での米国債投資判断