統計処理について

研究内容

HOME

相場の分析でよく利用している統計処理を紹介していきます。

[Ⅰ]　基本的な統計量

（１）データ数　n

　分析の対象となるデータの数を表します。

（２）最大値　MAX

　対象となるデータの最大値です。

（３）最小値　MIN

　対象となるデータの最小値です。

（４）レンジ　RANGE

　対象となるデータにおける、最大値と最小値の差です。これをレンジと呼び”R”で表し,次式で求めます。

　　 R = MAX - ＭＩＮ　

レンジは一般的にはあまり使用しない統計量ですが、相場を見る場合は１代足でどれだけの値幅があるか確認するときに使います。

（５）平均　：　μ

　一般にｎ個のデータ、X1,X2,X3,・・・Xn とある場合、その合計をｎで割った値を示します。位置の代表値とも呼ばれおり、平均値をμ（ミュー）というギリシャ文字で表しています。数式で表すと下記のようになります。

（６）標準偏差　：　σ

　標準偏差はデータのバラツキの尺度を表します。統計学においても最も重要な統計量の一つです。算出過程は以下のようになります。

Xi について個々のデータから平均値μを引いた値を偏差と呼びます。それぞれの偏差を２乗して合計した値を偏差平方和と呼び”Ｓ”で表します。偏差を２乗する意味は偏差をそのまま合計した場合プラスとマイナスで相殺されて０になるためバラツキの量が得られないからです。

そして偏差平方和Ｓをｎで割ればバラツキを比較できる量を得ることができます。この値を分散と呼び”Ｖ”で表します。

そしてバラツキの尺度を元のデータと同じ単位に揃えるために分散Ｖの平方根をとります。こうして得られ値を標準偏差と呼び”σ”（シグマ）で表します。テクニカル指標ポリンジャーバンドのＨｉバンド、Ｌｏｗバンドやブラックショールズ式のボラティリティの値としても使われています。

算出過程から標準偏差の数式は下記のようになります。

※標本から分散・標準偏差を求める場合、偏差平方和Ｓを自由度ｎ－１で割ります。

（７）歪度　：　β1

　歪度はデータのカタヨリの尺度を表します。つまり与えれれた分布が左右対称であるかを調べるのに使います。歪度は次の式より求められます。

この値がマイナスになると分布が左側に偏り「左裾が重い」、また逆にプラスになると右側に偏り「右裾が重い」といわれます。サヤ取りを仕掛けるにあたって、逆ザヤ期になることが多い銘柄はこの値がマイナスになっている場合が多く、仕掛けずらい相場であるといえます。

（８）尖度　：　β2

　尖度はデータの尖りの尺度を表します。分布の頂上付近が鋭く尖っているか、または平坦に近く丸みかかっているかを調べるのに使います。尖度は次の式より求められます。

この値がマイナスになると標準に対して分布が平坦になり、また逆にプラスになると標準に対して分布が尖ります。サヤ取りを仕掛けるにあたって、この値が極端にマイナスをとっているとサヤが極端に離れて分布していることを意味し大きくサヤを取れる可能性もありますが、その分リスクも高くなるといえるでしょう。

※ここで紹介した統計量を求めるエクセルの関数を列記しておきます。

データ数： =COUNT()

最大値： =MAX()

最小値： =MIN()

レンジ： =MAX()-MIN()

平均値： =AVERAGE()

標準偏差： =STDEVP()

歪度： =SKEW()

尖度： =KURT()

[Ⅱ]　確立分布について

ここではサヤデータにおける度数分布の統計処理のしかたと、変数”Ｘ”に対してその値が持つ確立を調べます。その時の変数”Ｘ”を確立変数と呼び、確立の集まりを確立分布と呼びます。代表的な４つの確立分布について紹介するとともにサヤ取りにおける各確率分布の利用例等についても簡単に書いておきます。

（１）度数分布

与えられたデータがある等間隔区間における密度の程度を調べます。この区間に入るデータの個数を数える統計処理を度数分布と呼びます。

度数分布は対象となるデータ全体の特徴を把握するのに使用します。例として東京白金６番限－３番限（２００１年～２００５年）のサヤデータを使います。今このサヤデータの全体が一定のサヤ値の間隔ごとにどれだけの数があるかを調べてみます。その結果が以下の表のようになりました。

サヤの値を－１４０、－１３０、・・・というような大きい単位にデータをまとめ級を作ります。それぞれの級区間に属するサヤデータの個数を級度数といいます。こうして得られる分布を組み分けによる度数分布といいます。上のように連続量で組み分けした度数分布は下のようなグラフにしてみることができます。

　　東京白金６－３番限サヤ　ヒストグラム　

このように縦軸に度数、横軸に級区間値をとったグラフをヒストグラムと呼びます。

〔級区間の求め方〕

まず級の数ですが、データ数が十分に大きければ１０～２０くらいが適当かと思われます。そして対象となるデータのレンジを級の数で割れば級間隔を求めることができます。上の例ではレンジを２０で割って四捨五入した値を級間隔としています。

級間隔　：　１９７÷２０＝９．８５≒１０

級限界値はデータの最大値と最小値を目安にして取ります。

上に得られたそれぞれの度数をデータ数で割った値で表した分布を相対度数分布と呼び、また相対度数を級の小さい方の値から順に加えていった値を累積相対度数と呼びます。累積相対度数を百分率（％）で表してグラフにした場合、下のようになります。

　　東京白金６－３番限サヤ　累積相対度数分布

累積相対度数の５０％の級の値がデータ平均値を示していることがわかります。また１０％以下でサヤの値が約－１１０以下、９０％以上でサヤの値が約－３０以上であることがグラフから読み取ることができます。

例では東京白金６番限－３番限（２００１～２００５年）の度数分布を示しましたが、他の銘柄で同じような分析をしても必ずしも白金のようなきれいな分布の形をするとはいえません。これは白金が季節的要因でのサヤの変化がないためこのような６番限と３番限のサヤデータを扱うことができるからです。データ層ができるだけ同じ条件での分布を得ることを考えることが重要です。

（２）正規分布

確立密度関数が下の式で表される分布を正規分布と呼びます。

πは円周率３．１４・・・、ｅはネイピア数２．７３・・・

平均と分散はμとσ^2になります。この２つの数字がわかれば正規分布の形が定まり、Ｎ（μ、σ^2）と書きます。

正規分布を縦軸にｆ（ｘ）、横軸にｘをとると下のような釣鐘状のグラフになります。

グラフを見てもわかるように正規分布には以下のような性質があります。

１．平均値μを中心に左右対称になっている。

２．確立密度関数は平均値μで一番高くなり、Ｘ軸を漸近線として両側に行くにつれ低くなる。

３．標準偏差σが大きくなればグラフが扁平に小さくなればグラフが狭く高くなる。またσは関数の変曲点になる。

４．ｆ（ｘ）とｘ軸で囲まれた面積は確立を意味し以下のような関係がある。関数で囲まれた部分の面積は積分で求めることができることから

　　（ａ）全体の面積〔－∞、∞〕は１になる。

　　（ｂ）μ－σとμ＋σ間の面積は約０．６８になる。

　　　　また

　　　　μ－２σとμ＋２σ間の面積は約０．９５、

　　　　μ－３σとμ＋３σ間の面積は約０．９９になる。

〔標準正規分布について〕

正規分布Ｎ（μ、σ^2）に従う変数Ｘに

　　ｚ＝（ｘ－μ）/σ

という変換を施すと、ｚの平均は０、分散は１となる正規分布に従います。

ｚ変換により変換された正規分布を標準正規分布と呼び、Ｎ（０，１）で表します。標準正規分布のｚがわかれば、わざわざ上にあるような積分の計算をしなくとも一般に公開されている統計値表より正規分布の確立を求めることができます。

次に前の度数分布で扱った東京白金のデータを標本として正規分布で近似した場合どのような結果が得られるか見ていきたいと思います。

まずそれぞれの級の値にｚ変換を施し標準正規分布から確立を算出します。

これで得られた正規分布と相対度数分布の関係をグラフにしてみます。

グラフをみると相対度数分布と正規分布がほほ近似しているのがわかります。

〔適合度の検定〕

相対度数分布と正規分布との差が大きいとき、正規分布にあてはまるという仮説を棄却することにするという検定を行う場合、相対度数分布と正規分布との差を測るものさしとして次式で与えられる量χ^2（カイ２乗）が用いられます。

　　χ^2＝Σ（相対度数分布－正規分布）^2/（正規分布）

χ^2がχ（ｋ－３、０．０５）より大きいとき仮説が捨てられる。

自由度は級の数ｋから３引いた数をとります。（正規分布の平均と標準偏差を推定したため）

　　χ^2＝０．１８＜χ^2（１７，０．０５）＝２７．６　＊カイ２乗表より

となり仮説は棄却され有意水準９５％で正規分布に従う。

※適合度の検定は確立分布にデータ数ｎをかけることにより期待度数を算出し、期待度数と実測度数の検定を行うのが一般的ですが、相場において扱う時系列データの実測値は分布の両側にデータの偏りが現れることが多いので仮説が捨てられる場合がほとんどです。そこで相対度数分布と正規分布が上のグラフのように視覚的に近似しているのを確認した上で、上記の検定をすればよいのではと思います。

以上を踏まえた上で、実際にどのような相場の張り方をすればよいか、東京白金のサヤを例に挙げてみます。正規分布の右側を上限、左側を下限として各々の片側の確立に対応するサヤ値を求めて下のような表にまとめてみます。

例えばサヤ値が上限の１０％以下（－３４以上）になった場合は逆ザヤ取りを仕掛け、下限の１０％以下（－１１以下）になった場合は順ザヤ取りを仕掛けるなどの手法が有利になりそうです。

※正規分布を求めるエクセル関数式

=NORMDIST(x,平均,標準偏差,関数形式)

また標準正規分布の累積確立（－∞～ｚ）は次の関数より求められます。

=NORMSDIST(STANDARDIZE(x,平均,標準偏差))

（３）二項分布

１回のトレードにおいて勝率７０％のシステム売買があると仮定します。このトレードを４回（ｎ＝４）繰り返した場合、起こりえる確率がどのようになるか下表でみてみます。

表みてもわかるように起こりえる場合は１６通りありますが、勝つ回数という事象にだけ注目すれば、０，１，２，３，４の５通りあります。例えば２回だけ勝つ場合は、何回目と何回目で勝つかという組み合わせの数より６通りあり、その確立は6*p^2*q^2=0.265になります。勝つ回数０，１，２，３，４ごとに確立pxを与える確立分布になることがわかります。

例のように勝つか負けるかというような事象が２通りしか起こらない分布を二項分布と呼び、その確立pxを表す一般式は以下のようになります。

ｎ＝１０のときp=0.1,p=0.3,p=0.5に変えた場合の２項分布のグラフを以下に示します。

p=0.1のときはx=0やx=1のときに大きな山があり、p=0.3のときはx=3のとき山になり、p=0.5のときはx=5のとき山になりさらに左右対称になっていることがわかります。

投資においてはリスク管理の概念の一つとして使われます。

※二項分布を求めるエクセル関数式

=BINOMDIST(成功数,試行回数,成功率,関数形式)

（４）ポアソン分布

　二項分布においてμを固定したままで、ｎを十分に大きくし、それに伴いｐを十分に小さくしたときの極限分布を求めると。以下のような式が導き出されます。

（数学的な算出過程は省略します）

上の確立を取る分布をポアソン分布と呼びます。

式をみてもわかるようにポアソン分布の確立pxは平均μの値のみで定まることがわかります。下に平均μの値をいろいろと変えた場合にどのようなグラフになるか描いてみます。

その確立pxはμが小さい場合はｘ＝０のとき最大となり、μが大きくなるにつれポアソン分布が山形に変化していきます。μが５以上になると、分布はほぼ左右対象になり正規分布に近似していきます。

このポアソン分布は何を意味するのかというと、ある一定の長さの期間、一定の大きさの空間において、ごくまれに起こる事象の数を表す確立分布を取ります。

例えばシステム売買において１週間に仕掛けの数が平均何回あるかとか分割売買をする場合はその頻度は平均何回かとかを確立的に算出して、どれだけの資金を用意すればよいかなど目安を計ることができそうです。１週間の平均仕掛けか回数が１回の場合は上に示したグラフのμ＝１の確立を取ります。

※ポアソン分布を求めるエクセル関数式

=POISSON(イベント数,平均,関数形式)

（５）指数分布

　指数分布はある条件の下で決められた事象が起きるまでの時間を表す、つまり到来時間がこの分布に従います。

指数分布の確立密度関数は以下のように表されます。（Ｘは負の値をとらない）

ここでのλは平均到来時間は1/λの逆数を意味します。

式をみてもわかるようにポアソン分布の確立ｆ（ｘ）はλの値のみで定まることがわかります。下にλの値をいろいろと変えた場合、次のようにグラフが変化します。

システム売買において次の仕掛けが何日以内に○％の確立で発生するとかなどを計算するのに使ったりします。

※指数分布を求めるエクセル関数式

=EXPONDIST(x,λ,関数形式)

以上４つの確率分布について説明しましたが、これらの分布は２つのタイプに分かれます、２項分布やポアソン分布は確率変数”Ｘ＝1,2,3、・・・”のようなある一点に対して確立が存在する離散型確率分布と呼ばれ、対し正規分布や指数分布はある一点に対しての確立は存在しなく”0≦Ｘ≦３”のようなある区間に対して確立が計れる連続型確率分布と呼ばれます。連続型の確立分布の数式は至る所で積分可能な確立密度関数を持ちます。

[Ⅱ]　モーメントについて

確率分布には期待値や分散といった統計的な数量が存在しますので、これらの統計量についても少し触れておきましょう。まず期待値ですが、これは確立変数Ｘは平均的にどれくらいの数量を表すのかというものです。

わかりやすい例で1枚３００円の宝くじがあって、それを日本中の宝くじを買い占めたとします。この宝くじの当たった金額をすべて集計して、購入した日本中の宝くじの枚数で割り算した値が１４０円だったとします。これがこの宝くじの期待値になります。また１等から末等までの当選金額が確率変数となり、各々の当選本数を全発行枚数で割った値が確立となる確立分布を意味します。

一方、分散とは確立変数の期待値からどれくらいバラツキがあるかを示す尺度を表します。さらに確率変数の分散から平方根を取った値を確立変数の標準偏差といいます。

ここで注意しなければならないのは、確率分布の期待値や分散は統計データの平均や分散または標準偏差とは全く別の意味を表し、区別して考えなければなりません。

一般的には確率分布の期待値Ｅ（Ｘ）と分散Ｖ（Ｘ）は以下の公式と法則から求められます。

■期待値の公式

（離散型）	（連続型）

■分散の公式

（離散型）	（連続型）

分散Ｖ（Ｘ）は右辺のを変形して以下のように期待値を求めれば簡便化できます。

Ｅ（Ｘ）とＶ（Ｘ）は確率過程の分野やポートフォリオの構築で頻繁に使われますのでしっかりと覚えておく必要があります。

上に紹介した４つの確率分布の期待値と分散はＥ（Ｘ）とＶ（Ｘ）の公式から以下のように求められます。尚、導出過程の証明や計算まではここでは説明しませんが、結果だけを紹介しておきます。

（１）二項分布の期待値と分散

（２）ポアソン分布の期待値と分散

（３）指数分布の期待値と分散

（４）正規分布の期待値と分散

確率分布を調べるのに１次モーメントである期待値や２次のモーメントである分散はよく使われますが、一般的には３次モーメントである歪度や４次のモーメントえある尖度を表すモーメントも必要になります。このようにすべての次数のモーメントを求めれば一つの確率分布が決定されます。５次以降のモーメントついては何を表しているのかはわかっていませんが、何かを表しているらしいです。

すべての次数を表すモーメントは次のモーメント母関数で定義されています。