[ホーム生物統計学>多変量解析]

吉田総合案内へ
生物統計学テキストへ

多変量解析


多変量解析とは;いくつかの要因を総合的に扱う手法.以下のようなものがある.

1.重回帰分析
y=a1x1+a2x2+・・・・+anxn+a0
y;目的変数,x;説明変数,a;回帰係数
例 食味 = a1(アミロース含有率) + a2(窒素含有率) + a3(粘弾性)・・

計算法  Σ(実測値 - 予測値)2 が最小になるような係数 a とする.
R2=予測値の分散/実測値の分散
が決定係数(寄与率)で,あてはまりのよさを表す.R が重相関係数.

データを標準化した値,
  (x - x の平均値)/√(x の分散)  (平均 0,分散 1 となる)
で重回帰分析すると,その回帰係数(標準回帰係数,偏回帰係数)間は相互の比較(どの要因がより重く関与しているか)が可能.

2.主成分分析
いくつかの説明変数 X1,X2,X3,・・・の総合的特性を
a1x1+a2x2+a3x3・・・で表わしたとき,この式を主成分という.
多変量データの情報を少数の総合特性値として要約する.一つの式では不十分なときは,第二の
a1x1+a2x2+a3x3をつくる(第2主成分,前のを第1主成分という)
これらの主成分によってどの程度説明できたかの値が“(累積)寄与率”.


上図の斜線での値が主成分得点(principal component score)ある.
例;多くの品種を分類したい.X1;稈長,X2;穂長,とする.品種 a 〜 k は稈長と穂長の二次元図上に散布していたが,直線上(一次元)の値として要約すると,a は約 2.1,i は約 6 とのみ表せる.このとき情報の一部が欠落し(例えば c と d は二次元図では明らかに異なるのに直線上では同一値となってしまう),その程度が(1- 寄与率)である.
(簡略計算だがここでは,主成分=0.9×稈長+0.45×穂長,とした.)

出穂期,X3のデータがある場合,各品種の散布状況は可視可しにくく,しいて図示すれば空間内の散布図を作成することになる.X4,X5,・・があるときはなおさらである.多変量解析法でそのデータをなんとか二次元グラフにすれば感覚的にとらえやすくなる.但し寄与率があまり小さいと不十分な分類となる.

3.判別分析
新たに得られた標本が,どのグループに属すかを推定する.
例 病状から病名を判定

4.数量化理論
質的データ(例;有無,はい・いいえ,好き・普通・嫌い,など)の解析.
数量化I類 > 重回帰分析
数量化II類 > 判別分析
数量化III,IV類 > 主成分分析  に相当する.

5.クラスター分析
多くのデータから似通った個体にグループわけする.個体相互間の距離(多次元空間上の)を計算し,距離の近いもの同士が隣接するような図,つまり下図のようなデンドログラム(樹状図)として表現する.


コンピュータの助けを借りて書くが,原理の理解のために手で書く試みはココを参照.

とりあえず以上.