調査等の結果としてさまざまなデータが得られますが、データは、性別、血液型、成績順位などの質的データと、身長、売上金額などの量的データの2種類に分類されます。 またさらに、質的データは、名義尺度と順序尺度に分類され、量的データは、間隔尺度と比率尺度に分類されます。
1)名義尺度 名義尺度は、性別分類、地域別分類、(売上高の)商品カテゴリーなど、対象がもつ属性を何種類かに「分類」した尺度です。 区別のみに用いられている記号ですので、数値であっても等しいか等しくないかについては意味がありますが、この数字の計算に意味はありません。同じ値であるかどうかにのみ意味があります。度数や最頻値に利用できます。
2)順序尺度 順序尺度は、成績、好みの順位など、対象間に「順序」をつけることができる尺度です。意味をもつのは順番だけですので、順序尺度の間隔の差、比などに意味はありません。度数、最頻値、中央値、四分位数に利用できます。
3)間隔尺度 間隔尺度は、知能指数、気温など目盛が等間隔である尺度です。絶対的な原点がありませんので、尺度間の和差には意味がありますが、比には意味はありません。度数、最頻値、中央値、四分位数、平均、標準偏差に利用できます。
4)比率尺度 比率尺度は、身長・体重、売上高など、絶対的な原点が存在する尺度です。従って、四則演算すべてに意味があります。値0が絶対的な意味を持ち、比に意味があります。度数、最頻値、中央値、四分位数、平均、標準偏差、変動係数、幾何平均に利用できます。
中央値(メディアン) データを大きさの順に並べたときの中央にあるデータです。
切り落とし平均 データを大きさの順に並べ、上下10%の値の除いたときの平均値です。
歪度・尖度 分布が正規分布からどれだけ逸脱しているかを示します。 歪度は、分布が左にずれて裾が右に伸びているときは正の値を、右にずれて裾が左に伸びているときは負の値となり、正規分布のとき0になります。 歪度 \(m_{3}= \displaystyle \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\overline{x})^3\)
尖度は、山の尖度と裾の広がりの度合いを示します。 尖度 \(m_{4}= \displaystyle \frac{1}{n} \sum_{i=1}^{n}(x_{i}-\overline{x})^4\)
標準誤差 標本平均の標準偏差(バラツキ)を指し、標準偏差を標本の大きさ(サンプルサイズ)の平方根で割ることにより求められます。標本から得られる推定量そのもののバラツキを表します。 標準誤差 \(SE= \sqrt{\displaystyle \frac{s^2}{n}}= \displaystyle \frac{s}{ \sqrt{n}}\)
平 均 値 ・ 代 表 値 | パラメトリック検定 | 母平均の検定 | 1標本t検定 | |
2群の平均値の差の検定 | 対応のない場合 | 2標本t検定 | ||
対応のある場合 | 対応のある2標本t検定 | |||
3群以上の平均値の差の検定 | 1要因対応なし | 1元配置分散分析(対応なし) | ||
1要因対応あり | 1元配置分散分析(対応あり) | |||
2要因対応なし | 2元配置分散分析(対応なし) | |||
2要因(1要因対応あり) | 2元配置分散分析(混合計画) | |||
2要因(2要因対応あり) | 2元配置分散分析(対応あり) | |||
各要因水準間の比較 | 多重比較 | |||
ノンパラメトリック検定 | 2群の代表値の差の検定 | 対応のない場合 | マンホイットニのU検定 | |
ウィルコクソンの順位和検定 | ||||
対応のある場合 | ウィルコクソンの符号付順位検定 | |||
符号検定 | ||||
3群以上の代表値の差の検定 | 対応のない場合 | クラスカルウォーリス検定 | ||
対応のある場合 | フリードマン検定 |
比率 | 母比率 | 母比率の検定 | |
2項検定 | |||
2群の比率の差 | 対応のない場合 | 比率の差の検定 | |
フィッシャーの正確確率検定 | |||
対応のある場合 | マクネマー検定 | ||
3群以上の比率の差 | 対応のない場合 | フィッシャーの正確確率検定 | |
対応のある場合(2値型変数) | コクランのQ検定 |
分散比 | 2群の分散比 | F検定 |
3群以上の分散比 | バートレットの検定 | |
ルビーンの検定 |
2標本t検定(対応のある場合) 対応のある2群のデータについて、対応するデータ間の差をもとに、差の母平均は0であるという仮説について検定します。 *対応のあるデータ 条件を変えて同じ被験者で繰り返し反復測定したデータです。 例えば、ある商品を説明する前にある10人の商品理解度を調べます。これをデータAとします。 次に、商品説明を加えた後に、再度10人の商品理解度を調べます。これをデータBとします。 データAとデータBは対応のあるデータになります。
一元配置(対応のある場合) 乱塊法と呼ばれることもあります。対応のあるデータはt検定の場合と同様です。
二元配置(対応のない場合) 要因が2つある場合において平均値の違いを比較します。 繰り返しがない場合、交互作用(要因の組み合わせによる効果)はありません。交互作用には、水準の組み合わせにより効果がさらに高くなる場合や逆に打ち消しあってしまう場合などがあります。
二元配置(混合計画) 2つの要因の内、1つの要因に、対応のある場合(同一被験者で反復してデータを測定する)に用います。
二元配置(対応あり) 2つの要因共に対応のある場合(同一被験者で反復してデータを測定する)に用います。
多重比較 分散分析の結果、全体として平均値に違いがあったときに、どの群に違いがあるのかについて調べる場合に用います。この場合、t検定を繰り返すと検定の多重性の問題が生じてしまうため、多重比較を用います。
二群の比率の差の検定 母集団からサンプリングした対応のない2群のサンプルサイズと比率をもとに、2群の母集団の比率が等しいかどうかについて検定します。
マクネマー検定 対応のある2値型(2×2のクロス集計表)の2つの処理の結果に差があるかどうかを検定します。例えば、選挙前後のある政党の支持率が、選挙の前後で変化があったかどうか、検定できます。
コクランのQ検定 3つの群以上の対応のある2値型のデータ(カテゴリデータ)において、群間の比率の差の検定を行います。マクネマー検定(対応のある2群の比率の差の検定)を拡張した検定方法です。 2つの群でも行うことができますが、そうするとマクマネー検定と一致します。
クラスカル・ウォーリス検定 名義尺度で、3群以上の対応のない場合に用いられます。バートレット検定等により分散に違いが見られた場合や、水準間でサンプルサイズに大きなバラツキがあるときには、3つ以上の平均値の違いを一元配置分散分析の代わりに、この手法を用いて検定できます。
フリードマン検定 順序尺度で、3群以上の対応のある場合に用いられます。そのため、反復測定データを解析します。
ウィルコクソンの検定 データに対応のない2群の差を検定する場合はウイルコクソンの順位和検定、対応のある場合はウイルコクソンの符号付順位検定を用います。二つのデータ間の代表値(中央値)に差があるかどうかを検定します。
符号検定 対応のある2つの変数の組について、変数間の数値の大小を比較して母代表値に違いがあるか検定します。 ウィルコクソンの符号付順位検定と違い、絶対値の順序関係に意味がないデータの場合に用います。
バートレットの検定 3つ以上の群の分散が等しいかどうかについて検定します。各群の分布が正規分布である場合に使えます。正規分布に従わないと想定される場合は、ルビーン検定の方がいいとされます。
ルビーンの検定 3つ以上の群の分散が等しいかどうかについて検定します。各群の分布が正規分布しているかどうかわからないときに使えます。
フィッシャーの正確確率検定 分割表(クロス集計表)から独立性を検定する手法です。 組み合わせを直接計算して確率を求めます。 一般的に、カイ二乗検定による独立性の検定で、期待値(データ数)が 5 以下の桝目が全体の桝目の 20% 以上あるか、期待値が 5 以下の桝目が 1 つでもある場合には、この検定手法を利用します。
スピアマン、ケンドールの順位相関係数 2つの群に相関関係について順位相関係数求めます。スピアマン及びケンドールの方法があります。
偏相関係数 3つ以上の相関関係について、1つ以上の変数の影響を除いた相関係数です。例えば、変数X、Y、Zがあるとき、変数Zの影響を除いたXとYの相関係数です。
<最小2乗法> 観察されたデータ\((x,y)\)に最もよくあてはまる直線を回帰線 \(y=a+bx\) とするとき、このデータと回帰線のバラツキが、全体としてできるだけ小さくなるような直線を考えるのが自然です。 このあてはめの方法としてよく使われている方法に最小2乗法があります。あてはめられた直線と観察点との\(y\)軸にそって、縦に測った距離の2乗和(\( \sum_{}^{}d^2\) )が最小になるように、偏回帰係数の値を定めます。
\( \sum_{}^{}d^2=d_{1}^2 + d_{2}^2 + d_{3}^2 +\)・・・
<偏回帰係数> 独立変数の係数を偏回帰係数と言います。独立変数は従属変数を説明していますので、偏回帰係数は従属変数に対して独立変数の影響力の強さを示す値です。 従って、大きい偏回帰係数をもつ独立変数は、強く従属変数に影響を与え、偏回帰係数が小さい独立変数は、あまり従属変数に影響を与えないと言えますが、偏回帰係数の大きさは、独立変数の測定単位に影響されますので、単純な偏回帰係数相互の大小比較は意味がありません。
<標準化偏回帰係数> 偏回帰係数を標準化した値を標準化偏回帰係数と呼びます。標準化することにより偏回帰係数相互の比較が可能となります。
<偏回帰係数のt検定> 偏回帰係数については、それぞれについて有意性の検定を行うことができます。これは得られた偏回帰係数が0であるという仮説(帰無仮説)に対する検定、言いかえれば、偏回帰係数が0である確率を求めます。そして、その値が、一般的には1%または5%以下であれば、得られた偏回帰係数は0ではない、すなわち、有意(意味のあること)になります。
<決定係数(\(R^2\))> 決定係数((\(R^2\))は、独立変数が従属変数をどのくらい説明できるかを示す指標であり、「○○%説明できる」と解釈でき、一般に、この値が高いほど、回帰分析の予側の精度が高いことになります。 決定係数((\(R^2\))の評価については、一般的に0.5未満:良くない、0.5以上:やや良い、0.8以上:非常に良いと言われていますが、具体的に用いる領域によって分析者の判断に委ねられます。
<分散分析(F値)による検定> 求められた偏回帰係数がすべて0であるという仮説(帰無仮説)に対する検定を行うことができます。従属変数の変動を回帰平方和と残差平方和に分解し、分散比(F値)を求めて検定します。一般的には1%または5%の有意確率で、仮説が正しい(採択)かどうか判断することになります。 仮説が正しい場合は、回帰分析を行うことは不適切であるという結論となります。仮説が否定(棄却)された場合は、独立変数は役に立つことになりますが、すべての独立変数が役に立つということではありませんので、それぞれの偏回帰係数についてt検定等を行い検討する必要があります。
ロジスティック回帰 従属変数が2値(0、1)の場合、従属変数(目的変数)と1つ以上の独立変数(説明変数)との間に式をあてはめ、従属変数が独立変数によってどの程度影響されるのかについて分析します。
非線形回帰 回帰分析において、従属変数と独立変数が非線形の場合に用います。非線形モデルは、線形モデルよりも指定や推定が困難で、回帰モデル式を選択し、パラメータの初期値を指定する必要があります。モデルによってはうまく当てはまらないものもあります。
ステップワイズ法 線形回帰において、最適な独立変数の数を設定し回帰式を求めます。独立変数の選択には、増加法、増減法、減少法の3通りがあります。また、選択の基準に、赤池情報基準(AIC)が用いられます。
一般化線形モデル 正規分布以外のモデルに対応するために、分布(正規、二項、ガンマ、疑似尤度二項、疑似尤度ポアソン、疑似尤度、逆正規)を用いた回帰分析です。
<寄与率、累積寄与率> 寄与率は、各主成分がそれぞれ受けもって表現している情報量を比率で表現したものです。例えば、第1主成分の値が0.6の場合、これは第1主成分が全情報量の60%を集約して表現していることを意味します。 累積寄与率は、この寄与率を順番に加算し求められ、最大値は100%となります。
<因子の抽出方法> 因子の抽出方法には、主因子法、最尤法、主因子法、一般最小二乗法、重み付き最小二乗法、残差最小法等があります。最近は、コンピュータ性能の向上と共に、最尤法がよく利用されるようになりました。 最尤法は洗練された方法ですが、実際のデータの正規性(正規分布であること)が求められます。正規性が認められない場合は、主因子法の利用が無難と言えます。 主因子法(反復主因子法)は、重相関係数の2乗を共通性の推定値として用いて、因子寄与を繰り返して収束するまで計算する方法です。第一因子の因子寄与が最も大きくなるという特徴があります。 最尤法は、変数の単位を変えても、因子構造は変わらないという特徴がありますが、解が収束しなかったり、共通性が1を超えてしまうなどの問題もよく起こります。
<因子数の決定> 因子分析を、回転をかけずに行うと、初期解(最初の結果)が求められます。 初期解で得られた因子から、因子数を決めなければなりません。因子を選ぶ方法には、固有値の値(回転前の因子寄与)が1以上とするカイザーガットマン基準と呼ばれる方法、固有値の落差の大きいところで決めるスクリープロット基準などの方法があります。どちらの方法もよく使われます。
<回転> 回転には、直交回転と斜交回転があり、回転することにより因子分析の結果が解釈しやすくなります。
直交回転 直交回転、すなわち、二つの因子の軸が直交(90度)を保ったままの回転の代表的な方法で、バリマックス回転がよく用いられます。この直交回転でできるだけ因子負荷を「単純構造」に近づけるよう回転します。
斜交回転 直交回転は、二つの因子の軸が直交(90度)を保ったままの回転でしたが、斜交回転は、90度ではありません。二つの因子の相関関係が無い場合には二つの軸は直交しますが、相関関係がある場合は、二つの軸は直交しません。直交回転は因子間の相関が無いという仮定において行われる回転ですが、斜交回転は逆に因子間に相関があるものとして解を出します。 従って、直交回転は、二つの軸を同時に動かしましたが、斜交回転は、二つの軸を個々に動かし、単純構造を目指します。当然、直交回転より単純構造になりやすくなります。 斜交回転の方法には、プロマックス、オブリミン、シンプリマックス、クオーティミン等 があります。
<因子負荷量> 因子負荷量とは、各因子と各質問項目の関連の度合い(関連性)です。
<因子寄与率、累積寄与率> 因子負荷量が高い因子がみつかるということは、因子と質問項目との関連性が成立していることになります。言いかえれば、因子負荷量が高いものがたくさんあれば、項目が因子を説明するのに寄与しているという言い方もできます。そこで、因子寄与という言い方がされ、寄与が高いまたは低いという言い方がされます。 因子寄与がどの程度あるかは、因子負荷量で把握できます。各因子の因子負荷量が高ければ、その分各質問項目がその因子を説明するのに寄与していると言えます。 因子の寄与の程度は、因子負荷量を縦方向に合計しますが、因子負荷量には負の値もありますので、単純合計ではなく、2乗して合計、すなわち、因子負荷量の2乗和を計算します。この値を「因子寄与」と言い、求めた因子寄与を因子寄与の最大値である質問項目の数で割り、寄与率が求められます。 累積寄与率は、この寄与率を順番に加算し求められ、最大値は100%ですので、抽出された因子全体として、どの程度寄与しているかみることができます。
<共通性> 因子寄与、寄与率は、因子に着目した場合ですが、各質問項目に着目してみます。 質問項目は、共通因子を探るために設けますが、共通因子を反映しない質問項目が出てくることもよくあります。それをみるために、各質問項目の因子負荷量を横方向に合計しますが、因子寄与の場合と同じように各値を2乗して合計します。この値を共通性と言います。 共通性は、その言葉どおり、共通因子の部分がどの程度であるのかについて示す指標です。共通性は、原則的に最大値が1ですので、共通性の各値を見ていくと、それぞれの質問項目が共通因子を探り出すのにどの程度役立っているのか分かり、共通性を合計すると因子寄与の合計と等しくなります。
<因子得点> 因子分析によって因子を抽出した後に、各評定者がそれぞれの刺激をどの程度評価していたのかについて表したものが因子得点です。従って、因子得点は各回答者別に算出されます。一人ひとりの回答者に対して、第1因子得点○○点、第2因子得点○○点…と算出されます。因子得点の算出方法には、回帰による方法、他バートレット等があります。
非階層的クラスター分析 階層的な構造を持たず、あらかじめいくつのクラスターに分けるかを決め、決めた数のクラスターにサンプルを分割する方法です。 階層クラスター分析と違い、サンプル数が大きいデータを分析するときに適しています。 アルゴリズムには、Hartigan-Wong、Loyd、Forgy、MacQueeen等があります。
数量化Ⅱ類 カテゴリーデータを説明変数として群を判別します。ある商品の購入者と非購入者、広告の認知者と非認知者等、グループに分けた時、ある特性をもつ回答者がどのグループに属するかを判別する手法です。
数量化Ⅲ類 複数のデータの特徴(アンケート質問に対する回答パターン等)から、サンプル相互の距離(類似度)、カテゴリー(回答選択肢)相互の距離を得点化し、サンプルやカテゴリーの特性を分類して解釈する手法です。コレスポンデンス分析、双対尺度法と同じ結果が得られます。
数量化Ⅳ類 各項目間の近似度を求め、空間表示を行う手法です。似ているものほど近くに配置されます。
共分散構造分析(structural equation modeling; SEMともいいます)は、構成概念や観測変数の性質を調べるために集めた多くの観測変数を同時に分析するための統計的方法です。言いかえれば、回帰分析や因子分析は共分散構造分析の一部とも言え、ある変数が別の変数に影響を与えることや、ある観測変数がある潜在変数から影響を受けることなどを扱います。
カプランマイヤー生存曲線 生存率曲線を描くことで生存時間の推定を行います。また、死亡発生ごとに生存率を計算するので、少数例の場合にも正確な生存率を求めることができます。
コックス比例ハザード分析 年齢や性別などの説明変数の効果を説明する生存データの分析(回帰分析)によく使われます。
一般化ウィルコクソン検定 時点ごと重みを考慮し、ハザード比(イベント発生率の比)が変わるような場合でも対応できる検定方法です。ログランク検定は2群のハザード比が一定であることを想定していますので、途中でハザード比が変わるようなデータの場合は不向きです。
ログランク検定 2つの生存曲線が同じかどうかを調べます。群ごとにイベントの有無別に集計した分割表(クロス集計表)のカイ2乗値を検定統計量として利用します。
コックス・マンテル検定 生命表のデータを対応のある2分類データと考え、繰り返しのある二元配置分散分析同様の方法により、累積生存率曲線全体を群間比較します。
箱ひげ図の構成要素には、箱の中央付近のヨコ線、箱の上下のヨコ線、箱の上下のヨコ線からそれぞれ上下に伸びた線、及び箱の外側の点があります。
箱の中央付近のヨコ線 → データの中央値 箱の上下のヨコ線 → データの第1四分位数(下側)と第3四分位数(上側) 箱の上下のヨコ線からそれぞれ上下に伸びた線(ひげ) → 外れ値を除くデータ群の最小値(下側)・最大値(上側) 真ん中付近の▽ → 平均値 (外れ値の定義) 四分位範囲=第3四分位数-第1四分位数とし、「第1四分位数から四分位範囲の1.5倍を引いた値より小さなデータ」と「第3四分位数に四分位範囲の1.5倍を加えた値より大きなデータ」が外れ値として定義され、ひげの上下の外側にプロットされます。慣習的に、有意な差があるかについての検定は、t検定や分散分析などの分析を行い、有意確率が0.05以下の場合には、有意水準5%において有意な差があったという結論としますが、この様な検定は、サンプルサイズ(サンプル数)が大きくなればなるほど、統計的に有意であるという結果になります。 効果量は、サンプルサイズによって変化することのない指標です。実験の条件によっては、有意差があっても効果量が小さい場合もあれば、有意差がなくても効果量が大きい場合も考えられるため、有意確率と共に、効果量も報告すべきであるとされます。
効果量の定義式
・2標本t検定 \[Cohen’s \; d= \displaystyle \frac{\overline{X}_{1}-\overline{X}_{2}}{\sqrt{\displaystyle \frac{n1s1^2+n2s2^2}{n1+n2}}}\] \[Hedges’s \; g= d \times \left(1 – \displaystyle \frac{3}{4({n}_{1} – {n}_{2}) – 9}\right )\] \[r=\sqrt{\displaystyle \frac{t^2}{t^2+\phi}}\]αを第一種の誤り、βを第二種の誤りとしたときに、帰無仮説が真のとき正しく採択される確率が1-αであり、一般的な検定によく使われます。これに対して、帰無仮説が偽のとき正しく採択される確率が1-βです。この 1-βを検定力と定義します。 αは、0.05、0.01と設定することができますが、βは、帰無仮説が偽の状況が様々あり明示的に設定できません。(従って、α+β=1とはなりません。) 検定力は、サンプルサイズ、効果量、αにより求められます。また、αと検定力、効果量と検定力、及びサンプルサイズと検定力は比例します。
必要標本数は、効果量、検定力、設定したαにより求められます。
度数で表されるような離散型分布を、カイ二乗分布や正規分布などの連続型分布に近似させて統計的検定を行うときに用いる修正方法です。検出力は低下しますが、より正確な検定が可能になります。
統計的モデルを観測値と理論値の差(残差)を用いて評価する統計量です。数値に大きさに絶対的な意味はなく、モデルを比較する場合に値が小さいほど当てはまりが良いと言えます。