テストの等化・尺度化・リンキング

テストの等化、尺度化、リンキング

複数回のテストを比較するときに、単純に「平均点」や「合格率」などを比べるだけでは、本当に同じ能力水準を比較しているかどうかがわかりません。年度が変わると問題の形式や難易度が変化し、母集団の特性も変わる可能性があります。企業内の試験でも同様で、似たようなテストを実施しているつもりでも、わずかな問題差によって難易度が変わってしまい、過去のスコアとの比較が不適切になる場合があります。

こうした課題を解決する手段として、「等化(equating)」「尺度化(scaling)」「リンキング(linking)」と呼ばれる統計的な手法や概念が用いられます。大まかに言えば、ほぼ同一のテストフォームを厳密に同じスケールで比べたい場合は等化を、必ずしも同一視できないテスト同士でも対応づけたい場合はリンキングを、そして得られたスコアをわかりやすい指標に変換する操作を尺度化と呼ぶのが一般的です。

1. 等化

1.1 等化とは何か

異なるテストの得点を「同じ能力なら同じ得点になるはず」という基準で比較可能にする手続きが等化です。テストAとテストBが同じ能力を測っている一方で、問題の難易度や形式の違いによって得点分布が変わってしまうとき、統計的な方法を使って互いのテストの得点を変換し、同一スケールに乗せることを目指します。

1.1.1 古典的テスト理論での等化

線形等化 (linear equating)

テストAの得点を\(X_i\)​ 、テストBの得点を \(Y_i\)​とし、両テストの平均・標準偏差をそれぞれ\(\mu_X,\sigma_X,\mu_Y,\sigma_Y\)​とします。テストAの得点 \(X_i\)​ をテストB相当の得点\(\hat{Y}_i\)に線形変換する式は

\(\huge \hat{Y}_i = \frac{\sigma_Y}{\sigma_X} \bigl(X_i – \mu_X\bigr) + \mu_Y\)

となります。分布の平均と標準偏差をそろえる単純な方法で、計算が容易という利点があります。

エキュパーセンタイル等化 (equipercentile equating)

テストAの累積分布関数を \(F_X(x)\)、テストBの累積分布関数を \(F_Y(y)\) とします。パーセンタイル(受検者の得点が下から数えて何%の位置にあるか)を対応づけることで、分布の形全体を合わせます。つまり

\(\huge F_X(x) = p \quad \Longleftrightarrow \quad F_Y\bigl(\hat{y}\bigr) = p\)

となる \(\hat{y}\)​ を \(​x\)​ に対応づけます。線形等化よりも分布全体を厳密に合わせられますが、サンプル数や計算負荷がやや大きくなります。

1.1.2 項目応答理論での等化

項目応答理論(Item Response Theory; IRT)では、各問題に難易度や識別力などのパラメータを持たせ、受検者には能力パラメータ \(\theta\) を割り振って得点をモデル化します。同じ能力領域を測るテストAとテストBでも、別々の校正(パラメータ推定)をした場合はスケールが異なるため、両テストを直接比較できないことがあります。そこで、以下のようなスケール変換手法を使って、同じ能力軸に乗せます。

Mean-Mean法、Mean-Sigma法
アンカー項目(テストAとテストBの両方に含まれ、同じ統計的特性を持つとみなす項目)の難易度パラメータの平均や標準偏差をそろえることで、スケール変換係数を求める簡便な方法です。

Stocking-Lord法、Haebara法
項目応答関数(Item Characteristic Curve)のズレが最小になるように、スケール変換のパラメータ A,BA, BA,B を最適化する方法です。たとえばテストBのパラメータ \((a_j^B, b_j^B)\) をテストAのスケールに合わせたい場合、

\(\huge \hat{a}_j^B = \frac{a_j^B}{A} \quad , \quad \hat{b}_j^B = A \cdot b_j^B + B\)

のように変換係数 \(A,B\) を求めます。Mean-Mean法やMean-Sigma法よりも計算は複雑ですが、精度が高いとされています。


2. 尺度化

2.1 尺度化とは何か

「尺度化(scaling)」はテストの素点を、受検者や関係者が理解しやすいスコアに変換する操作です。古典的に使われる偏差値や標準得点に加え、項目応答理論で推定した能力 \(\theta\) を、平均や標準偏差を任意に設定したスケールに写すことも含まれます。たとえば能力値の元推定が \(\theta\)、その集団の平均が \(\bar{\theta}\)、標準偏差が \(s_\theta\)​ のとき、

\(\huge T = 100 \cdot \frac{\theta – \bar{\theta}}{s_\theta} + 500\)

などの式で変換すれば、「平均 500、標準偏差 100」のスコアとして報告が可能になります。大規模テストの得点レポートや資格試験のスコア表示などでよく使われる手法です。

2.2 なぜ尺度化が必要か

問題数が異なるテストや、能力推定値が −3 から +3 くらいの範囲に収まるIRTの \(\theta\) などをそのまま報告してしまうと、受検者にとってはわかりにくい場合があります。共通の分かりやすい目盛りを設定することで、受検者の相対位置を把握しやすくなり、結果を年ごと・フォームごと・試験ごとに比較しやすくなります。


3. リンキング

3.1 リンキングとは何か

厳密に同じフォームとして等化できるかどうかにかかわらず、「複数のテスト間の得点を関連づける」行為をまとめてリンキング(linking)と呼ぶことがあります。

等化(equating) …テストAとテストBが十分に「同一視」できるほど似通った目的・設計・難易度のとき
リンキング(linking) …そこまで同一視できなくても「スコアの対応関係を示す」場合全般

という区分で語られることが多いですが、文献によってはIRTベースのパラメータ変換も「リンクの手法」として記載されることがあります。たとえば英語検定試験をTOEFLスコアやIELTSバンドスコアと結びつける取り組みなどは、必ずしも厳密な等化とは言えず「リンキング」の一例です。

3.2 等化とリンキングの違い

等化とリンキングを完全に区別するのは難しいですが、等化は「テストAとテストBが同じ目的・範囲・形式であり得る限り同じレベルで作成されたはず」という仮定のもとで、誤差を含めつつも厳密にスコアを一致させようとします。リンキングは「2種類のテストが測っている能力が近い」「完全には同じ範囲でなくても、大枠で比較したい」という柔軟な対応づけにとどまることがあります。実務上は、テストの設計や利用目的がどこまで似通っているかによって、呼び分けや手法の選択が変わってくるのです。

3.3 リンキングを進めるときのポイント

リンキングは、似ているけれど厳密には同一視できないテスト同士の得点を関連づけたい場合に役立ちます。たとえば英語の資格試験が複数あり、それぞれで得られるスコアを人事評価の目安として相互に読み替えたいときなどが代表的です。ただし、問題形式や対象範囲が大きく異なれば、等化ほどの厳密性は期待しにくいので、結果に含まれる誤差を前提として使うことが多いです。

もし共通の受検者が少しでも確保できれば、簡単な回帰分析やパーセンタイルの比較などによって、テストAの得点からテストBの得点をある程度推定する変換式や変換表を作成できます。共通受検者を確保できない場合でも、第三の試験を“橋渡し”に使って間接的にAとBをリンクさせる方法などが考えられますが、やはり厳密な等化より精度は下がりやすいです。そのため、リンキングの結果を最終的に提示するときは、あくまでも「複数のテストの大まかな対応づけ」だということを明記し、人事評価などに活用する際にも推定の限界を意識して運用することが望ましいです。


4. 応用事例

4.1 年度ごとのテストを比較したい

毎年同じ能力を測るテストを、問題を差し替えながら継続する場合、平均点や標準偏差はもちろん違ってきます。そこで一部のアンカー問題を入れ替えずに残し、古典的テスト理論の線形等化やエキュパーセンタイル等化を行う、あるいはIRTで項目パラメータを共通化するなどの方法を使うわけです。こうして適切に等化すれば、「今年と去年の得点を同じ基準で比較可能」にできます。そのあと、最終的に分かりやすいレポートスコアに尺度化すれば、受検者や教育関係者にとって見やすい点数表示を提供できます。

4.2 資格試験や検定試験のスコアを関連づける

英語の検定試験やITスキルの資格試験など、似たような能力を測る試験が並立している場合、スコアの対応関係を示したいことがあります。設計思想やテスト構成が大きく異なる場合は「等化」とは呼べず、どちらかというとリンキングのアプローチに近いです。しかし、測定対象がそれなりに近いなら、IRTのパラメータ変換で同じ能力軸に載せることも可能で、ある程度はスコア対応を示すことができます。もっとも、厳密な等化と違って「誤差や推定の限界が大きい」という留保をつけるのが普通です。


5. まとめ

等化(equating)は、同じ能力領域を測る異なるフォームのテストを、できるかぎり厳密に「同じ基準」でスコア比較できるようにする手法です。古典的テスト理論なら線形等化やエキュパーセンタイル等化、IRTならMean-Mean法・Mean-Sigma法・Stocking-Lord法・Haebara法などが代表的です。
尺度化(scaling)は、得点や能力値を、平均や標準偏差を任意に設定したスコアに変換して解釈を容易にする操作です。報告用の点数を見やすくするために行う方法で、長期運用や年度間比較などにおいて非常に有用です。
リンキング(linking)は、等化と同義で使われる場合もありますが、少し広い概念で、異なる試験のスコア関係を示す・比較する行為全般を指します。テスト同士をどの程度「同一視」できるかによって、等化かリンキングかが変わると考えるとわかりやすいです。

複数のテストを比較するときは、実は同じだと思っていたテストの難易度がずれていたり、母集団の特性が変化したりすることがよくあります。その調整をどこまで厳密に行うかが「等化かリンキングか」という選択の分かれ道になり、さらに最終的に分かりやすいスコアに整形するには尺度化が効果的です。こうした仕組みを導入するときは、テスト作成時の設計(アンカー項目の設定、共通受検者の確保など)や、IRT推定に必要なサンプルサイズ、母集団の偏りへの配慮などを総合的に考えて計画することが重要です。


参考文献
Stocking, M. L., & Lord, F. M. (1983). Developing a common metric in item response theory. Applied Psychological Measurement
Haebara, T. (1980). Equating logistic ability scales by a weighted least squares method. Japanese Psychological Research

page top