正しく評価するためにはどうテストを作ればよいのだろうか?と悩んだことはありませんか。
この記事では、はじめてテストを作成される方向けにテスト作成の流れやより良いテストにするためのテクニックを紹介します。学校でのテストはもちろん、採用や社内教育のためにテストを活用される方もぜひご覧ください。教育や採用を担当されている学校や企業の皆さんに向けて、効果的なテスト作成のためのテクニックを紹介します。
テスト作成の流れ
テストの目的を明確にする
テストには、採用時のスクリーニング、社内教育の理解度チェック、スキルの評価・可視化、資格や検定、昇進昇格試験、管理職登用試験など、様々な用途があります。これから作るテストは何を測ろうとしているのかを明確にしましょう。
また、テスト後にどう結果を活用するかを考えます。たとえば、IT・DXリテラシーのテストをするときに、受験者の点数に基づいて最適な研修プログラムを受講してもらう中長期的な人事育成が目的になることもあれば、新卒の配属先の決定・異動といった適材適所での人員配置が目的になることもあります。本人へのフィードバックとしてテストの結果や解説を渡すことで、学習を促す目的もあります。
現状をあきらかにするための測定の側面が強いテストもあれば、今後何が起こりそうか、何をするべきかを予測するような従業員の意思を問う性質のテストもあります。アンケートのように組織や従業員の状態について確認するための調査に近いテストもあります。
新しい技術の習得度・スキルなどを測定するための明確な正解があるテストと、リーダーシップの適性を評価するための小論文などを含むテストでは、テストの設計が異なります。
対象者を把握する
対象者の特性を理解することが重要です。受験者の経験、専門知識レベル、社内での役割などを考慮に入れます。
例えば、新入社員向けのテストと中堅社員向けのテストでは、使用する言葉遣いや問題設定が異なります。また、技術職向けのテストと管理職向けのテストでは、難易度や内容を調整する必要があります。対象者を正確に把握することで、適切な難易度と内容のテストを作成できます。
評価基準を決める
何を評価するのかを決めます。たとえば新卒採用試験では、創造性、外向性、勤勉性、情動性、協調性などの評価基準が考えられます。(ビッグファイブ理論)すべての企業が採用する人に求める特性は異なっているため、自社で成果を出している人がどのような特性を持っているかを明らかにして、それを評価基準とします。
なお、特性は良し悪しで判断できるものではありません。たとえば、綿密に計画を立ててから慎重に行動する人と、即断即決しながらスピード感を持って動いていく人のどちらが良いかは会社によって異なります。
また、中途採用で即戦力を求めるような場合には、業務関連知識の有無が評価基準となることもあるでしょう。たとえばITエンジニアを採用するならプログラミング、経理担当者を採用するなら財務、税務、会計などの知識が必要になります。
出題範囲を明確にする
出題範囲は、テストの目的や評価基準に沿って設定し、会社の目標や業務内容と整合性を持たせることが重要です。まず、業務目標や責任範囲を明確にし、重要な特性、スキルや知識をリストアップします。次に、リストのうちテストで評価したいスキルや知識を決め、具体的な出題内容を特定します。
テストを設計する
テスト仕様書を作成します。これには、問題の形式、数、配点、時間配分などを含め、詳細に計画します。この段階でどの問題が何を測定するのかも明確にします。問題カテゴリAでは専門知識を、問題カテゴリBでは業務への姿勢やリーダーシップを見るといったように、1つのテストの中で測定したい項目を複数含めることもできます。
選択式、記述式、実技試験などの複数の形式を組み合わせてテストを実施する場合は、出題の配分によって決定します。
選択式は採点が容易で客観性が高いですが、推測で正答できる可能性があります。記述式の問題と比べると難易度は低くなります。正答以外の間違いの選択肢(ディストラクターといいます)の品質が何度を左右します。詳しくは後述します。
記述式は深い理解度や思考過程を評価できますが、採点に時間がかかり、評価の客観性確保が難しいという特徴があります。同じ回答でも採点する人によって評価が変わってしまう可能性があります。
実技試験は実践的なスキルを直接評価できますが、準備や実施に時間とコストがかかります。
テストの目的と対象者に応じて、適切な形式(またはこれらの組み合わせ)を選択することが重要です。
問題を作成する
明確で簡潔な問題文の作成、難易度のバランスの考慮、適切な出題範囲の設定などを実践します。問題を作成した後は、同僚や専門家によるレビューを受け、問題の明確さや適切さを確認します。レビューによって指摘された点を基に修正を行います。
わかりやすく書く
良い問題文は、簡潔で分かりやすい言葉を使用し、一つの問題で一つの概念や能力のみを測定します。曖昧な表現を避け、具体的な指示を与えることが重要です。例えば、「次の文章について考えなさい」という指示は曖昧です。「次の文章を読み、筆者の主張を100字以内で要約しなさい」という具体的な指示を与えると、受験者が何をすべきか明確になります。複数の意味に取れるような記載になっていることで、誤解が生じて正答率が極端に低い問題となってしまうことは避けることは、テストを効果的に行ううえで不可欠です。
また、テストの見せ方にも注意が必要です。例えば、問題用紙と解答用紙が一体になっているテストで、裏面にも問題が続いていることに気がつかずに片面を白紙で提出する人が多数いたなら、テスト制作側のミスといえます。
採点基準を明確にする
採点基準が曖昧で一貫性がないと、公平な評価が困難になります。特に記述式問題では、評価者によるばらつきが発生しやすいです。この問題を解決するためには、明確で一貫性のある採点基準を作成し、複数の評価者が同じ基準で採点できるようにします。採点基準の共有とトレーニングも重要です。回答を複数の視点からレビューし、採点基準をすり合わせしながら進めることで、採点者による評価のブレを抑えることができます。
制限時間と問題数のバランスを考慮する
1問あたり何分くらいで回答してもらうのかによって、テストの難易度は変化します。オンラインでテストを実施する場合、AIや検索エンジンによるカンニングを防ぐために、あえて短めに設定しておき、調べる時間がなくなるようにすることも有効です。
難易度を調整する
テスト全体の難易度を適切に設定することが大切です。一般的に、テスト全体の約60-70%を平均的な受験者にとって解答可能な難易度に設定し、残りの30-40%で上位層を識別するための難問を含めるのが良いとされています。難易度は、問題の複雑さ、選択肢の数、時間制限などで調整できます。易しい問題から始めて徐々に難しくすることで、受験者の緊張を和らげ、最後まで取り組む意欲を保ちます。
また、選択式問題では、ディストラクターが不適切だと、問題の正答率が高くなりすぎて、正確な評価が難しくなります。正答以外の選択肢を慎重に設計し、よくある誤解や間違いをディストラクターに含めることで、受験者の知識を正確に測定できます。各選択肢が正答に見えるような迷う問題にすることが重要です。
配点を適切に設定する
配点が不公平だと特定の問題がテスト全体に過度に影響します。例えば、難易度の高い問題に過剰な配点を設定すると、評価が偏ります。この問題を解決するためには、各問題の重要度と難易度に応じて適切に配点を設定し、公平な評価を行うための指針を設けることが重要です。複数の評価者によるクロスチェックも有効です。
パイロットテスト(プレテスト)を実施する
パイロットテストは、実際にテストを実施する前に、小規模なグループで試験を行い、問題点を洗い出すための重要なステップです。パイロットテストの結果を分析し、問題の難易度や識別力、信頼性などを評価します。必要に応じて問題を修正し、最終調整を行います。
たとえば、全員が不正解だった問題があればそれは難しすぎるということなので、難易度を調整します。また、回答し終えることができている人の比率を確認すれば、制限時間が適切なのかを判断して調整できます。
テスト実施
実際のテストを実施します。実施時の注意点としては、以下のようなものがあります。
- オンラインで実施する場合、受験するデバイスやネットワークなどの環境を事前に確認する
- 問題の回覧による不正を防ぐために、社内で受験のタイミングを揃える、もしくは時間帯ごとに複数パターンの問題を用意する(難易度の公平性から推奨しません)
- 回答漏れが無いように問題の構成や制限時間などの注意事項を事前にアナウンスする
テスト結果の分析と改善
テストの実施後は、結果を詳細に分析し、基本的な統計分析や項目分析を行います。また、テスト結果に基づいてフィードバックを提供し、学習の改善点や次回のテスト作成に役立てます。この一連のプロセスを通じて、質の高いテストを作成し、採用や社員教育の質を向上させることができます。
受験者へのテスト結果のフィードバック
テスト結果を単に点数として返すだけでなく、詳細なフィードバックを提供することで、テストを学習の機会として活用できます。例えば、各問題が測定しようとしていた業務目標を説明し、誤答の場合はその原因と正しい考え方を解説するなどの方法があります。また、全体の傾向を分析し、共通して苦手なスキルや概念を特定することで、研修内容の改善にも役立てることができます。
テスト問題作成で知っておくと役立つ参考情報
テストの目的となる分析の種類を考慮する
Gartnerによると、分析の種類として、以下の4つがあります。このうち、どの分析を目的としたテストを実施しようとしているのかによって、問題の設計は異なります。
記述的分析:何が起こったのか、起こっているのかを確認、見える化するアプローチです。たとえば、ITリテラシーを計測するためのテストを実施して、部署ごとの得点差を可視化するといった方法があります。
診断的分析:なぜ起こったのかを把握するために、因果関係などを分析するアプローチです。たとえば、日々の活動記録とテストの結果を組み合わせて、ハイパフォーマーの行動傾向や性格などの特性をあきらかにする方法があります。
予測的分析:何が起こりそうかを知るための分析です。たとえば、定期的に似たテスト(サーベイ)を実施して、スコアの推移からそれぞれの従業員ごとの離職確率や、組織に次に起こる変化などを予測する方法があります。
処方的分析:何をするべきか、どう進めるべきかを考えるための分析です。結果に影響を与える要因を分析して行動を促すために実施します。ルールベースと最適化のアプローチがあります。たとえばテストの結果から、従業員ごとに次に受講するべき研修を判断するといった方法で使われます。
参照:What Is Data and Analytics: Everything You Need to Know | Gartner
Gartner Says Advanced Analytics Is a Top Business Priority
効果的なディストラクターの作成
選択式問題では、正答以外の選択肢の質は問題の難易度や識別力に大きく影響します。効果的なディストラクターは、正答と同程度の長さや複雑さを持ち、正答かどうか迷うようなものである必要があります。どのディストラクターも間違いであると知識がない人でも簡単に判定できてしまう問題になっていれば、簡単になりすぎます。
例をあげると外国人の方向けに「日本の首都はどこか?」という問題を出したときに回答の選択肢が「1.東京、2.京都、3.大阪、4.札幌」となっている場合と、「1.東京、2.ワシントンD.C.、3.北京、4.ニューデリー」では、前者のほうがディストラクターとして適しています。
適切な選択肢を提示して難易度を調整することで、受験者の知識を効果的に測ることができます。
ブルームの分類法を活用する
ブルームの分類法は、学習目標を6つのレベルに分類したもので、テスト問題の設計に非常に有用です。この分類法は、記憶、理解、応用、分析、評価、創造という順に、より高次の思考スキルを要求します。例えば、「知識」レベルの問題では単純な事実の想起を求めますが、「応用」レベルでは学んだ知識を新しい状況に適用する能力を測ります。さらに高次の「評価」レベルでは、与えられた情報や状況に対して判断を下す能力を問うことになります。
テストを作成する際は、これらの異なるレベルの問題をバランスよく配置すれば、受験者の能力を多角的に評価することができます。
参照: 「改訂版タキソノミー」によるブルーム・タキソノミーの再構築 : 知識と認知過程の二次元構成の検討を中心に 日本教育方法学会紀要 「教育方法学研究」第28巻 (2002)
小学校・中学校の英語教科書におけるブルームの6分類法に基づく思考力の分析 千葉大学教育学部研究紀要 第70巻
Bloom’s Taxonomy | Center for Teaching | Vanderbilt University
信頼性と妥当性を確保する
質の高いテストには、高い信頼性と妥当性が求められます。信頼性はテスト結果が一貫していること、妥当性は測りたいものを正確に測っていることを意味します。信頼性を高めるには、明確な採点基準、適切な問題数が重要です。正確が明確ではない作文、小論文などを出題する場合、採点の精度を高めるために、複数の採点者による確認を入れるのが理想的です。
公平性と包括性への配慮
テスト作成において、公平性と包括性の確保は非常に重要です。特定の集団に有利または不利にならないよう、次の点に配慮します:
• 文化的バイアスの排除:特定の文化や背景知識に依存する問題を避けます。
• 言語の明確さ:使用する言語がすべての受験者にとって明確で理解しやすいものであることを確認します。外国人向けに日本語でテストをするときに、日本語能力のチェックを目的としていないのであれば、できるだけ平易でわかりやすい日本語で作成する必要があります。
テスト作成と運用を効率化するツール
テスト作成の専門ツール
ラクテスのようなテスト作成の専門ツールを使うとテスト作成の業務を大幅に効率化できます。当サイトを運営しているラクテスは、テストの作成運用に特化したシステムです。ブラウザだけに簡単にテストを作成して、クラウドに蓄積していき、受験もブラウザだけで実施できます。インターネットさえつながればどこからでも受験できるという利点があります。
サンプルテスト(テストのテンプレート)のデータベースを活用することで、既存のテストを再利用したり、複数の問題を組み合わせて自社のテストに取り入れたりすることができます。サンプルテストには、論理的思考能力・読解力・計算能力といった基礎能力から、各種ソフトウェアを使いこなせるか、プログラミングの実務経験があるかなど、さまざまなスキルをチェックすることができます。
サンプルにより、テスト作成の時間を節約し、質の高いテストを迅速に作成することが可能です。サンプル問題をExcelデータとしてエクスポートして、編集してからインポートすることもできますので、テストの作成を簡単に済ませたい人におすすめです。
フォーム作成ツール
フォーム作成ツールはテスト作成に特化したものではありませんが、テストの作成や運用に活用できます。
Googleフォーム
Googleフォームは、無料でも利用できるフォーム作成ツールです。Google Workspaceに含まれています。選択式問題、短答式問題などを簡単に作成でき、自動採点機能も備えています。結果はリアルタイムで集計され、Googleスプレッドシートと連携できます。
Google Forms
Microsoft Forms
Microsoft Formsは、使いやすいインターフェースと統合されたMicrosoft 365環境が特徴のフォーム作成ツールです。テストに特化したサービスではないですが、選択式、記述式、評価式など多様な形式の質問を簡単に作成でき、リアルタイムでのデータ集計や分析も可能です。Microsoft 365と統合されているため、TeamsやOutlookとの連携もスムーズに行えます。
Microsoft Forms
これらのツールを使い分けることで、テスト作成の効率と効果を大幅に向上させることができます。
テストの作成や運用を代行することも可能
テストの作成や、受験者への連絡や採点・集計といった事務局業務を代行するサービスを提供している企業もあります。求人に対してどのようなスキルをテストで測定すればよいのか要件を定めることができない、他の業務でテストの作成や運用に時間を割くことが難しい方におすすめです。さまざまなテストを作成した経験のある専門家に作成してもらえるというメリットもあります。
ラクテスを運営している弊社もテスト作成の代行サービスを提供しています。
テスト結果の分析と活用
テスト結果の基本的な統計分析には、平均点、中央値、標準偏差などの計算が含まれます。これらの指標は、テスト全体の難易度や、受験者集団の成績分布を把握するのに役立ちます。
例えば、平均点が予想より低い場合、テストが難しすぎた可能性があります。また、標準偏差が大きい場合、受験者間の能力差が大きいことを示します。
以下にテスト問題を改善するときに参考になる指標を説明します。データ確認しながら問題を調整することで、より良いテストを作ることが可能です。
項目分析
項目分析は、個々の問題の性能を評価する方法です。
問題ごとの難易度や設問のわかりやすさなどを見る指標として、正答率、無答率、選択率があります。
正答率
その問題に正解した受験者の割合を示します。極端に易しい(正答率が高すぎる)問題や難しい(正答率が低すぎる)問題は、受験者の能力を適切に測定できていない可能性があります。
無答率
問題に回答していない人の割合です。無答率が高い問題は設問内容がわかりにくい、難しすぎて取り組む気が起きないなど問題に原因がある場合と、制限時間が足りておらず最後のほうの問題は回答できないなど、テスト全体の設計に問題がある場合の両方があります。
選択率
回答選択肢がそれぞれ選ばれた割合です。誤答の選択肢が正答よりも選択率が高い場合には、問題の書き方に問題があり、回答選択肢を見直すことをおすすめします。
問題ごとの識別力を見る指標
得点の高い受験者は正答して、得点の低い受験者は間違える問題は識別力が高いです。逆に、得点の合計点と正否に相関がない問題は識別力が低いです。
問題とテスト合計点との関連の強さを見る識別力を評価する指標として、D指標とI-T相関係数があります。D指標は受験者のうち上位の人の正答率と、下位の人の正答率の差です。問題ごとにD指標を出すことで、問題の内容が適切かを見極めることができます。
I-T相関係数(Item-Total Correlation)は、問題ごとの得点と合計得点の相関です。I-R相関係数(Item-Remainder Correlation)は、問題ごとの得点と残りの問題の合計得点の相関です。
I-T相関とI-R相関は、1に近いと合計得点とその問題の得点率の相関が高いということなので、識別力の高い問題ということになります。数字が0に近いと、問題の得点率と合計得点が相関しないということなので、作り直したほうがよい問題ということになります。
テスト作成の未来と展望
アダプティブテスティング
コンピュータを利用するアダプティブテスティングは、受験者の回答パターンに応じて問題の難易度を受験途中で自動調整する技術です。正解を繰り返している受験者には難しい問題が、不正解だと少しずつ簡単になっていくような形式です。
この方法により、より正確かつ効率的に受験者の能力を測定することができます。例えば、オンラインスキルテストでは、この技術が一部導入されていることがあります。将来的には、より多くの企業でこの技術が採用されると予想されます。
人工知能(AI)の活用
AIテクノロジーの発展により、テスト作成や採点プロセスが大きく変わる可能性があります。例えば、自動問題生成、自然言語処理による採点、AIによる詳細な受験者パフォーマンス分析と個別化されたフィードバックなどが挙げられます。AIでテスト作成者の負担が軽減され、より細分化された評価が可能になると期待されます。
GPT-4oやClaude3といったAIに、評価したいスキルセットについてのインプットを与えて、「4択の問題を◯◯個作成してください」と指示すれば、テストのたたき台をすぐに作ってもらえます。ただし、問題の正確性が低い、似たような問題がいくつもできてしまう傾向があるため、人力でのチェックと修正やプロンプトの工夫が必須です。
テスト作成にAIを活用する実験をする中で、特にAIに向いているのはディストラクター(誤答の選択肢)の作成です。人間は正答を考えることはスムーズにできても、正答と迷うような選択肢を作るのには時間がかかるためです。
ただし、AIにテストを作成してもらうと、最初のアウトプットではあきらかに難易度が低すぎるディストラクターが作成されてしまう傾向があります。わかりやすい例を挙げると、新入社員向けの研修後のテストを作っていて、「ミスをしたときにどうしますか?」という問題に対して、「1.無視する、2.隠す、3.上長に報告する」といったように、研修を聞いていなかったとしてもあきらかに正解がすぐにわかってしまうようなディストラクターが生成されてしまいます。ただ、AIにディストラクターを修正するように指示すれば、何度でも作り直してくれるため、難易度の調整の手間は少ないです。
実務に近いワークサンプルテストで評価を多角化
従来の筆記テストに加えて、実際の業務で必要なスキルを直接評価する傾向が強まっています。より実務的なスキルの有無を確認するために、ワークサンプルテストを実施する企業が増えてきています。例えば、採用候補者に実務に近い課題を出し、レポートやプレゼンテーションとしてまとめてもらうといった方法があります。
面接ときにワークサンプルテストでのアウトプットを元に議論することで、候補者の方の考え方や知識などをより多面的に見ることができます。
まとめ
テスト作成は、採用や社員教育の重要な一部であり、常に進化し続ける分野です。基本的な原則を押さえつつ、新しい技術や方法論を積極的に取り入れることで、より効果的で公平な評価を実現できます。テスト作成者には、業務目標、受験者の特性、そして評価の公平性を常に念頭に置きながら、創造的かつ科学的なアプローチでテストを設計することが求められます。
本記事で紹介した知識とテクニックを基礎として、さらなる学習と経験を重ねることで、より質の高いテスト作成が可能になるでしょう。
テストは採用や社員教育の質を向上するという背景にある目的を忘れずに、日々の改善に取り組んでいくことが大切です。
参考URL
テスト研究:項目分析 – 石井研究室:名古屋大学 教育発達科学研究科 心理発達科学専攻
Rによる心理学研究法入門5章 教育測定に関する実証研究
信頼性係数の計算