自社独自の新卒採用試験の作り方設計時に注意したい5項目を解説

「うちの筆記試験、去年と同じ適性検査でいいよね」。採用会議でそう言われ、特に異論も出ないまま今年も同じテストを発注する。多くの企業で見られる光景ではないでしょうか。

市販テストは実績も信頼性もあります。しかし、対策本が充実し、SNSで攻略法が共有される今、テストの「中身」では受験者に差がつきにくくなっているのも事実です。前回の記事（新卒の筆記試験を見直すべき3つの理由）で触れたとおり、学生1人あたりの平均受験社数は10社超。同じ市販テストを何度も受けた学生にとって、テストはもはや「慣れた作業」になっています。

一方で、自社オリジナルの筆記試験なら、自社が本当に求める能力に絞った出題ができます。対策本も出回りません。「このテスト、何を測っているんですか？」と現場から聞かれて答えに詰まったことはないでしょうか。そんな課題を解消するのが本記事です。テスト設計で最初に決めるべき5つのことと、実務で使える問題の作り方を解説していきます。

📌 この記事で分かること

オリジナル試験の設計で最初に決めるべき5つのこと
職種別に配点を変える「テストブループリント」の考え方
実務で安全に使える出題形式5タイプ
作った問題の品質を確認する良問チェックリスト
本番前のパイロットテストで押さえるポイント

1. テストを作る前に決めておく5つのこと
2. 出題形式の選び方
3. 良問チェックリスト
4. パイロットテストで仕上げる
まとめ
参考資料

1. テストを作る前に決めておく5つのこと

問題を作り始める前に、設計の土台を固める必要があります。ここを飛ばすと、出来上がったテストが「何を測っているのかよくわからない」ものになりかねません。決めるべきことは5つ。「目的→設計→運用出口」の順に、上流から固めていきます。

1-1. 何を測るか

「とりあえず一般常識を出そう」。これが、オリジナル試験で最もよくある失敗の入口です。時事問題やことわざの知識を並べたテストを作ったものの、入社後のパフォーマンスとの関連が見えない。そのまま運用した結果、1年後に現場のマネージャーから「あのテスト、意味あるんですか？」と聞かれて返答に詰まる。そんな事態は避けたいものです。

まず考えるべきは、「自社で活躍している人に共通する能力は何か」という問いです。自社のエース社員10人を思い浮かべてみてください。共通するのは語彙力でしょうか、数的な処理の速さでしょうか、それとも曖昧な状況でも自分で判断して動ける力でしょうか。

測定項目の代表例を挙げると、基礎学力（言語理解・数的処理）、論理的思考力、注意力・正確性、業務適性（状況に応じた判断力）、性格・行動特性です。ここで大切なのは、テストで測る領域と面接で測る領域をあらかじめ分けておくことです。テストで何もかも測ろうとすると、問題数が膨らみ、受験者の負担だけが増えます。

近年の採用研究でも、テストと面接など複数の手法を組み合わせることで、単独の手法に頼るよりも選考全体の精度が高まることが繰り返し確認されています。「テストで何を測り、面接で何を測るか」を事前に整理しておくことが、設計の出発点になります。

1-2. 職種ごとに配点を変えるか

総合職もエンジニア職も営業職も、全員に同じ配点で同じテストを課す。これは一見公平に見えますが、合理的とは言えません。コーディングの実力は申し分ないエンジニア候補が、言語問題の配点が高いせいで足切りラインに届かない。その裏で、言語・数的ともにそこそこの総合職候補が高得点で通過する。後から「あのエンジニア候補、惜しかったですね」と振り返っても遅いのです。職種によって求められる能力のバランスは異なります。

エンジニア職なら数的処理と論理的思考に重点を置き、営業職なら言語理解と状況判断力を重視する。こうした職種別の配点設計を、テスト設計の世界では「テストブループリント」と呼びます。いわば設計図です。

測定領域	総合職	エンジニア職	営業職
言語理解	30%	15%	30%
数的処理	30%	35%	20%
論理的思考	20%	35%	20%
注意力・正確性	—	15%	—
状況判断力	20%	—	30%

※上の数値はあくまで一例です。実際には、自社のハイパフォーマー分析をもとに配点を設定してください。

ポイントは、職種ごとに別々のテストを作る必要はない点です。共通の問題プールを用意しておき、配点のウェイトだけを職種ごとに変えて合成スコアを出す方法が、作成コストと運用負荷の両面で効率的です。

1-3. 難易度と公平性をどう担保するか

テストを作ってみたら、ほぼ全員が90点以上で差がつかなかった。仕方なく面接の枠を増やして対応したが、面接官のスケジュール確保に追われて選考が遅延した。逆のケースもあります。今度は問題を難しくしすぎて平均点が30点台になり、翌日にはSNSに「あの会社の筆記試験、意味不明に難しかった」と書き込まれた。どちらも実際に起きている失敗です。

テストの目的によって適正な難易度は変わりますが、目安としては、採用試験のスクリーニング用途では平均正答率60〜75%程度に収まるよう設計するケースが多いとされます。上位候補の見極めを重視する場合は、やや難しめ（50〜60%）に設定することもあります。そのうえで、難易度を3段階に分けて組み合わせます。

レベル	想定正答率	役割
基礎	80%以上	最低ラインの確認。ここを落とす受験者はスクリーニング対象
標準	50〜80%	合否判定の中心。多くの受験者がこのゾーンで分布する
発展	30〜50%	上位候補を見極めるための問題。解けなくても減点幅は小さく設計

もうひとつ気をつけたいのが、特定のバックグラウンドに有利・不利にならない設計です。たとえば、「減価償却の定額法と定率法の違いを説明せよ」のような知識問題を一般問題として出してしまうと、商学部の学生には基礎知識でも、文学部や理工学部の学生には馴染みのない内容です。こうした出題では「能力」ではなく「専攻の違い」を測ることになってしまいます。専門知識を前提とする問題は対象職種を明示したうえで出題し、一般問題では特定の学部や地域に偏った知識を求めないよう配慮してください。

1-4. スコアをどこまで細かく出すか

「合計60点以上は通過、未満は不合格」。テスト結果の使い方がこれだけだと、もったいないことをしています。面接官の手元にあるのは「筆記試験：合格」の一行だけ。「で、この人はどの領域が強いんですか？」と聞いても誰も答えられない。面接直前にスコアシートを渡されても、読み解く時間がないまま面接が始まる。結局、面接官は自分の勘と経験だけで質問を組み立てることになります。

たとえば、総合75点のAさんとBさん。同じ点数でも、Aさんは「言語95・数的55」、Bさんは「言語60・数的90」かもしれません。この違いが見えれば、面接で聞くべき質問も、入社後の配属候補も変わってきます。

おすすめは、総合スコアに加えて、領域別のサブスコアを出す設計にすることです。足切りの判定は総合スコアで行い、通過後は領域別のプロフィールを面接官に共有する。こうするだけで、テストの役割が「ふるい落とし」から「見極めの材料提供」に変わります。テスト結果の具体的な活用方法は、本シリーズの「テスト結果を面接・配属・育成に活かす方法」で詳しく解説します。

1-5. 結果をどこまで・いつまで使うか

ここまでの4つを踏まえて、最後に確認すべきは「結果をどこまで使うか」です。入社半年後、育成担当から「この新人、数字に弱いんですけど、採用のときのテスト結果ってどうだったんですか？」と聞かれる。ところがデータは選考システムに埋もれて誰も見方がわからない。それどころか、合否判定だけに使ったため領域別スコアが残っていない。こうした「後から使いたいのに使えない」事態は、結果の使い道を最初に決めておけば防げます。

使い方	必要な設計
一次選考の足切りのみ	シンプルな総合点で十分
面接の質問設計に接続	領域別サブスコア＋弱み領域の可視化が必要
入社後の配属・育成にも活用	データの保管・部門間の引き継ぎ設計が必要

ある調査では、企業の8割以上が採用の成果指標として「入社3年目以降の活躍」を挙げています（マイナビ「2023年卒企業新卒採用活動調査」）。採用時のテストデータを入社後の育成にもつなげたい。そうしたニーズは、多くの企業が潜在的に抱えています。

出口（活用方法）を先に決めれば、テストの粒度・保存形式・共有範囲がおのずと決まり、「作ったはいいが使いこなせない」という事態を防げます。

2. 出題形式の選び方

設計が固まったら、いよいよ問題の作成です。「オリジナル問題」と聞くと身構えるかもしれませんが、凝りすぎは禁物です。「せっかく自社で作るなら」と張り切って、全問を記述式や小論文型にした結果、採点に1人あたり15分かかるテストが完成。応募者500人分の採点が終わる頃には、選考スケジュールが2週間押していた。そんな例もあります。まずは自動採点しやすい形式を軸に据え、必要に応じて記述系の形式を組み合わせるのが現実的です。ここでは、実務で使いやすい5つの出題形式を紹介します。

2-1. 四択式（言語・数的・論理）

最もベーシックな形式です。自動採点が容易で、大量受験に対応できます。

ポイントは、問題プールを多めに作り、受験者ごとにランダムに出題すること。毎年同じ20問を同じ順番で出していると、先に受験した学生がSNSで「3問目の答えはBだった」と共有してしまうリスクがあります。就活掲示板やLINEグループで出題内容が即座にシェアされるのは日常的に起きていることです。プールを50問以上確保し、そこから毎回ランダムに20問を出題するだけでも、答えの共有による対策の効果は大幅に薄まります。

出題例：「次の文章を読み、筆者の主張として最も適切なものを選べ」「以下の数表から、前年比で最も改善した地域を選べ」

2-2. 業務文書型（読解＋設問）

実際の業務に近い文書を素材に、読み取りと情報整理の力を測る形式です。社内メールの要約文、簡易な報告書、売上データの表などを素材に、3問程度のセットにするのが一般的です。

たとえば、営業部が実際に使っている週報のフォーマットを簡略化してテスト素材にすれば、受験者は入社後の仕事をイメージしやすくなります。「御社のテストが一番、仕事に関係ある感じがしました」という感想は、内定承諾の後押しにもなり得ます。

この形式の強みは、受験者に「仕事との関連性」を実感してもらえる点にあります。テストの内容が実際の仕事と関係があると受験者が感じられるかどうかは、選考への納得感を大きく左右します。この点は複数の研究でも裏付けられています。業務に近い出題は、公正感と選考体験の両面でプラスに働きます。

2-3. 状況判断テスト（SJT）

海外の採用選考では広く定着している形式ですが、日本ではまだ活用している企業が少ないぶん、差別化の余地があります。

仕組みはシンプルです。業務で実際に起こりそうな場面を提示し、複数の対応策のなかから最も適切なものを選ばせます。

💡 状況判断テストの出題例

場面：あなたは入社1年目の社員です。上司が終日外出中に、取引先からクレームの電話が入りました。内容は、先週納品した商品に不具合があったというものです。次のうち、最も適切な対応はどれですか。

A. 自分の判断で返品対応を約束する
B. 上司に電話で状況を報告し、指示を仰ぐ
C. 「担当者が不在なので、明日かけ直してほしい」と伝える
D. お詫びして状況を詳しくヒアリングし、上司に報告のうえ折り返すと伝える

この形式が注目される理由は3つあります。まず、入社後の行動パターンを予測する力が高いこと。学力テストが「何を知っているか」を測るのに対し、SJTは「どう行動するか」を測ります。先ほどの出題例でも、Aを選ぶ受験者とDを選ぶ受験者では、入社後のクレーム対応の進め方がまったく異なるはずです。慎重さを重視する組織ならDの評価が高くなり、即断即決を求める営業組織ならBやAを評価する場合もあります。正解を自社の価値観で定義できる点がSJTの強みです。海外では数十年にわたる研究の蓄積があり、入社後のパフォーマンスを予測する有力な手法として確立されています。

次に、受験者から「仕事に関係がある」と感じてもらいやすいこと。業務場面がそのまま問題になっているので、「なぜこのテストを受けるのか」が直感的にわかります。

3つ目は、対策されにくいこと。学力テストのように「解法パターンを覚えれば解ける」というものではなく、自社独自の判断基準で正解が変わるため、汎用的な攻略法が通用しません。

ただし注意点もあります。生成AI（ChatGPTなど）に問題文と選択肢をそのまま入力すると、かなりの精度で正解を推測できてしまうことが複数の研究で確認されています。これは四択形式だけでなく、記述式のSJTでも同様です。対策としては、「各選択肢を1つずつ評価させる」形式にする、場面設定を自社独自の状況に具体化して汎用的な推論を通用させないなどの工夫が有効です。生成AIへの詳しい対策は、本シリーズの「Webテスト時代の運用設計」で解説します。

2-4. 穴埋め・短答式

四択式では測りにくい「自分の言葉で答える力」を確認できる形式です。選択肢を与えないぶん、受験者が本当に理解しているかどうかが表れやすくなります。

出題例：「次の文章の空欄に入る最も適切な語句を記入せよ」「以下の表から、売上が前年比で最も伸びた月を答えよ」

ポイントは、正解の表記ゆれをあらかじめ想定しておくことです。たとえば正解が「東京都」なら、「東京」「とうきょうと」「Tokyo」なども正解として登録しておく必要があります。オンラインテストのシステムによっては、正解の表記ゆれを複数パターン登録できる機能があるので、事前に確認しておいてください。

自動採点との相性は四択式ほどではありませんが、正解が一意に決まる問題設計にすれば十分に運用できます。おすすめは、テスト全体の7〜8割を四択式やSJTで構成し、残りの2〜3割に穴埋め・短答式を混ぜる構成です。「選ぶだけ」では見えない理解度を補完する役割として組み込むと、受験者の実力差がはっきり出やすくなります。

2-5. 小論文・記述式

「あなたが当社の営業担当だとして、売上が3か月連続で前年割れしている店舗にどのような改善提案をしますか。400字以内で述べてください」。こうした小論文形式は、四択やSJTでは測りにくい思考の深さ・論理構成力・文章表現力を見るのに適しています。

ただし、採点に人手がかかるのが最大のネックです。1件あたり3〜5分として、応募者300人なら合計15〜25時間。複数の採点者を確保し、基準のすり合わせ（キャリブレーション）まで含めると、運用コストは四択式の数倍になります。

そのため、小論文は全員に課すのではなく、足切り後の二次選考や応募者が限定される中途・専門職採用など、対象人数が絞られる場面に限定して使うのが現実的です。具体的な運用パターンとしては、一次は四択＋SJTの自動採点で通過者を絞り、二次で小論文1問を追加する、といった二段構えが無理なく回ります。

採点のブレを抑えるには、あらかじめルーブリック（採点基準表）を用意しておくことが欠かせません。「論点が明確か」「根拠を示しているか」「結論と根拠が一貫しているか」などの観点ごとに3〜5段階で評価し、採点者間で基準を事前にすり合わせておきます。

3. 良問チェックリスト

問題を作ったら、本番に出す前に品質をチェックします。作成者本人だけでなく、第三者（別の人事メンバーや現場マネージャー）にもレビューしてもらうのが理想です。

よくあるのが、出題者にとっては正解が明白なのに、受験者には「AもCも正解に見える」と混乱を招くケースです。あるいは、選択肢のうち1つだけ文章が長く丁寧に書かれていて、テストに慣れた学生が「一番長い選択肢を選べば正解」と見抜いてしまう。作った本人は気づきにくいからこそ、チェックリストで機械的に確認する仕組みが必要です。

チェック項目	OK基準
正答が1つに定まるか	「どちらとも取れる」選択肢がないこと
知識量の勝負になっていないか	問題文の中で解答に必要な情報が完結していること
制限時間内に解けるか	想定される解き方で実際に解いてみて、時間を確認済み
特定の受験者に有利・不利でないか	特定の専門分野・文化圏の知識を前提としていないこと
法令上のNG項目に触れていないか	思想信条・出身地域・家族構成等に関わる内容を含まないこと（通勤経路を問う設問が居住地域の間接的な質問にあたるケースにも注意）
選択肢の形式が揃っているか	選択肢の長さや表現が偏っていないこと（最も長い選択肢が正解になりがちな問題を防ぐ）

法令上のNG項目については、厚生労働省の「公正な採用選考の基本」ガイドラインが参考になります。採用選考で配慮すべき事項が具体的に列挙されていますので、問題作成前に一度目を通しておくことをおすすめします。

4. パイロットテストで仕上げる

チェックリストをクリアしたら、いきなり本番で使うのではなく、小規模なパイロットテストを挟みます。「選考スケジュールが迫っているから」とこの工程を飛ばした結果、本番で問題文の誤字が見つかる、制限時間が短すぎて半数以上が未完答になる、特定の1問だけ正答率が5%で問い合わせが殺到する。いずれも、パイロットを1回挟むだけで防げたはずです。

社内の若手社員や直近の内定者に協力してもらい、20〜30名程度で試験を実施してください。内定者に依頼する場合は、秘密保持についてあらかじめ合意を取り、パイロット用に問題の一部だけを抜粋して使うと情報漏洩リスクを抑えられます。確認すべきポイントは4つです。

平均点は狙い通りか。設計時に想定した範囲（スクリーニング用途なら60〜75%程度）に収まっていれば問題ありません。極端に高い（85%以上）、または低い（50%以下）場合は、難易度の調整が必要です。

差がつかない問題はないか。正答率が90%以上、あるいは20%以下の問題は、受験者の実力差を見分ける役には立ちません。全員が正解する問題は易しすぎますし、誰も解けない問題は難しすぎるか、問題文自体がわかりにくい可能性があります。

上位層と下位層で差がつく問題か。テスト全体の成績が上位のグループと下位のグループで、各問題の正答率に差があるかを確認します。差がない問題は「できる人もできない人も同じ結果になる」問題で、選考には向きません。

時間は足りているか。制限時間内に9割以上の受験者が最後の問題まで到達できていれば適切です。途中で時間切れになる人が多い場合は、問題数か制限時間を見直しましょう。

パイロットで問題のある設問は除外するか修正し、問題プールの質を段階的に上げていきます。テストの品質は「一度作って完成」ではありません。毎年の運用データをもとに改善し続けることで、選考の精度が上がっていきます。

まとめ

オリジナルの筆記試験は、「何を測るか」を起点に、配点設計、難易度バランス、スコアの使い方、結果の活用範囲の5つを先に決めることで、属人的な「思いつき出題」から脱却できます。出題形式は四択・業務文書型・SJT・穴埋め・短答式を軸に、対象人数が限られる場面では小論文を組み合わせることで、運用の安定性と測定の幅を両立できます。

自社で問題を作るのが初めてであれば、いきなり全問をゼロから作る必要はありません。まずは既存のテンプレートをベースに自社向けにカスタマイズし、パイロットテストを回しながら改善していくのが現実的な進め方です。ラクテスでは800種類以上のサンプルテストを用意していますので、出題の型を参考にしながら自社に合った問題を設計してみてください。

次回は、作ったテストを安全に運用するための設計を取り上げます。不正対策、生成AIへの対応、そして受験体験を損なわない運用の工夫について解説します。

📎 シリーズ一覧

新卒の筆記試験を見直すべき3つの理由
オリジナル筆記試験の設計と問題の作り方（本記事）
Webテスト時代の運用設計——不正対策・生成AI・受験体験の最前線（近日公開）
テスト結果を面接・配属・育成に活かす方法（近日公開）

参考資料

本記事の内容をさらに深掘りしたい方向けに、参考になる資料をまとめました。

資料	本記事との関連
マイナビ「2023年卒企業新卒採用活動調査」	企業の8割以上が「入社3年目以降の活躍」を採用の成果指標に挙げている
Zibarras, L., et al. (2025). Applicant perceptions of selection methods.	テストの職務関連性が高いほど、受験者の「公正だ」という納得感が高まる
Sackett, P. R., et al. (2022); 同 (2023); Berry, C. M., et al. (2024) ※選考手法の予測力に関するメタ分析の連作3本	テスト＋面接など複数手法の組み合わせが、単独より選考精度を高めること。SJTを含む複合設計の有効性
Kepes, S., et al. (2025). An integrative, systematic review of the situational judgment test literature.	SJTに関する524文献を整理した包括レビュー。SJTの予測力と活用領域の全体像がわかる
Borchert, R. J., et al. (2023). Performance of ChatGPT on the Situational Judgement Test.	選択肢型SJTにChatGPTを投入し、高い正答率を記録した実証研究
Harwood, H., et al. (2024). Examining the use of ChatGPT in situational judgement tests.	記述式SJTでもChatGPTの使用でスコアが上がることを確認した研究

自社独自の新卒採用試験の作り方 設計時に注意したい5項目を解説