コンピュータと情報教育のためのHelpfulnotes
コンピュータと情報教育のためのHelpfulnotes
 
 

 

 

 

 

 

 

 





●テスト問題づくり・問題選択の注意点!
〜記述式問題・選択式問題・・・解答形式は同じなら難易度も同じ?〜
出題範囲と設問数のバランスとは?

今年の
高校入試

テストを行う目的は、状況によってさまざまです。例えば、定期試験であれば、学習内容が定着しているか、どこまで理解できているかを知るために行われます。知能テストならば、発達段階に応じた知的能力が獲得できているか、どこに発達障害を生じているかを調べるために使われます。運転免許の学科試験は、車を運転するに足る知識を備えているか、実技試験であれば運転するにたる技術を備えているかを測定します。

テストの目的は様々なのですが、目指すところは、おおまかなところに集約されます。それは、受験者に関する情報を得るということです。しかし、それはある面から見た情報であるということを忘れてはなりません。場合によっては、いくつかのテストを組み合わせることもあります。教育現場ではテスト=評価となっていることがしばしばですが、これはテストの誤った認識といえます。

受験者に関する情報の取得が目的ならば、知りたい情報を得るためのテスト作りが求められることとなります。そのため、テスト問題の作成によっては、全く関係のない情報しか手に入らないということもありえます。何のためにそのテストを行うのか、というしっかりした考えがなければテストをする意味はありません。

テストをする目的がしっかりしていても、ナンセンスであると言わざるをえないものが、"落とすための"入試試験です。これは、入学者数をコントロールするためだけに行われるということで、かなりしっかりした目的があるといえます。しかし、落とすためのテストは、問題をいやらしく、困難にすることで作成されます。これは果たして受験生の能力を知るためのものなのでしょうか?このテストによって得られる情報は、落ちたか落ちなかったか、ただそれだけです。もう少し言ってしまえば、嫌らしい問題ができるかそうでないかがわかるだけです。入試は、その学部に入るために必要な知識を持っているかどうか、という認識のもとになされるべきなのです。

良いテストの
条件


「1対1対応」形式が基本

 

良いテストのためには、最低限、次の二つのことを満たさねばなりません。

それは、妥当性と信頼性です。

妥当性…そのテストが本当に測定したいものを測定しているか
信頼性…そのテストの結果は、状況にあまり左右されず、テスト対象の一貫した解答を期待できるか

つまり、車の速度を測るのに温度計は無意味(妥当性なし)ですし、壊れた速度計は速さの結果に一貫性を持ちません(信頼性低い)。

テストの目的のところで触れましたが、テストは必要な情報を得るために行われます。そのため、テストの目的に合致した内容のテスト、言い換えればテストの妥当性がなければなりません。また、その場その場で結果が変わるのでは、テストによって得られたデータは信用がおけません。つまりテストの信頼性も求められます。

妥当性を測るには、データの蓄積が必要(別のデータとの相関を調べるため)ですが、信頼性は簡単に測ることができます。

次に、良いテストの条件として、良いテスト項目が挙げられます。
テストの問題は、記述式試験などを除けば、一対一対応が原則です。特に到達度評価の目安という位置づけでテストを行う場合は絶対です。一対一対応とは、一つの質問は、一つの知識によって答えることができる、ということを意味します。以下のような例です。

良いテストのためには、最低限、次の二つのことを満たさねばなりません。

それは、妥当性と信頼性です。

妥当性…そのテストが本当に測定したいものを測定しているか
信頼性…そのテストの結果は、状況にあまり左右されず、テスト対象の一貫した解答を期待できるか

つまり、車の速度を測るのに温度計は無意味(妥当性なし)ですし、壊れた速度計は速さの結果に一貫性を持ちません(信頼性低い)。

テストの目的のところで触れましたが、テストは必要な情報を得るために行われます。そのため、テストの目的に合致した内容のテスト、言い換えればテストの妥当性がなければなりません。また、その場その場で結果が変わるのでは、テストによって得られたデータは信用がおけません。つまりテストの信頼性も求められます。

妥当性を測るには、データの蓄積が必要(別のデータとの相関を調べるため)ですが、信頼性は簡単に測ることができます。

次に、良いテストの条件として、良いテスト項目が挙げられます。
テストの問題は、記述式試験などを除けば、一対一対応が原則です。特に到達度評価の目安という位置づけでテストを行う場合は絶対です。一対一対応とは、一つの質問は、一つの知識によって答えることができる、ということを意味します。以下のような例です。

<千葉県・16年度 社会・改>
 [ ] にあてはまる共通の語を入れなさい。
 問:鎌倉時代の将軍と主従関係を結んだ武士は [ ] とよばれた。
 この問い は,先祖代々の領地の支配を認められ,そのかわりに,戦いがおこれば将軍のために戦いに参加した。(答:御家人)

<岩手県・15年度 数学・改>
 問:(−2)2−4×3を計算しなさい。(答:−8)

上の問では、鎌倉時代の将軍と主従関係を結んだ武士の名称、下の問では、指数の演算の知識があれば解くことができます。
 つまり、室町時代や江戸時代の年号をいくら知っていても、平方根の外し方を知っていても解けないのです。

・・・ということは、問ができれば知識を持っていて、できなければその領域の知識の習得ができていないことがわかります。 一対一対応でないとこれが明確にはなりません。例えばこんな場合です。

問:有色鉱物が20パーセント以下のけいちょう質の深成岩を答えなさい   (答:花こう岩)


この例では、花こう岩であると答えるためには「深成岩」と「有色鉱物が20パーセント以下」「けいちょう質」の、三つの知識が必要です。

 もしこの問題で誤答があった場合、三つの知識のうち、どの知識の欠落による誤答なのかが明確になりません。もちろん、応用問題としての位置づけ(つまり基礎的な知識がある程度存在する)であれば、この問題自体は的外れではありません。

「公平でなくてはならない」というもの良いテストの条件です。同じ知識を持っているならば、同じくらいの点数が取れる、ということです。できる限り、まぐれあたりを避けることが必要です。同時にヤマをはった人が、満遍なく勉強した人より点が良いというのも公平ではありません。 まぐれあたりを避けるといっても、多枝選択問題を否定するわけではありません。このことに関しては後ほど、ご紹介します。

公平であるために必要なことは、

 第一にテストの目的の沿ったものを満遍なく問題に組み込むことです。こうすることによって、必然的に問題数が多くなり、山師とカタギの不公平をなくすことができます。 ただし、テスト時間の関係もありますので、問題の編成については後述する「細目積み上げ方式」を用いた方がよいでしょう。

 第二に、選択問題はできるだけ設定しないことが必要です。 選択できる問題の相互の難易度は、果たして同じといえるでしょうか?センター試験などでは、平均点に一定の差が生じた場合に得点調整を行っています。平均点の差が20点なら得点調整を行う、となっていた場合に、点差が19点だったらどうなるのでしょうか?救済なしです。
 つまり、選択問題同士の難易度の差を考えていないから、このようなことが起きるのです。 後述するアイテムバンク方式というテスト理念に基づいている場合においては、選択問題も問題ないのですが、そうでなければ避けるべきでしょう。

解答形式による問題分類方法

 

論述式多枝選択式

テストは、その解答法によって大きく二つに分けることができます(ただし筆記試験の場合)。

 @論述式
 A多枝選択式

 
@の論述式は、課題作文などを書かせてその解答を得るものです。当然テストとして行う場合は、時間の関係で少数の出題に限られます。

 Aの多枝選択式は、○×課題や四択、五択問題といった択一式を指します。一問あたりの所要時間が短いので、出題数は多くなります。

 <@の論述式>
論述式の特徴は、なんといっても個々の知識では解答できない点にあります。つまり総合的な知識が求められるわけです。

世界経済の推移を述べよ。

・・・という問題があったとすれば、まず以下のような基礎知識が必要でしょう。 日本・アメリカ・EUの市場、中国の経済発展、開発途上国の産業の動向、国内の政情etc. さらに、これらの知識を結びつけるための論理的思考、歴史的考察や文章能力まで問われることになります。

 また、答えが簡単に決定できるわけではないし、対象の解答は千差万別となります。 総合的な学力や、個性がもてはやされる中で、これらは一見魅力的です。しかし、良いテストの条件と照らし合わせると、手放しで喜べません。

 論述式の利点は以下のようになります。
 第一に、総合的な力を見ることができます。
 第二に、まぐれの正解を排除することができます。
 第三に、画一的ではないので、様々な観点から回答の評価ができます。


 これらは非常に魅力的な点です。しかし、適切なテスト条件がなければ、すぐに欠点に直結します。
 第一に、少数の出題ゆえに、山師に活躍の機会を与えてしまうことが挙げられます。
 第二に、多くのことが一つの設問に含まれているため、到達度評価のためのテストにはなりません。
 第三に、
基礎知識や論理的思考ができていても、文章力に評価が左右されてしまうことがあり、テストの目的と違う評価となってしまう危険性があります。
 最後に、これが重要なのですが、採点時の手間が膨大になります。少し詳しく説明します。

 まず採点基準の問題があります。どう書けば何点、ここまで書ければ何点、という基準を明確にしないと、採点状況によっては不公平が生じます。
 それでも及第かそうでないかの間にきっかりと線を引くのは難しいでしょう。

 次に採点するために解答を読まなければならないので、その時間がかなり負担になります。はじめの時の採点と、最後の時の採点の基準がややズレていた、というのはありそうな話です。

 包括的評価のためならば論述式はすぐれた方式ですが、時間がかかるので、テストという時間的制約の状況では適さないといえるかもしれません。

 もちろんテストの目的によっては、そう簡単に断言できるものではありませんが。

<Aの多枝選択式>
 多枝選択式は、個々の学習要素を網羅できるところに特徴があります。
 前述の通り、一対一対応のテストであれば、到達度評価のための測定としては申し分ないものとなります。

 論述式とは逆に、総合力や論理的思考を見ることは難しい点が弱点といえるかもしれません

 多枝選択式の利点は以下のようになります。
 第一に、解答の分析で、個々の対象の到達度がわかります。
 第二に、採点が非常に容易です。
 第三に、採点基準が明確で、誰が採点しても結果が同じになります。配点の重み付けも不要になります。

 最後に、解答方式の説明が容易です。解答方式の間違いによるミスが避けられます。

 ただし、これらの利点もきちんとしたテストの条件を備えていなければなりません。必要なテストの条件は以下の通りです。

 第一に、問題数が多いこと。五択問題であれば、全然わからなくても五分の一は正解してしまいます。
 問題数が少ないと、成績に占める偶然のウェイトが無視できなくなります。問題数が少ないと、信頼性はかなり低くなります。
 また、一対一対応ですから、問題数が多くないとテスト領域の網羅が困難になります。

 第二に、一問にかける時間をなるべく短くすること。問題数が多くなるので、一問にかける時間が長いと対象に負担をかけます。

 また、これに関連して設問が長すぎるものは、問題の焦点がぼやけるため、好ましくありません。
 最後に、解答方式を単純にすること。多枝選択式の利点は、その解答のわかりやすさにもあります。 解答方式を複雑にしてしまうと、誤答があった場合、問題の内容がわからなかったのか、解答方式を間違えたのかわかりません。

 穴埋め型のテストは、多枝選択式に含むことができるでしょう。選択枝の数が無限大とみなすことができるからです。

 ただ、問題の数が多ければ五択の場合と穴埋め式の場合での違いはそれほど問題になりません。 採点時の手間や、漢字間違いなどのうっかりミスが生じて問題分析に支障をきたす可能性を考えれば、無理に穴埋めにする必要はないと思います。

出題範囲に
ついて

 出題範囲を網羅することについて補足します。
 出題範囲を網羅すると、出題数は莫大なものになってしまいます。そこで、出題する問題を選ばなければなりません。 その概念図を以下に示します。

 多枝選択式問題は、解答による問題分析が容易なことから、その問題に関するデータの蓄積が望めます。

 例えば、同じ問題を毎年3年生に解かせるとします。同じ力を持っているなら、その問題に対する正答率は一定になるはずです。

 正答率がわかるということは、その問題を出したときの予想点数がわかるということです。

 問題と点数の予想は、大量のデータがあればかなり把握できます 問題とその解答データの蓄積をアイテムバンクといいます。必要に応じて問題を抽出し、テストを作ることができるわけです。

 また、このようなデータの蓄積がなされれば、上の図のようなことも容易になります。

 実際、アメリカの進学適性検査などはこの方式に則って行われています。

 難易度が同じになるようなテストを毎年作っているので、前年に比べて平均点が下がっていれば、学力が低下した可能性が示唆されるわけです。

公立高校入試問題は論述式・多肢選択式問題とバランスよく出題されているだけでなく、問題レベルも易〜難まで幅広く出題されています。また、教育委員会より様々な実施結果報告がされており問題別正答表など問題改変に便利な情報が多数、配信されています。

 

テストづくりの流れ テストを作成するにあたって重要なことは、テストの目的に合致しているかです。
 それはすなわち、そのテストがどのような位置づけで実施されるのかということでもあります。 おおまかな流れは以下の通りです。

 

 もちろん診断的評価や形成的評価、総括的評価などのテスト目的が異なれば細部は変わってきます。

 テストの流れは、まずテストの作成段階(@〜D)があり、実施段階(E、F)を経て事後処理段階(F'〜H)という三段階です。

 しかしそれで終わりではもちろんなく、事後処理段階から再び事後のテストの作成段階へと続いていきます。

 つまり、テストは作って実施しただけで終わらせてはなりません。必ず次回に生かすことが重要なのです。

 @テスト目標をたてる
  テストの目的・出題方針・テスト時間などの検討です。
この後のテスト作成のコンセプトを決定づけるので、慎重に行います。


 Aテスト構造を決める
出題領域・内容・目標・出題形式・問題項目数の割り当てなどを検討します。
教育目標・指導目標などがしっかりしていなければなりません。


 B問題試案の作成・検討
@・Aをふまえた問題を作成します。


 C問題の編集・手直し

問題の配列や目的に合致しない問題の削除または訂正を検討します。
予備テストを実施し、解答の分析などを経るとより確実です。

 D問題の印刷・確認問題を印刷します。
問題に不備がないか、印刷ミスがないかなどの最終的な確認をします。


 E実施


 F集計・採点
明確な基準の下に採点を実施します。データとなるので慎重に行います。


 F'解答分析
解答を分析します。実施した問題の再検討や、個々の対象の解答パターンを分析します。


 Gテスト対象への対応採点や解答分析の結果から対象の診断や問題点を抽出、フォロープログラムを作成します。

 Hデータの蓄積
次回のテストに向けて、得られた情報などを蓄します。

(池田央『テストの科学 試験にかかわるすべての人に』日本文化科学社 1992年をもとに作成)

 

 



●先生のためのプリント教材作成術 総合インデックスはこちら

素材協力およびコンテンツ提供は:プリント教材研究会



Copyright (C) 2005 Helpfulnotes. All Rights Reserved.

協力/提供: