現場で頑張る先生方を応援します!

アクセスカウンタ

zoom RSS 試行テストの分析で用いられた出題評価の手法

<<   作成日時 : 2019/04/10 05:16   >>

トラックバック 1 / コメント 0

昨年11月に実施された大学入学共通テストの試行テストの検証結果が先日、大学入試センターのホームページで公開されました。既にご覧になられたと思いますが、本日のブログでは、結果分析で用いられていた出題評価の様々な方法を取り上げてみます。校内で導入するにはハードルが高いものもありますが、考査問題の妥当性を評価し、最適化を図る際にも知っておいて有益なものも多々含まれます。


❏ 平均得点率(平均正答率)と標準偏差

これらについては今さら説明は不要と思いますが、報告書の冒頭近くで登場するのは、全科目の平均得点一覧(報告書p.6-7)と科目ごとの得点分布のヒストグラム(同p.8-10)です。

報告書の中では、前者を指標にこんな言い方をしています。
マーク式問題については、5割程度の平均得点率(平均正答率)を念頭に実施した。結果として平均得点率が5割程度以上となったのは、全19科目のうち7割を超える14科目であった。
画像

平均点で出題の質や難度の適性にあたりをつけるのは、昔から採られている方法ですが、これらの数字だけで確かめることができるのは出題の質のごく一部であるのは言うまでもありません。

ちなみに、センター試験やその先祖である共通一次は目標平均点が60点でした。これからの生徒はちょっと高いハードルに挑むことになりますよね。定期考査問題もちょっとスパイスを加える必要がありそうです。

 ■ 高大接続改革と定期考査問題(全6編)


❏ ヒストグラムで点検する「有効得点レンジ」

平均点が最も高い地理Bと最も低い生物のヒストグラムを比較してみると、前者では20点未満のエリアが、後者では80点以上のエリアの分布は極めて少なく「ほぼ空白」であることが分かります。

画像

名目上100点満点のテストですが、いずれも実質的には80点分かそれ未満の短い得点スケールしか使えておらず、学力差が得点差に表れにくくなっています。

定期考査の場合は、不用意に赤点を出さないためにも、上位生の慢心を防ぐためにも、得点の上下をカットしたいという事情もあろうかと思いますが、選抜試験としては「識別力」(学力を点数に換算する性能)を優先すべきであり、得点スケールが目一杯使える問題が望まれます。

一方、下に並べた現代社会と英語筆記は、平均点はともに51点台、最頻値も似たような位置にありますが、標準偏差は、前者が13.40、後者は19.43とだいぶ違ったものになっています。

如上の識別力だけで言えば、より広いレンジを尺度として使える英語筆記の方が選抜試験の出題としては好ましいということになります。

画像


❏ 設問正答率幹葉図で、硬軟のバランスを確かめる

なぜ、このような違いが出るかは、報告書の中、p11以降に登場する「設問正答率幹葉図」をご覧いただくのがわかりやすいと思います。

設問正答率幹葉図とは、
平均正答率を5ポイント刻みで区切り、左側の区間(幹)とし、それぞれの区間にあてはまる設問の番号を右側(葉)に並べたもの
を差します。下図は今回の日本史Bのものですが、正答率が9割を超えた設問から、10%に届かないものまで含まれていることが分かります。

画像

正答率が高い設問が多ければ、それらの問題で大部分の生徒が点数を拾ってしまうため、低得点域の分布がなくなります。上の例では20点以下の受験生はほとんどいません。

他方、低正答率の設問が一定程度以上含まれていると、高得点域の分布はつぶれてしまいます。ヒストグラムでも90点オーバーは僅少です。

昔からよく使われるワーディングに「硬軟取り混ぜて」というのがありますが、それも度を過ぎてしまうと、得点スケールを無駄に縮めてしまうリスクを招きます。

同報告書の後半(p.57〜)に掲載されている9段階のスタナインによる検証結果を見ても、日本史Bは最上位と最下位をのぞく7つの段階が、32点から78点の狭い範囲に「圧縮」されてしまっています。

赤点の生徒を出さないようにするのは、問題の細工ではなく、普段の授業への取り組ませ方ではないでしょうか。しっかりとした問題を作り、それを解けるように生徒を導いていくことが筋だと思います。



ここで紹介した手法以外にも、本報告書では以下のような出題評価を行っています。

誤肢選択率と正答選択率の比較(p.14など)
誤答を選択した者が、正答を選択したものを上回る設問も、何らかの問題を抱えていると考えられます。

五分位図のLo群とHi群の正答率の差(p.16など)
五分位図とは、当該科目の得点により、受検者を五群に等分割し、得点の低い順にLo群、LM群、M群、HM群、Hi群と名付け、各郡ごとの平均得点率を示したものを言います。ある設問において、Lo群とHi群の正答率の差が20%以下である場合、その設問は識別力がない(=好ましくない問題)とされます。

ピアソン相関を用いた検証(p.26)
科目の得点から当該設問を除いたものと当該設問との得点の相関を差します。今回の試行テストでは、ピアソン相関が0.1を下回り、他の設問との相関が低い問題が、国語や数学UB、政経生物、地学で10%以上を占めていました。この手の問題は、本番では除外・改善されるはずです。

先生方が、ただでさえ多忙な校務の中、ご自身の手でこうした解析まで踏み込むのは容易でもなければ現実的でもありません。むしろほかに優先すべきことが多々あるはずですが、出題の評価にどんな方法があるかを知っておくことは何かの場面で役に立つはずです。


教育実践研究オフィスF 代表 鍋島史一

テーマ

注目テーマ 一覧


月別リンク

トラックバック(1件)

タイトル (本文) ブログ名/日時
考査問題で何をどう測るか
1 考査問題の改善が授業も変える1.0 考査問題の改善が授業も変える(序) 1.1 考査問題の改善が授業も変える(前編) 1.2 考査問題の改善が授業も変える(後編) 2 考査問題の妥当性評価2.0 考査問題の妥当性を評価し、最適化を図る 2.1 考査問題の妥当性評価(その1) 2.2 考査問題の妥当性評価(その2) 2.3 設問ごとに出題の妥当性を確かめる 2.4 試行テストの分析で用いられた出題評価の手法 New! 3 高大接続改革と定期考査問題3.0 高大接続改革と定... ...続きを見る
現場で頑張る先生方を応援します!
2019/04/11 04:57

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文
試行テストの分析で用いられた出題評価の手法 現場で頑張る先生方を応援します!/BIGLOBEウェブリブログ
文字サイズ:       閉じる