한국 지구과학 올림피아드 문항 분석을 통한 문항의 질 향상 방안

Analysis of Korea Earth Science Olympiad Items for the Enhancement of Item Quality

  • 이기영 (한성과학고등학교) ;
  • 김찬종 (서울대학교 사범대학 지구과학교육과)
  • 발행 : 2005.08.01

초록

본 연구에서는 한국 지구과학 올림피아드 문항의 질 향상 방안을 모색하고자 1회와 2회 예선 및 본선 문항을 다양한 측면에서 분석하였다. 문항 분석을 위해 내적 및 외적 문항 분류틀을 구안하여 적용하였다. 고전 검사이론을 적용하여 문항의 난이도와 변별도, 상관계수, 그리고 신뢰도를, 일반화가능도 이론을 적용하여 일반화가능 도를 각각 추정하였다. 문항 분류틀 적용 결과는 다음과 같다: (1) 내용 차원에서는 지질 영역과 천문 영역에, 지식 및 탐구과정 차원에서는 자료 분석 및 해석에 집중되는 경향을 보였다. 또한 맥락 차원에서는 거의 대부분의 문항이 교과서적인 상황을 토대로 한 것이었다. (2) 요구 사고 수준에서 예선과 본선간의 차이를 발견할 수 없었다. (3) 문항 표현 범주에서는 그림의 사용 비율이 가장 높았고, 문항 유형 범주에서는 예선은 선다형과 단답형의 비율이, 본선은 서술형의 비율이 높았다. 또한 문항 형식 범주에서는 중학부와 예선은 단독형의 비율이 높고, 고교부와 본선은 복합형의 비율이 높았다. 문항을 분석한 결과는 다음과 같다: (1) 중학부는 대체로 난이도가 낮고, 변별도는 적절하였다. 그러나 고교부는 일반고와 과학고간에 상당한 차이가 있었다. (2) 중학부는 대기 영역과 총점과의 상관이, 고교부는 천문 영역과 총점과의 상관이 가장 높았다. (3) 양호한 문항이 가장 많은 일반고부의 문항 내적 일관성신뢰도와 일반화가능도가 가장 높았다. (4) 일반 고는 출제된 문항 수로 적정 수준의 일반화가능 도에 도달되나, 중학부나 과학고는 출제된 문항보다 2배 이상 많은 문항수가 필요한 것으로 나타났다.

The purpose of this study is to analyze the 1st and 2nd Korea Earth Science Olympiad (KESO) items, in order to find informations to enhance item quality. To do this, internal and external item classification frameworks are developed. Item difficulty (P), discrimination index (DI), correlation, and reliability are estimated by using classical test theory. Generalizability is also estimated by applying the generalizability theory. The results of item classification are as follows: (1) ‘Geology’, ‘astronomy’ and ‘data analysis and interpretation’ are dominant in content and inquiry process domain, respectively. Nearly every item has textbook context. (2) There is no difference between the preliminary and final tests in terms of their thinking skills sections. (3) As a whole, the ratio of items with pictures is high in item representation. However, multiple-choice and short answer items are more common in preliminary competition, and essay type items are found more often in final competition. The ratio of simple items is high in middle school section and preliminary competition, but composite items are dominant in high school section and final competition. The findings of item analysis are as follows: (1) In the middle school section, P is low and DI is moderate. But in the high school section, there is a considerable differences between science high schools and other high schools in general. (2) The highest correlation is reported between the scores of meteorology domain and total score in middle school, whereas in high school astronomy domain and total score show the highest correlation. (3) General high school section show the highest Cronbach $\alpha$ and generalizability. (4) General high school section show acceptable generalizability coefficient (> 0.80), but middle and science high school section should increase the number of items to reach acceptable generalizability level.

키워드

참고문헌

  1. 김성숙, 김양분, 2001, 일반화가능도 이론. 교육과학사
  2. 변창진, 최진승, 문수백, 김진규, 권대훈, 2001, 교육 평가. 학지사
  3. 성태제, 2002, 타당도와 신뢰도. 학지사
  4. 우종옥, 이항로, 구창현, 1996, 과학 탐구 능력 평가 문항 유형 변화에 관한 종단적 연구. 한국과학교육학회지, 16 (3), 314-328
  5. 이기영, 2004, 평가유형과 채점 방식에 따른 중.고등학교 과학 수행평가의 일반화가능도에 관한 연구. 서울대학교 박사학위논문
  6. 한국지구과학회, 2003, 함께하는 지구과학교육. 2 (2), 10-19
  7. 한국지구과학회, 2004, 함께하는 지구과학교육. 3 (1), 9-13
  8. 홍미영, 전경문, 이범홍, 이양락, 2002, 대학수학능력시험 화학II 문항에 대한 학생들의 응답 분석. 한국과학교육학회지, 22 (1), 204-213
  9. Brennan, R. L., 2000, Performance assessments from the perspective of generalizability theory. Applied Psychological Measurement, 24 (4), 339-353 https://doi.org/10.1177/01466210022031796
  10. Burns, K. J., 1998, Beyond classical reliability: Using generalizability theory to assess dependability. Research in Nursing & Health, 21, 83-90 https://doi.org/10.1002/(SICI)1098-240X(199802)21:1<83::AID-NUR9>3.0.CO;2-P
  11. Cangelosi, J. S, 1990, Designing tests for evaluating student achievement. New York: Longman
  12. Crick, J. E., Brennan, R. L., 1983, Manual of GENOVA: A GENeralized Analysis Of VAriance System. Iowa city, IA: American College Testing Program
  13. Cronbach, L. J., Gleser, G. C., Nanda, H., & Rajaratnam, N., 1972, The dependability of behavioral measurements: Theory of generalizability of scores and profiles. New York: John Wiley
  14. Ebel, R. L, 1965, Measuring Educational Achievement. Englewood Cliffs, NJ: Prentice-Hall