Портал засновано за підтримки Донецького обласного благодійного Фонду сприяння освітнім інтелектуальним інвестиціям (свідоцтво про Держреєстрацію № 402, видане 04.11.2008 р. Головним управлінням юстиції у Донецькій області, свідоцтво про Держреєстрацію серія А00 № 729147, видане 11.11.2008 р. Слов'янським міськвиконкомом). Портал зареєстровано Держкомітетом з інформатизації України 16.10.2009 р. (лист № 1737/05-09) як електронний інформаційний ресурс.
УКР
РУС
 
О. В. САВОНОВА. ДОТЕСТОВА ПЕРЕВІРКА СТАТИСТИЧНИХ ПОКАЗНИКІВ ЗАВДАНЬ У ТЕСТОВІЙ ФОРМІ
 
  Версия для печати

ВХІД             Реєстрація

ПЕДАГОГІЧНІ ВИДАННЯ / е-журнал «Педагогічна наука: історія, теорія, практика, тенденції розвитку» / Архів номерів / Випуск №1 [2009] / О. В. Савонова. Дотестова перевірка статистичних показників завдань у тестовій формі

УДК 37.013.42(075.8)

О. В. Савонова

ДОТЕСТОВА ПЕРЕВІРКА СТАТИСТИЧНИХ ПОКАЗНИКІВ ЗАВДАНЬ
У ТЕСТОВІЙ ФОРМІ

Анотація. Розглянуто визначення статистичних показників запитань у тестовій формі перед включенням їх до складу тестів з використанням утиліт АСТ „СamomileNet” за допомогою дотестового виконання студентами комплектів завдань у тестовій формі при поточному контролі їх успішності із застосуванням статистичних методів обробки отриманих результатів тестування.
Ключові слова: запитання у тестовій формі, система тестування „СаmomileNet”, тестове завдання, дистрактор, правдоподібність дистракторів.

Аннотация. Рассматриваются вопросы проведения определения статистических показателей заданий в тестовой форме перед их включением в состав тестов, используя утилиты АСТ «СamomileNet», с помощью метода дотестового выполнения студентами комплектов заданий в тестовой форме при поточном контроле успеваемости, а так же с использованием статистических методов обработки полученных результатов тестирования.
Ключевые слова: вопрос в тестовой форме, система тестирования «СаmomileNet», тестовое задание, дистрактор, правдоподобность дистракторов.

Abstract. Organizational fundamentals of preparatory period of the current and final computerized testing of health-improving disciplines. In the article are settled organizational fundamentals in the point of moulding questions in test form and building on their base the pre-test material using CTS «CamomileNet».
Keywords: molding the questions in the test form, computerized system of testing «CamomileNet».

В умовах стандартизації вищої освіти постає проблема розробки об’єктивного інструментарію для проведення автоматизованого тестового контролю з обов’язковим визначенням статистичних показників завдань, які будуть складати базу тестових запитань із певної дисципліни. Про наявність проблеми забезпечення внутрішньої і зовнішньої валідності комп’ютерних тестів, яка залежить від використовуваних під час їхньої розробки концептуальних основ конструювання й стандартизації тестових завдань і тестів, програмно-технічних засобів та інструментаріїв, зазначає в своєму дослідженні О.В.Сілкова [5].

Аналіз літературних джерел науковців (В. С. Аванесов, А. І. Кузьмінський та В. І. Єфименко, Л. Д. Федотова та Е. А. Рикова, М. М. Олійник та Ю. А. Романенко) показує, що стандартизація тестових запитань полягає у визначенні їхньої складності та правдоподібності дистракторів, які дозволяють судити про здатність завдання у тестовій формі вимірювати той чи інший аспект дисципліни, що вивчається.

На жаль, усі розробки щодо визначення статистичних показників тестових завдань зумовлюють їхнє дослідження вже після того, як завдання було використано в тесті, тобто після проведення тестування (поточного, підсумкового тощо), коли знання тих, хто тестується, вже оцінено за допомогою тестових запитань, основні статистичні показники яких поки що невідомі. Зокрема, М. М. Олійник, Ю. А. Романенко [6], виходячи з власного досвіду роботи з тестовими матеріалами, дійшли висновку, що етапи визначення трудності завдань та встановлення їх послідовності в тесті мають виконуватися автоматично при статистичній обробці результатів тестування. Що ж стосується дій під час формування самого тесту, то зазвичай викладачам рекомендується орієнтуватися на складність запитань, отриманих від експертів, які їх складали і які від початку спиралися лише на власний досвід викладання дисципліни. На нашу думку, це не додає об’єктивності тестам і взагалі процедурі тестування в цілому, а навпаки, вносить до інструментарію тестування долю суб’єктивізму, нівелюючи їхню здатність вимірювати навчальні досягнення студентів із теми (модуля) певної дисципліни.

Мета нашої роботи: розглянути проблему дослідження якості дотестового матеріалу з психовалеології, а саме – визначення складності запитань у тестовій формі перед включенням їх до складу тестів; визначення складності запитань за результатами виконання студентами комплектів завдань у тестовій формі при проведенні поточного контролю під час аудиторних занять, а також самостійної роботи з використанням комплектів тестових завдань [2] та наступним статистичним аналізом отриманих результатів.

Визначення статистичних показників запитань у тестовій формі відбувалось у межах педагогічного експерименту в Чернігівському державному педагогічному університеті імені Т. Г. Шевченка та Національному педагогічному університеті імені М. П. Драгоманова при виконанні студентами комплектів тестових завдань під час підготовчого тренувального контролю навчальних досягнень, яке полягало у наступному: у межах поточного контролю навчальних досягнень з психовалеології студентам обох університетів пропонувалось виконати комплекти завдань у тестовій формі, що генерувались для кожного студента окремо під час проведення аудиторних занять у присутності викладача у комп’ютерному класі і під час самостійної роботи через мережу Інтернет; відповіді студентів на запитання комплектів тестових завдань накопичувалися на сервері системи тестування, після чого піддавалися ретельному дослідженню, обробці і статистичному аналізу.

Для створення індивідуальних комплектів завдань використовувалася база даних (база запитань у тестовій формі), яка налічувала 300 запитань з психовалеології, розроблених відповідно до організаційних засад підготовчого періоду поточного і підсумкового автоматизованого контролю знань [3] з дисциплін оздоровчого спрямування з використанням автоматизованих систем тестування, зокрема АСТ „CamomileNet” [4], працівниками кафедр медико-біологічних і валеологічних основ охорони життя та здоров’я Національного педагогічного університету імені М. П. Драгоманова та Чернігівського державного педагогічного університету імені Т. Г. Шевченка, у тому числі й автором цієї статті. На кожне запитання пропонувалось чотири відповіді, усі з яких могли бути правильними. Для правильної відповіді на запитання необхідно було вибрати всі правильні відповіді з запропонованих. У всіх інших випадках відповідь вважалася неправильною.

Автоматизована система тестування (АСТ), створюючи для кожного індивідуальний комплект завдань у тестовій формі, відбирала випадковим чином визначене число запитань з існуючої бази даних без урахування їх складності. У нашому випадку до складу такого комплекту входило до 25 запитань. Кожний студент отримував окремий варіант завдань, відмінний від інших. На вибірці досліджуваних використовувалися всі запитання бази даних (300 запитань) із психовалеології. Параметри відповідей студентів: ідентифікатор студента, ідентифікатор індивідуального комплекту завдань, дата і час проведення тестування, час роботи над виконанням комплекту, відповіді, вибрані тестованим на запропоновані запитання та оцінка цих відповідей заносилися до таблиць бази даних із результатами тестувань. Оцінювання відповідей проводилося в дихотомічній шкалі: 1 бал – відповідь правильна; 0 балів – відповідь неправильна. У подальшому для визначення статистичних характеристик запитань із таблиці бази даних, яка містить бали, отримані тестованими за відповіді на всі запитання в тестовій формі, що використовувалися для створення індивідуальних комплектів завдань, за допомогою утиліти АСТ для кожного окремого запитання був сформований файл даних. Кожний такий файл складався з сукупності балів {Yj}, що отримали студенти за відповідь на відповідне запитання j, яке входило до складу їх індивідуального завдання, складності цього запитання Pj та початкового значення оцінки складності запитання в логітах ?j, а також даних для проведення аналізу правдоподібності дистракторів для закритих запитань у тестовій формі. Дані формувалися таким чином, щоб без додаткової обробки бути використані системою SPSS для їх статистичного аналізу. Величини Pj, ?j обчислювалися за відповідними формулами [8]:

 де j – ідентифікатор запитання в тестовій формі з таблиці запитань бази даних, (j=1, 2, …, n); Pj – частка правильних відповідей на j-е запитання у тестовій формі (складність завдання); Rj – кількість студентів, які відповіли на j-е запитання правильно; N – загальне число студентів, які відповідали на j-е запитання; qj – частка неправильних відповідей на j-е запитання, qj=1– Pj; ?j – початкова оцінка складності запитання в логітах.

Статистичний аналіз сукупностей балів, отриманих студентами за відповіді на запитання в тестовій формі, дозволив визначити середні розподілів балів та мінімальне число відповідей досліджуваними на кожне запитання (число комплектів завдань у тестовій формі, до складу яких увійшло дане запитання), що гарантувало з довірчою ймовірністю 0,95 задану точність ?, з якою визначалась середня балів ?=t?, де ? – гранична похибка (точність визначення); t – коефіцієнт довіри для заданого значення ймовірності; µ – стандартна похибка вибірки.

У свою чергу стандартна похибка вибірки сукупності балів, отриманих студентами, обчислювалась згідно формули [7]:

 де ? – середнє квадратичне відхилення вибіркової сукупності; n – чисельність цієї сукупності.

Для визначення необхідного числа відповідей, наданих студентами, нами була використана формула: 

 з максимальним значенням дисперсії для дихотомічних даних.

Таким чином, мінімальне число цих відповідей на запитання j (результатів тестувань) n у сукупності {Yj}, яке забезпечить з довірчою ймовірністю 0,95 визначення середньої ?j з похибкою ? в інтервалі 0,08???0,05, тобто Yj1=?j1±0,08 і Yj2=?j2±0,05 обчислюється наступним чином.

Для довірчої ймовірності 0,95 із таблиці значень нормованої функції Лапласа визначається коефіцієнт довіри t=1,96. Значення дисперсії (для випадку дихотомічних даних) приймається ?2=0,25. Тоді

Отже, з імовірністю 0,95 маємо підставу стверджувати, що число оцінок, отриманих студентами 150?n?385 за відповідь на запитання в тестовій формі j, гарантує визначення середньої розподілу оцінок ?j із похибкою 0,08???0,05.

На думку М. Б. Челишкової [8], за умови використання дихотомічної шкали для нарахування балів за відповідь на запитання в тестовій формі, середня розподілу сукупності балів ?j дорівнює складності цього запитання Yj=Pj. Таким чином, знайдене мінімальне число відповідей, наданих студентами, одночасно є достатнім для визначення з наперед заданою точністю ? середньої балів, отриманих за відповіді на запитання, і забезпечує з відповідною довірчою ймовірністю таку ж точність визначення середньої складності самого запитання.

Означений поточний контроль знань студентів обох університетів з психовалеології проводився у період з 2004 по 2006 рр., під час якого кожний студент отримував комплект завдань у тестовій формі, який складався із 25 запитань. Усього було отримано 2187 результатів тестувань. Для подальшого статистичного аналізу непридатними виявилося 34 результати. Для створення 2153 комплектів завдань у тестовій формі АСТ вибирала запитання з бази даних 53825 разів. Кожне окреме запитання в тестовій формі використовувалося для створення комплектів завдань від 152 (запитання: 48, 283) до 219 (запитання: 216, 283) разів. У середньому на кожне запитання в тестовій формі було отримано 179 відповідей, що дозволило визначити з імовірністю 0,95 складність усіх трьохсот запитань.

Одночасно з накопиченням даних про відповіді студентів на запитання індивідуальних комплектів завдань у тестовій формі для визначення їх складності, АСТ мала змогу підраховувати частку студентів, які неправильно відповідали на дані запитання, фіксуючи номери відповідей (дистракторів), вибраних студентами. Це дало змогу після виконання студентами комплектів завдань оцінити правдоподібність дистракторів закритих запитань у тестовій формі [8]. Спеціально розроблена для цієї мети утиліта формувала вихідний файл з таблицею результатів (табл. 1), отриманих при аналізі правдоподібності дистракторів. У таблиці перший, другий і третій стовпчики містять відповідно ідентифікатор запитання в тестовій формі, загальне число та число правильних відповідей на дане запитання, а останній – номер правильної відповіді. Стовпчики з четвертого по одинадцятий містять число та відсоток студентів, які вибрали кожну з відповідей на запитання. Зірочка свідчить про число правильних відповідей на відповідне запитання.

Таблиця 1

Фрагмент вихідного файлу
з результатами аналізу правдоподібності дистракторів запитань
у тестовій формі

 Аналіз даних дозволяє говорити про якість дистракторів до кожного запитання з точки зору їх привабливості як правильних відповідей для студентів, які не знають навчального матеріалу. Наприклад, запитання № 61 (перший рядок). У ньому правильна відповідь – перша. Її вибрали 96 студентів із 180, що становить 53,33 %. Інші студенти, 84 особи, в якості правильної відповіді вибрали такі дистрактори: відповідь № 2 вибрало 30 осіб (16,67 %), № 3 – 26 осіб (14,44 %), № 4 – 28 осіб (15,56 %). Як видно, студенти, які неправильно відповіли на запитання, розподілилися між запропонованими дистракторами на запитання майже рівномірно.

По-іншому виглядає розподіл відповідей студентів на запитання № 115 і № 184. Першу відповідь на запитання № 115 (дистрактор) вибрало всього 8 студентів (4,57 %) з 114, які неправильно відповіли на запитання, а перший дистрактор запитання № 184 в якості правильної відповіді не вибрав жоден студент, що свідчить про недостатню якість відповідей як дистракторів. Таким чином, як дистрактори для подальшого використання вони непридатні, і потребують видалення або переробки. Подібні запитання були повернені на доопрацювання.

Перевірка дієздатності методу визначення складності запитань за результатами виконання студентами комплектів завдань у тестовій формі при проведенні поточного контролю навчальних досягнень виконувалася традиційним способом [6], шляхом обробки та порівняння попередньо визначених значень складності тестових запитань і середніх розподілу значень складності, отриманих при виконанні спеціального підсумкового тесту студентами Київського та Чернігівського педуніверситетів. До складу цього тесту було відібрано з банку даних 25 тестових запитань із відомою складністю, причому розподіл їх складності, як видно з гістограми розподілу (рис. 1, а), приблизно відповідав нормальному закону (суцільна крива), тобто тест був валідний за нормальним законом розподілу [6]. У таблиці 2 наведені основні статистичні характеристики запитань підсумкового тесту, отримані за допомогою спеціальних розрахунків.

Таблиця 2

Основні статистичні характеристики
тестових запитань спеціального підсумкового тесту

Позначення: N – кількість студентів, що відповіли на певне запитання; R – кількість правильних відповідей; P – складність тестового запитання; ? – стандартне відхилення; ? – стандартна похибка.

Статистичні характеристики розподілів складності тестових запитань, ? результатами виконання комплектів завдань у тестовій формі та за результатами тестувань 3-х академічних груп, які виконували цей тест у період підготовки до складання іспиту, наведені в таблиці 3.

Таблиця 3

Статистичні характеристики розподілів складності

Остаточний висновок щодо відповідності розподілу складності тестових запитань нормальному розподілу і можливості використання для порівняння розподілів середніх параметричних критеріїв (зокрема t-критерію Стьюдента) був зроблений згідно результатів, отриманих від розрахунку статистичного критерію узгодженості Колмогорова-Смірнова [1], значення якого для даного випадку дорівнює 0,468, а ймовірність того, що розподіл відповідає нормальному виду, – 0,981, що значно перевищує критичну (0,05). Аналогічно були зроблені розрахунки критеріїв узгодженості для розподілів складностей тестових запитань, розрахованих згідно результатів тестувань трьох груп. Вони склали: 0,377 і 0,999 для групи № 1, 0,378 і 0,999 для групи № 2, 0,491 і 0,969 для групи № 3. Розраховані рівні значимості критеріїв узгодженості Колмогорова-Смірнова для розподілів складностей тестових запитань, отриманих за результатами тестувань академічних груп №№ 1, 2, 3, дозволяють стверджувати, що ці розподіли статистично не відрізняються від нормального. Гістограма розподілу середньої складностей тестових запитань, у порівнянні з нормальним розподілом (плавна крива), наведена на рисунку 1б).

Порівняння середніх розподілів складностей окремих тестових запитань , підрахованих згідно результатів тестувань академічних груп зі складністю цих запитань , обчисленою відновідно попередніх тестувань, проводилось із застосуванням t-критерію Стьюдента для однієї вибірки при довірчому інтервалі 95 % та числом ступенів вільності df=n–1 [1] за такою формулою:

де n – число членів у розподілі складності тестового запитання; ? – стандартне відхилення цього розподілу.

         
а)
б)

Рис. 1. а) розподіл складності тестових запитань спеціального підсумкового тесту за результатами виконання комплектів завдань у тестовій формі;
б) – розподіл середньої складностей спеціального підсумкового тесту, визначеної за результатами виконання студентами трьох груп.

Для порівняння складностей потрібно було визначити t-критерій Стьюдента для кожного тестового запитання. Зважаючи на великий обсяг обчислень, порівняння середніх складностей тестових запитань, які отримані на основі вибірок за результатами тестувань студентів, зі складністю відповідного тестового запитання, що отримана за результатами попередніх тестувань, виконувалось за допомогою статистичного пакету SPSS-11. Для кожного тестового запитання, що ввійшли до складу тесту, при порівнянні ми отримали результати, які представлені у таблиці 4.

Таблиця 4

Результати порівняння складностей тестових запитань, визначених
за попередніми тестуваннями та результатами виконання спеціального підсумкового тесту

Колонка Sig. містить рівень достовірності критерію t-Стьюдента, який обчислювався. Про наявність достовірної статистичної різниці між значеннями складності тестових запитань P і можна говорити тільки у випадку, коли рівень Sig. менше чим 0,05. Виходячи з отриманих результатів рівнів достовірності, можна стверджувати про відсутність статистичної різниці між складністю запитань у тестовій формі P, визначеною за попередніми тестуваннями, та середньою складності тестових запитань , визначеною за результатами виконання спеціального підсумкового тесту. Кластеризовані діаграми порівняння максимальних і мінімальних значень складності тестових запитань наведені на рисунку 2.


    

   а)

б)








Рис. 2. Кластеризовані діаграми порівняння максимальних і мінімальних значень складності тестових запитань, визначених за результатами попередніх тестувань і виконання спеціального підсумкового тесту:
а) – запитання з низькою складністю;
б) – запитання з середньою складністю;
в) – запитання з високою складністю.
в)


Підсумовуючи викладене, можемо зазначити, що проведення попереднього визначення статистичних показників запитань у тестовій формі перед включенням їх до складу тестів із подальшим формуванням із них бази тестових завдань із відомими складністю та правдоподібністю дистракторів є необхідним і доцільним у період стандартизації вищої освіти України. Це дозволяє викладачам, під час проведення підсумкових тестувань уникнути процедури визначення статистичних показників тестових запитань, тим самим полегшивши й автоматизувавши сам процес оцінювання рівня навчальних досягнень студентів, одночасно забезпечивши і достовірність отриманих результатів контролю.

Література

  1. Наследов А. Д. Математические методы психологического исследования. Анализ и интерпретация данных. Учебное пособие / А. Д. Наследов. – СПб.: Речь, 2004. – 392 с.
  2. Педагогические тесты. Вопросы разработки и применения: Пособие для преподавателей / В. С. Аванесов и др. – Днепропетровск: Пороги, 2005. – 64 с.
  3. Савонова О. В. Організаційні засади підготовчого періоду поточного та підсумкового автоматизованого контролю з дисциплін оздоровчого спрямування / О. В. Савонова // Вісник Чернігівського державного педагогічного університету імені Т. Г. Шевченка. Випуск 55. Серія: педагогічні науки: Збірник. – Чернігів: ЧДПУ, 2008. № 55. С. 153–158.
  4. Савонова О. В. Розробка вимірників для моніторингу якості освіти студентів, які здобувають спеціальність «Валеологія» / О. В. Савонова // Проблеми освіти: Наук-метод. зб. / Кол. авт. – К.: Інститут інноваційних технологій і змісту освіти, 2006. – Вип. 49. – С. 160–177.
  5. Сілкова О. В. Контроль знань та вмінь у студентів вищих медичних навчальних закладів в умовах використання комп'ютерних систем: автореф. дис. на здобуття наук. ступеня канд. пед. наук: 13.00.04 / О. В. Сілкова. (АПН України; Інститут вищої освіти). – К., 2003. – 21 с.
  6. Олійник М. М. Тест як інструмент кількісної діагностики рівня знань в сучасних технологіях навчання / М. М. Олійник, Ю. А. Романенко. – Донецьк: ДонНУ, 2001. – 84 с.
  7. Фещур П. В. Статистика: Навчальний посібник / Фещур П. В., Барвінський А.Ф., Кічор В.П. (за ред. Р.В. Фещура). – Львів: „Інтелект-Захід”, 2006. – 256 с.
  8. Челышкова М. Б. Теория и практика конструирования педагогических тестов: Учебное пособие / Челышкова М. Б. – М.: Логос, 2002. – 432 с.: ил.
© О. В. Савонова, 2009.
Надійшла до редколегії 17.02.2009 р.
Рейтинг DVK WebDev разработка сайта: «DVK WebDev»