Автор работы: Пользователь скрыл имя, 20 Апреля 2013 в 18:10, курс лекций
- соответствие целей и результатов общего образования современным социальным требованиям, связанным с переходом к открытому демократическому обществу с рыночной экономикой, что требует от людей принятия самостоятельных и сознательных решений на основе освоения социального опыта, умения жить в условиях трудовой и социальной мобильности, повышения уровня толерантности;
Тест как инструмент измерения
определяется как система заданий
(в большинстве случаев
Слово «тест» в первом значении имеет научный аспект и используется учеными-тестологами, которые знают обо всех этапах разработки и применения теста, а также о теоретическом обосновании выбранных способов проверки и обработки полученных результатов в соответствии с классической теорией тестов или современной теорией тестов.
Второе значение чаще возникает в практической области: в сознании тех, кто его использует или испытуемых, которые выполняют тест. Чаще используется именно второе значение. Но при этом надо помнить, что тест как измерительный инструмент является частью научного метода измерения (тестирования, теста) и соответственно должен отвечать ряду требований по его разработке, использованию и оцениванию результатов, которые определяются научными подходами.
1.2. Отличие тестов от других форм контроля.
1. Содержание теста подвергается четкому планированию. На стадии разработки теста происходит отбор содержания, которое будет подвергаться проверке, планируется форма заданий, их количество и расположение.
2. Форма заданий. В тестах
форма заданий
3. Наличие статистических
характеристик у тестовых
4. Наличие специальных
шкал, которые соотнесены со
5. Наличие оценок точности
измерения (ошибки измерения). С
помощью статистических
Отличительные особенности теста определяют преимущества теста перед традиционными формами контроля учебных достижений: объективность, надежность, точность, экономичность измерений.
1.3. Тест, предъявляемый испытуемому,
состоит из инструкции и
Далее, после инструкции располагаются пронумерованные тестовые задания. Задания в тесте (субтесте), в соответствии с теорией тестирования, должны располагаться по нарастанию трудности, то есть в начало теста включаются легкие задания, потом более сложные.
Тест всегда сопровождается
подробной инструкцией для
2. Надёжность и валидность теста
Основными показателями качества
теста являются надежность и валидность
теста. А так как тест является
инструментом педагогического измерения,
то эти показатели имеют численное
значение и определяются с помощью
различных методов как в
Надежность - это характеристика теста, отражающая точность педагогического измерения, а также устойчивость результатов тестирования к воздействию посторонних (случайных) факторов.
Для оценки надежности нормативно-ориентированного теста используются две группы методов.
1. Двукратное тестирование:
– ретестовый метод;
– метод параллельных форм.
2. Однократное тестирование (метод расщепления теста).
Оценка надежности чаще всего строится на подсчете корреляции двух наборов результатов выполнения одного и того же теста или двух его параллельных форм. Чем выше корреляция, тем надежнее тест.
Ретестовый метод.
Данный метод оценки надежности предполагает двукратное проведение одного и того же теста в одной группе испытуемых. Повторное тестирование проводится примерно через 2-3 недели, чтобы учащиеся не слишком сильно забыли проверяемый материал и недалеко продвинулись в изучении нового, то есть уровень их учебных достижений остался примерно прежним.
Ретестовый метод основан
на подсчете корреляции индивидуальных
баллов испытуемых по результатам выполнения
первого и второго
Коэффициент надежности (коэффициент корреляции Пирсона):
-
Хорошим коэффициент надежности теста считается, когда показатель колеблется в пределах 0,8 < К < 1.
Данный метод оценки надежности не очень удобен в педагогических измерениях. Временной фактор играет большую роль: временной промежуток не может быть большим - изменится уровень учебных достижений учащихся, но и не должен быть слишком коротким - испытуемые могут помнить задания теста и ответы на них. И в том и в другом случае результаты измерения нельзя использовать для определения надежности теста.
Метод параллельных форм.
Метод параллельных форм предполагает двукратное тестирование одной и той же группы испытуемых тестами, которые идентичны по содержанию, структуре, включают задания тождественные по трудности, дифференцирующей способности и др., то есть параллельными формами теста.
Коэффициент надежности:
xi – индивидуальный балл i-ого студента при ответе на тест X
yi – индивидуальный балл i-ого студента при ответе на тест Y
N – число студентов
Главная трудность применения этого метода в том, что прежде чем использовать параллельную форму теста, разработчику надо создать новый тест, тождественный первому, и доказать идентичность, а это очень трудоемкая процедура. Поэтому этот метод, с практической точки зрения, малоэффективен.
Однократное тестирование (метод расщепления теста).
Этот метод удобен в
практическом применении, так как
ограничивается однократным тестированием.
Метод расщепления теста
Коэффициент надежности вычисляется по формуле:
, где результат первого тестирования – это результаты по нечетным заданиям, а второго – по четным заданиям.
Так как подсчет надежности (К) ведется по расщепленному тесту, который в два раза короче, то оценка надежности исходного корректируется по формуле Спирмена-Брауна
В практике педагогических измерений
часто используется способ оценки надежности
с применением формулы Кьюдера-
Рассмотренные выше методы определения
надежности подходят только для оценки
нормативно-ориентированных
Поэтому предлагается другая
методика оценки надежности. Надежность
теста, ориентированного на область
содержания, может быть измерена как
постоянство результатов
Практически это выглядит следующим образом. Группа испытуемых выполняет два идентичных теста или два теста объединяются в один, при этом вопросы перемежаются: (1 вариант – 1 вопрос, 2 вариант – 1 вопрос, 1 вариант – 2 вопрос, 2 вариант – 2 вопрос и т. д.). По итогам тестирования испытуемые делятся на две группы: получившие зачет и не получившие зачет по двум тестам (по частям расщепленного теста). Далее проводится сравнение результатов тестирования по двум вариантам или, во втором случае, по вариантам расщепленного теста. По результатам теста составляется таблица сопряжения.
Численный показатель коэффициента надежности критериально-ориентированного теста вычисляется с помощью ?-коэффициента корреляции.
Вычисляется также ?-коэффициент как показатель критериально-ориентированного теста по формуле:
? = (P - Pc)/(1 - Pc),
где P = A + D - доля испытуемых, получивших «зачет» и «незачет» и в первой, и во второй форме теста; Pc - вероятность случайного принятия согласованного решения.
Pc вычисляется по формуле:
Pc = (c + d)(d + b) + (a + b)(c + a)
Каппа-коэффициент может принимать значения от -1 до 1. Если создается тест для аттестации по итогам определенной ступени обучения, то рекомендуется вычислять ? - и ?-коэффициенты. Их величины должны быть больше 0,8 (0,85) и приблизительно равны между собой, что свидетельствует о хорошей надежности теста.
Валидность (от англ. Validity - значимость, обоснованность, пригодность) - это характеристика способности теста служить поставленной цели измерения, то есть способность теста измерять то, для чего он предназначен.
Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста (А. Анастази; А.Н. Майоров): содержательную, критериальную и конструктную (концептуальную) валидность [2].
1. Содержательная валидность
(content validity) - соответствие теста как
измерительного инструмента
Валидность по содержанию закладывается в тест уже на этапе работы со спецификацией теста и отбора его содержания. Для педагогических тестов содержательная валидность очень важна и оценивается экспертным путем.
2. Критериальная валидность
- это характеристика теста,
Критериальную валидность определяют как корреляцию результатов тестирования с некоторым внешним критерием. В качестве внешнего критерия могут браться результаты испытуемых по другому тесту, отметки, выставленные по методике традиционного оценивания. Критериальная валидность, в зависимости от выбранного критерия, может быть текущей (внешний критерий - текущие оценки) или прогностической (критерий - некоторый будущий результат).
Для оценки критериальной валидности необходимо составить таблицу с результатами тестирования и список тех же студентов с экспертной оценкой преподавателя (-ей). В качестве критерия берем оценки преподавателей при традиционной проверке знаний без использования тестов.
Формула:
sx2 – дисперсия индивидуальных баллов,
N – число студентов.
Критериальная валидность измеряется от –1 до 1, валидность более 0,3 считается удовлетворительной.
3. Конструктная (концептуальная) валидность.
Об этом виде валидности говорится в том случае, если представление об измеряемом феномене существует только в проекте и требует доказательства. Разработчик теста только предполагает о том, как будет проявляться объект измерения. Чаще всего это относится к психологическим тестам. Для педагогических тестов понятие конструктной валидности применимо в процессе разработки теста, когда его качественные и количественные характеристики еще не имеют определенных характеристик. Для выявления валидности на этапе создания теста используются методы корреляционного и факторного анализа.
3. Психологические аспекты тестирования
К человеку, проводящему тестирование, предъявляются определенные требования.
1. Отсутствие влияния
Повлиять на результаты можно различными способами. Часто педагоги даже не подозревают об этом влиянии. Например, повлиять может интонация, с которой читаются вопросы или варианты ответов (когда неосознанно выделяются голосом или произносятся в ином темпе правильные варианты), невербальные проявления (кивки головой, жесты и др.). Для того чтобы избежать влияния экспериментатора необходимо соблюдать следующие требования:
- тексты заданий или вариантов ответов не читаются вслух, а даются испытуемым в печатном виде,
Информация о работе Современные средства оценивания результатов обучения