Similar presentations:
Эмпирическое исследование в педагогике: особенности количественных методов, уровни измерения или шкалы
1. Эмпирическое исследование в педагогике: особенности количественных методов, уровни измерения или шкалы
Матюшкина М.Д., д.п.н.,зав.кафедрой социальнопедагогических измерений СПб АППО
2. Измерения в педагогике
• Измерение – процедура сравнения 2-хобъектов, когда 1 выступает в роли эталона.
• Специфика педагогических измерений:
дискуссионность самого понятия
измерения – проблема эталона
• Количественные методы оперируют
идеализированными объектами
3. Специфика количественных методов
Необходимость репрезентатиной выборки
Проблема объема выборки
Ошибки выборки
Возможность измерений разного уровня
Проблема ошибок измерений
Валидность измерений
Надежность измерений
4. Репрезентативность - генерализуемость
Репрезентативность генерализуемость• По способу формирования выборки делятся
на:
– Случайные
– Экспертные
– Квотные
• На необходимый объем выборки влияют:
– Гомогенность
– «Размерность объекта исследования»
– Требуемая точность
5. Об объеме выборок
Необходимые объемы выборокдля различных допустимых процентов ошибки выборки
Допустимый процент Степень уверенности:
ошибки выборки:
95%
99%
±1%
10 000
22 500
±2%
2 500
5 625
±3%
1 111
2 500
±4%
625
1 406
±5%
400
900
±10%
100
–
6. Измерение
• Измерение — это процедура, с помощьюкоторой измеряемый объект сравнивается с
некоторым эталоном и получает числовое
выражение в определенном масштабе или
шкале
• Процедуры измерения – средства
категоризации и упорядочивания явлений.
Одни дают выявить более тонкие и детальные
различия, чем другие.
• Понятия уровня измерений и измерительной
шкалы
7. Шкалы (по возрастанию «силы»), соответствующие разным уровням измерения
• Номинальная (шкала наименований)• Порядковая (частный случай – ранговая)
• Интервальная (метрическая шкала равных
интервалов)
• Пропорциональная ( шкала отношений,
идеальная метрическая)
8. Номинальное измерение (номинальная шкала)
• Номинальная шкала устанавливает отношенияравенства между явлениями, которые
включены в один класс
• Пункты шкалы — эталоны качественной
классификации свойств. Полезны, если они
взаимоисключающие и исчерпывающие
• Примеры: ?
• Лед – вода – пар
• Пол / Гендер
9. Номинальная шкала
• Пример1. Группировка по перечню профессий• Пример2. Группировка по мотивам увольнения с работы
10. Номинальная шкала
• Все элементы должны иметь единое основание длявыделения
• Отношения равенства между явлениями, которые включены
в один класс
Операции с числами для номинальной шкалы :
• Нахождение частот распределения по пунктам шкалы с
помощью процентирования
• Поиск средней тенденции по модальной частоте (Mo)
11. Номинальная шкала
12. Номинальная шкала
• Установление взаимосвязи между рядами свойств, расположенныхнеупорядоченно, в данном случае является самым сильным способом
количественного анализа.
• С этой целью составляют перекрестные таблицы.
• Критерий сопряженности признаков по Пирсону: хи-квадрат —
простейший показатель обоснованности вывода о наличии или отсутствии
связи между сопоставляемыми характеристиками, т. е. связанности
качественных классификаций.
13. Порядковая и ранговая шкала
• Порядковая (полностью упорядоченная) шкаланаименований устанавливает отношения равенства между
явлениями в каждом классе и отношения
последовательности в понятиях ">" и "<" между всеми без
исключения классами
• «вполне согласен», «пожалуй, согласен», «затрудняюсь
ответить», «пожалуй, не согласен», «совершенно не
согласен»
• Шкала Мооса, шкала Рихтера
• Ранговая шкала (разновидность порядковой)
предполагает полное упорядочение каких-то объектов от
наиболее к наименее важному, значимому,
предпочитаемому
14. Разновидности порядкового шкалирования
• ранжирование (в ряд, может быть перевернут)• группировка (ранжирование по группам)
• парное сравнение
• метод рейтинга
• метод полярных профилей
(можно использовать при разных методах сбора
информации – анкетировании, интервью,
наблюдении и др.)
15. Ранжирование методом парных сравнений
ПетровИванов
-
1
1
2
Петров
1
-
2
3
Сидоров
1
0
-
1
(ранг)
Иванов
Сидоров
Общий балл
Ранжирование методом парных
сравнений
16. Рейтинг Метод полярных профилей
• Рейтинг. В этом приеме оценка объекта производится путемусреднения оценочных суждений группы компетентных экспертов.
Имея общие критерии оценки (в порядковой шкале, в баллах),
эксперты независимо друг от друга (в устной или письменной форме)
выносят свои суждения. Усредненный результат экспертной оценки
является достаточно объективным и иногда называется рейтингом.
• Метод полярных профилей. Этот прием предполагает применение
для оценки условной шкалы, крайними точными которой являются
противоположные значения признака (например, добрый - злой,
теплый - холодный и т. п.). Промежуток между полюсами делится на
произвольное количество частей (баллов).
Пример. Оценка различных качеств учителя учениками дается в
полярной шкале:
(Строгий) 10 - 9 - 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 (Совсем не строгий)
17. Порядковая шкала
Операции с числами для порядковой шкалы следующие:• Числа поддаются монотонным преобразованиям: их можно
заменить другими с сохранением прежнего порядка
• Возможен поиск средней тенденции с помощью медианы
(Me), которая делит ранжированный ряд пополам
• Наиболее сильный показатель для ранговых (порядковых)
шкал — корреляция рангов (по Спирмену или по Кендаллу).
18. Интервальная шкала
• Это полностью упорядоченный ряд с одинаковымиинтервалами между пунктами, причем отсчет начинается с
произвольно избранной величины (нет «естественного нуля» на
шкале)
• Возраст, доход, …
До 20
лет
21-24
лет
25-30
лет
31-40
лет
41-50
лет
51-60
лет
Свыше
60 лет
1
2
3
4
5
6
7
• Операции с числами в интервальной метрической шкале
допускают линейные преобразования: у=ах+b. Можно
использовать коэффициент корреляции по Пирсону
• Псевдометрические шкалы: балльные оценки, «Термометр
общественного мнения» и т.п.- это по сути ранговые шкалы.
Интервалы между «2», «3», «4» - на самом деле не равны!!!
19. Псевдометрические шкалы
• Можно ли назвать корректным, например,утверждение о том, что знания учащихся в
экспериментальных классах в среднем на 0,5
балла выше, чем в контрольных?
• Пример «странного» изменения результата:
Баллы:
1 группа
80 чел.
2 группа
80 чел.
10
20
9
0
8
30
7
0
6
20
5
0
4
10
3
0
2
0
1
0
Среднее
7,5
0
30
0
30
0
20
0
0
0
0
7,25
1 группа
5
20
4
30
3
20
2
10
1
0
Среднее
3,75
2 группа
30
30
20
0
0
4,125
20. Шкала пропорциональных оценок (идеальная метрическая)
• Отсчет в этой шкале начинается не спроизвольной точки, а с экспериментально
установленного нулевого пункта
• Примеры: количество действий, ошибок,
продуктов, протяженность во времени или
пространстве и т.п.
• Возможны все операции с числами
21. Поиск эталона измерения или конструирование шкалы
Нахождение эталона измерения осуществляется в четыре стадии:1
Качественная классификация свойств
объекта
2
Поиск протяженности выделенных в
качественном анализе свойств
3
Установление эмпирических индикаторов
4
Проверка шкалы на применимость ко всем
единицам измеряемого объекта
22. Первая стадия — качественная классификация свойств объекта
Пример: Измеритьориентаций личности
Собираясь
измерить
структуру
ценностных ориентаций или социальных
установок личности, мы прежде всего
должны четко классифицировать типы
ориентации, исходя из теоретической
концепции и задач исследования
Можно
положить
в
основу
классификации иерархию потребностей или
интересов, сфер деятельности, социальные
функции, социальные ситуации, которые бы
различались по степени свободы выбора
целей и средств деятельности и т. д.
структуру
ценностных
Теоретическая
концепция
Задачи
исследования
Основа для
для классификации:
классификации:
Основа
Социальные
функции
Иерархия
Сферы
деятельности
потребностей
Цель первой стадии:
Цель
стадии:
Классификация типов
Классификация
типов
ориентаций личности
личности
ориентаций
23. Вторая стадия — поиск протяженности
Следует установить, обладают ли эти свойства прерывной илинепрерывной протяженностью, можно ли их представить в виде
различных последовательных состояний измеряемого качества.
Рассмотрим с этой точки зрения какую-нибудь ценностную
ориентацию (на материальный достаток, культурные ценности,
творчество и др.). Ее можно "вытянуть" в несколько протяженностей —
континуумов.
сильная—средняя—слабая
устойчивая—малоустойчивая— неустойчивая
господствующая—рядоположенная—подавленная
центральная или периферийная
В зависимости от концепции исследования можно выделить и
другие протяженности.
24. Третья стадия — установление эмпирических индикаторов или внешних признаков тех свойств объекта, которые поддаются расположению
в континуумИндикатор — внешне хорошо различимый показатель
измеряемого признака. С его помощью устанавливается
наличие или отсутствие признака, его состояние.
Например, высота ртутного столбика
термометра
—
индикатор
температуры.
25. Построение индикатора путем ранжирования
Простейший индикатор расположения какого-то объекта средидругих объектов ориентации — порядковое место, отмечаемое
опрашиваемым в заданном списке.
Например, из 18 объектов он помечает объект М порядковым
номером 1. Этот номер — индикатор доминирования объекта М с точки
зрения интересов субъекта (господствующая ориентация). Объект N,
помеченный порядковым номером 18, будет располагаться в конце
протяженности ("подавленная ориентация на N ").
Индикатор - порядковое место
A
B
C
D
E
F
5
13 9
6
16 2
G
H
I
J
K
L
M
10 8
4
17 12 14 1
N
O
18 7
P
Q
R
16 11
3
26. Использование метода выбора в нескольких ситуациях
Сложнее найти индикатор для протяженности по критерию"сильные", "средние", "слабые" ориентации. Один из возможных
вариантов таков.
Испытуемым предлагают три ситуации, различающиеся по степени
свободы выбора.
В первой ситуации (широкий диапазон выбора) испытуемый
выбирает без ограничения. Во второй ситуации (средний диапазон
выбора) он оставляет в списке лишь шесть наиболее важных объектов, в
третьем случае (узкий диапазон) — не более трех, для него особенно
значимых.
Объекты
A B C D E
F
Ситуация 1
V
V
V V
V
V
Ситуация 2
V
V V
V
V
Ситуация 3
V
V
Сильные: C, F, M.
G H I
J
Средние: G, I, R.
K L
M N O P
V
V
Слабые: A, P.
Q R
V
V
27. Сложное первичное измерение - индекс
Сложное первичное измерение индексПример: шкала Лайкерта.
Отношение к детям. 8-12 суждений
Суждение
1 Дети радуют родителей
2 Дети отнимают много
времени
3 За ними приятно
наблюдать
4 Они часто раздражают
5 Дети утешают в
неприятностях
6 ...
Считается сумма баллов
Согласен
3
1
Трудно
сказать
2
2
Не
согласен
1
3
3
2
1
1
3
2
2
3
1
28. Четвертая стадия — проверка шкалы на применимость ко всем единицам измеряемого объекта
Пример.Для исследования отношения рабочих к труду был взят в качестве
индикатора показатель нормы выработки (значительно перевыполняет
норму — перевыполняет — выполняет — не выполняет норму).
Вопрос: он применим ко всем рабочим? Труд некоторых рабочих
оценивается по другим показателям: качеству работы прежде всего.
Например, чем меньше времени тратит ремонтник на устранение
текущих неполадок, тем выше качество профилактического ремонта.
29. Ошибки измерений
• Ошибки – случайные и систематические• Возможные причины ошибок (при опросе):
– Ответы зависят от интеллектуального уровня,
от уровня знаний
– Ответы зависят от настроения
– Неоднозначность восприятия вопросов
– Различия в условиях проведения опроса
– Ошибки в инструкциях
– Ошибки при кодировке, при вводе в компьютер
30. Валидность
• Термин валидность используется дляобозначения степени соответствия
измерений понятиям, которые эти
измерения должны отражать
(действительно ли мы измеряем то, что
предполагали измерять)
• Чтобы быть валидным, измерение должно
быть исчерпывающим и полным
31. Проверки измерений (показателей) на валидность
• Необходим тщательный логический анализальтернативных операционализаций понятий, анализ
объекта исследования
• Проверить валидность наших измерений для
определения того, хороши ли они, можно лишь после
того, как собраны данные
– Сверить с результатами, полученными путем
использования другого показателя, признанного в
качестве валидного измерения соответствующего
понятия
– Сверить прогнозируемые результаты с реально
наступившими
• Убедить профессионалов, что это валидный
показатель
32. Способы повышения обоснованности (валидность) измерения
1) Наиболее простой способ — логические рассуждения наоснове опыта и здравого смысла.
2) Тест по «эталонной группе» – более сильный прием
проверки инструмента на обоснованность. Смысл проверки — в
сопоставлении данных, полученных путем измерения по шкале, с
достоверными сведениями об объекте измерения.
3) Поиск независимого критерия как разновидность внешнего
контроля надежности для измерения того же самого объекта или
свойства.
4) Использование метода судей для отбора пунктов шкалы.
5) Построение индекса - совмещение нескольких показателей
для регистрации определенного одного свойства.
33. Устойчивость
• Устойчивость - воспроизводимостьрезультатов при повторном наблюдении или
на другой аналогичной выборке
• Проверка на устойчивость:
– Неоднократным тестированием инструмента на 1
группе
– Тестированием на разных группах
– Методом подвыборки
34. Точность и правильность
Точность и правильность измерения зависят от (а)степени устойчивости измеряемого объекта или
свойства, (б) чувствительности эталона измерения
(дробности
пунктов
шкалы),
(в)
отсутствия
систематических ошибок измерения и (г) от
устойчивости измерения.
Дробность метрики — чувствительность шкалы —
прямо связана с точностью измерения.
Шкала в 10 делений измеряет точнее, чем в 5. Но
дробность пунктов шкалы нельзя увеличивать беспредельно.
Надо установить оптимум, удовлетворяющий двум
требованиям: максимум градаций шкалы при условии
высокой устойчивости результатов измерения.
35. Точность и правильность
Измерение может быть вполне точным и вместе с темнеправильным, постоянно воспроизводя какую-то систематическую
ошибку.
Типичная ситуация — какие-то пункты «не работают». Например,
при опросе все ответы концентрируются в позитивном или только в
негативном полюсе шкалы. Шкала неудачна, если содержит пункты,
сформулированные с сильным нормативным давлением на
опрашиваемых. Например, может «не работать» крайне отрицательный
пункт шкалы: он отпугивает. Вследствие этого шкала неправильна.
Другой причиной неправильности может быть плохая
различительная способность соседних пунктов шкалы высокой
дробности. «Срединная» часть такой шкалы будет крайне
сомнительной, а вся шкала неточной и неправильной.
36. Измерительная процедура проверяется на надежность
Критерийнадежности
Обоснованность
(валидность)
Существо данного критерия
Способы проверки надежности
шкалы по данному критерию
Уверенность
в
том,
что 1)
фиксируется
запланированное 2)
свойство, а не какое-либо иное
3)
4)
5)
Устойчивость
Однозначность,
повторяемость 1)
результатов
измерения
с 2)
минимальной ошибкой
3)
Точность и
правильность
Достаточная
чувствительность 1)
шкалы как оптимальная дробность,
дающая устойчивое измерение без 2)
систематических погрешностей
3)
логические рассуждения,
тест по эталонной группе,
поиск независимого
критерия,
метод судей,
построение индекса
повторное измерение,
использование нескольких
лиц для измерения данного
свойства,
«расщепление шкалы»
устранение явных
погрешностей,
выявление работающей части
шкалы,
испытание нескольких шкал
разной дробности.
37. О восприятии шкал
• Давать или не давать словесныенаименования каждому элементу шкалы
• Выбор длины шкалы
• Насколько конкретный респондент
способен воспринять шкалу – возможно,
что он будет огрублять шкалу
• Лучше опираться на достоверные и менее
детальные сведения, чем на детальные и
малодостоверные
38. Предварительная работа при построении шкал
• Насколько тонко требуется оценить то или иноесобытие, отношение или процесс - возможно
исследователю и не требуется слишком большая
точность?
• Насколько содержательно данное явление, чтобы
изучать его по дробной шкале. Насколько обоснованно
сущностью изучаемого явления применение длинных
шкал?
• Сможет ли респондент воспринять дробную шкалу?
Насколько он восприимчив к данному явлению,
насколько информирован, представляет ли оно интерес
для респондента, каков порог его чувствительности?
39. О векторных («комплексных») оценках
• Когда возможно оценивание по сумме очков,баллов? Практика оценки на педагогическую
категорию, на конкурсах и т.д. Не наука!!!
• Допустимо - суммарные затраты времени на
выполнение учащимися отдельных заданий,
или суммарное количество ошибок,
допущенных учащимися при выполнении
отдельных, относительно однородных заданий
• Суммирование отметок – уже не строго
• Лучше не использовать суммы и другие
формулы
40. Шкалы и статистические критерии
ШкалаКритерий
Шкала
распределение
отношений или близко к
интервалов
нормальному
(среднее = мода =
медиана)
t-критерий Стьюдента или F-критерий
Фишера
Не нормальное
распределение
Критерий
хи-квадрат
Интервальная
шкала
Коэф. парной корреляции Пирсона,
Коэффициенты множественной
корреляции
Шкала порядка
Непараметрические критерии:
критерий знаков, критерий
Уилкоксона—Мана—Унтни,
Колмогорова—Смирнова и др.
Коэф. ранговой корреляции Спирмена
41. Вопросы:
В какой шкале представлено каждое из приведенныхниже измерений:
1. Порядковый номер испытуемого в списке.
2. Количество вопросов в анкете как мера
трудоемкости опроса.
3. Упорядочивание испытуемых по времени решения
тестовой задачи.
4. Академический статус (ассистент, доцент,
профессор) как указание на принадлежность к
соответствующей категории.
5. Академический статус (ассистент, доцент,
профессор) как мера продвижения по службе.