Психометрические свойства измерительных инструментов

1.

Психометрические свойства
измерительных инструментов
1

Стандартизация измерительных инструментов
• Стандартизация – единообразие процедуры проведения и оценки
выполнения теста.
• Стандартизация процедуры - унификация инструкций, бланков, способов
регистрации результатов, условий и методов проведения обследования.
• Стандартизация оценки - определение единого критерия оценки
результатов исследования, нормативных данных, принципов интерпретации
результатов.
• Под нормой понимается обычный или средний уровень выполнения теста,
который определяется на большой репрезентативной (представительной)
выборке лиц, для работы с которыми он предназначен.
2

3.

Психометрические свойства инструмента исследования
характеризуют его качество (добротность, аутентичность) и
эффективность.
• Надёжность (релиабильность, reliability),
• Валидность (validity),
• Чувствительность,
• Репрезентативность,
• Дискриминативность и др.
3

4.

Релиабильность (надёжность, воспроизводимость)
• Надёжность - помехоустойчивость инструмента, согласованность, относительную
стабильность и независимость результатов исследования от действия всевозможных
внешних и внутренних факторов. Надёжность инструмента позволяет судить о том,
насколько внушают доверие полученные результаты.
• В психометрии термин «надёжность» по существу означает согласованность.
Надёжность - устойчивость или согласованность (consistency) результатов теста,
полученных при повторном его применении к тем же испытуемым в различные моменты
времени, при использовании разных наборов эквивалентных заданий или же при
изменении других условий обследования.
4

5.

Типы надёжности
Ретестовая надёжность (test-retest reliability).
o Заключается в повторном обследовании участников (через небольшой интервал времени) с помощью того же
инструмента и методики.
o Трактовка. Надёжность оценивают по величине внутриклассового коэффициента корреляции (ВКК) между
результатами первого и повторного обследования.
o При исследовании небольших групп рекомендуется использовать инструменты, имеющие ВКК > 0.9.
o При обследовании достаточно больших групп людей величина ВКК > 0,7 считается достаточной .
Внутриэкспертная надёжность (inter-rater reliability)
o Определяет стабильность результатов, полученных при измерении 2 или более раз одним экспериментатором
в одной и той же группе с использованием одной и той же методики и инструмента.
o Трактовка:
o при величине ВКК > 0,75 – отличная надёжность;
o ВКК от 0,74 до 0,4 – адекватная надёжность;
o ВКК < 0,40 – плохая надёжность.
Межэкспертная надёжность (inter-rater reliability)
o Определяет стабильность результатов, полученных при обследовании одной и той же группы 2-мя или более
экспериментаторами.
5

6.

Валидность (пригодность, информативность,
полезность)
• Валидность – степень точности измерения именно того параметра,
свойства, функции и т.д., для которого данный инструмент был
разработан и используется.
• Валидность теста — понятие, относящиеся к тому, что тест измеряет и
насколько хорошо он это делает. Высокая валидность указывает на то,
что тест измеряет именно то, на что направлен.
6

7.

Классификация основных типов валидности:
Конструктивная (концептуальная) (construct validity);
Критериальная (эмпирическая), empirical validity:
• Текущая (concurrent validity);
• Прогностическая (predictive validity);
Содержательная (content validity).
7

8.

Содержательная валидность (content validity)
• Содержательная валидность (т.е. валидность содержания) определяет, насколько
соответствует тест его предметной области, то есть измеряет ли он качество,
способность, состояние и т.д. для измерения которого он предназначен.
• Оценка - экспертами в предметной области теста.
• Важна при тестировании достижений в сфере функциональных возможностей (что
человек усвоил или может выполнять).
• Содержательную валидность следует отличать от очевидной валидности (face validity),
которая оценивает инструмент по тому как он, скомпонован, представлен, насколько он
выглядит убедительным и обоснованным.
8

9.

Критериальная (эмпирическая)
(criterion) validity
валидность,
empirical
• Показывает, насколько результаты теста соотносятся (коррелирует) с
определённым внешним критерием. Критериальная валидность в значительной
степени зависит от выбранного внешнего критерия.
• Методы доказательства валидности теста
• Метод контрастных групп - сравнение результатов тестирования в 2-х
контрастных группах. Например, результаты тестирования пациентов
определённой нозологической группы могут быть сравнены с результатами
группы здоровых.
• Корреляция между новым тестом и ранее доступными и валидизированными
тестами.
• В зависимости от временных соотношений между критерием и тестом различают
2 вида критериальной валидности: текущая и прогностическая.
9

10.

• Текущая критериальная валидность — корреляция результатов
тестирования с выбранным критерием, существующим в настоящее время (во
время тестирования). Например, текущая валидность шкалы спастичности
может оцениваться по величине корреляции суммарного балла этой шкалы с
результатами соответствующих клинических исследований пациента.
• Прогностическая критериальная валидность — корреляция результатов
тестирования с критерием, который появится в будущем, т.е. информация по
внешнему критерию собирается через некоторое время, после проведения
тестирования. Например, прогностическая валидность теста на способность
пациента, находящегося в стационаре, к самообслуживанию может
заключается в том, насколько точно этот тест прогнозирует независимость
пациента в повседневной жизни после выписки.
Оценка критериальнойя валидности: отличная при величине
коэффициента корреляции более 0,6; хорошая – 0,31-0,59; плохая – менее 0,3
10

11.

Конструктивная (концептуальная) валидность (construct validity)
• Показывает «насколько его результаты теста могут рассматриваться в качестве меры некоего
теоретического конструкта или свойства. Примеры - нейротицизм, тревожность, качество
жизни, независимость в повседневной жизни и т.д.
• Оценка
o Метод экспертных оценок.
o Метод корреляции между новым тестом и аналогичным ему апробированным тестом,
«золотым стандартом».
• Компоненты
o Конвергентная валидность характеризует степень связи (корреляцию) проверяемого
инструмента с концептуально близкими тестами (с которыми он должен коррелировать на
высоком уровне значимости).
o Дискриминативная валидность характеризует степень связи инструмента с тестами, с
которыми он не должен в принципе коррелировать или коррелировать на низком уровне
значимости, т.е. с тестами, имеющими другое теоретическое обоснование.
11

12.

Внутренняя согласованность инструмента
• Относится к нескольким видам валидности.
• Показывает насколько каждое задание шкалы или опросника
дифференцируется респондентов в том же направлении, что и тест в
целом). Иными словами внутренняя согласованность инструмента
характеризует степень с которой различные части теста или другого
инструмента измеряют те же самые переменные.
• Оценивается по величине коэффициеента альфа Кронбаха:
o отличная – Кронбах альфа более 0,8;
o адекватная – от 0,7 до 0,8;
o плохая – менее 0,7
12

13.

Чувствительность (сенситивность) инструмента
• Означает пригодность теста для оценки динамики показателя, свойства,
состояния и т.п., например в ходе лечения или физической реабилитации.
• Инструменты, используемые для оценки эффективности вмешательств,
должны обладать высокой чувствительностью.
• Оценка - t-критерий Стьюдента для зависимых выборок (в случае
нормального распределения результатов измерений).
13

14.

• Факторы влияющие на чувствительность инструмента
o Шаг шкалы. Шкалы с большим шагом (небольшое количества классов или
градаций) менее чувствительны, чем шкалы с маленьким шагом (большое
количество градаций).
o «Эффект пола» и «эффект потолка».
«Эффект потолка» наблюдается в случае если максимальный балл пациента
выше максимального балла шкалы, т.е., возможность, качество и т.п. пациента в
начале или в конце исследования превышают возможности шкалы для
измерения.
«Эффект пола» наблюдается в противоположном случае, если минимальный
балл шкалы, выше, чем минимальный балл пациента.
Шкалы имеющие «эффект пола» и «эффект потолка» могут обладать низкой
чувствительностью у пациентов с хорошо с незначительными или очень
существенными нарушениями структуры или функции. При величине эффекта
менее 20% (процент участников с очень низким или очень высоким значением
показателя) - чувствительность считается адекватной, а выше 20% - плохой.
14

15.

Другие статистические характеристики
инструментов исследования
15

16.

Минимальное определяемое изменение, МОИ (Minimal Detectable
Change, MDC)
• МОИ является статистической мерой минимальной величины изменения
анализируемого параметра, балла шкалы или опросника и т.п., которое является
истинным, т.е. которое гарантирует, что данное изменение возникло не в
результате ошибки измерения.
o Например, МОИ значения шкалы баланса Берга у пожилых людей равно 4
балла. Это означает, что необходимо изменение в 4 балла и более, чтобы быть
уверенным, что изменение является истинным.
• МОИ является статистической величиной и может быть рассчитано несколькими
методами. Например, МОИ может быть определено с помощью формулы: МОИ =
1,96 * SEM * √2, где SEM – стандартная ошибка средней величины.
16

17.

Минимальная клинически значимая разница, МКЗР
(Minimal Clinically Important Difference, MCID)
• Даже малые различия средних значений анализируемых параметров (например, до и после
реабилитации) могут быть статистически значимыми при исследовании больших выборок
пациентов. Это не означает, что данное различие замечается пациентом или врачом или
воспринимается как имеющие значение.
• МКЗР – минимальная величина изменения балла или параметра, измеряемого инструментом
исследования (минимальное различие), которое воспринимается
пациентом, врачом,
реабилитологом значимым (благоприятным). Другими словами, при достижении МКЗР пациент
(врач и т.д.) замечает изменение (улучшение). Например, для опросников качества жизни,
значения шкал которых варьируют от 0 до 100 баллов, клинически значимыми считаются
изменения, равные или превышающие 10 баллов за период не менее 4 недель.
17

18.

Правила выбора измерительного
инструмента
18

19.

Аспекты исследования, необходимые учитывать при
выборе измерительного инструмента
Объект, предмет, цель и задачи измерения;
Свойства самого инструмента исследования;
Удобство применения инструмента в
конкретной ситуации.
19

20.

Объект, предмет, цель и задачи измерения
• Объектом измерения (как и исследования в целом) в ФР являются люди (пациенты, лица с ОВЗ).
o Объект влияет на выбор измерительного инструмента. Пример - тесты, разработанные для
взрослых, неприемлемы для детей.
• Предмет измерения в ФР выбирается на основе МКФ.
o Выбор предмета направлен на определение конкретных последствий заболевания, травмы или
врождённого дефекта: структуры и функции организма, активность, участие, качество жизни.
o Выбор предмета зависит от стадии заболевания и этапа реабилитации. Например, в острую
стадию целесообразно измерение степени повреждений структур и функций организма, а на
более поздних этапах – оценка активности и участия, качества жизни, связанного со здоровьем.
• Цель и задачи измерения включают, но не ограничиваются
o исследованием исходного статуса пациента, оценкой динамики функционального состояния
пациента, эффективности реабилитационных мероприятий, оценки уровня реабилитационной
помощи в конкретном учреждении, прогнозирования состояния, возможностей реабилитанта и
т.д.
o Учитывая комплексный характер ФР, необходимо подбирать инструменты, оценивающие
эффективность различных аспектов реабилитации.
20

21.

Свойства инструмента исследования
Назначение инструмента
Категория обследуемых для которых он предназначен
Выводы, которое тестирование позволяет сделать.
Психометрические свойства
Доступность, апробированность, наличие унифицированных возрастнополовых норм для оценки результатов и руководства по применению теста.
Русские версии зарубежных тестов должны быть валидизированы.
Тип измерительной шкалы(номинальная, порядковая, интервальная,
абсолютная). От типа шкалы зависит возможность применения различных
видов статистического анализа.
21

22.

Удобство применения инструмента
в конкретной ситуации
Возможность проведения исследования
в конкретных условиях (стационар,
поликлиника, реабилитационный центр и
т.д.).
Время, необходимое для проведения
исследования, стоимость теста,
необходимость обучения исследуемого.
22

23.

Дополнительные требования к подбору и применению
измерительных инструментов
Соблюдение требований биомедицинской этики. Наличие
информированного согласия на участие в исследовании.
Гомогенность выборки - исследуемая группа должна быть однородна по
возрастно-половому составу, нозологическому диагнозу, функциональному
состоянию и т.д.
Статистическая обоснованность объёма выборки. При маленьких
выборках невозможно использование многих информативных статистических
методов обработки результатов исследования.
Репрезентативность исследуемой выборки
23

English Русский Rules