Similar presentations:
Многомерные статистические методы. Лекция 1
1. Лекция 1
2. Многомерные статистические методы .
3.
Прикладная статистика.Прикладная
статистика
определяется
как
самостоятельная
научная
дисциплина,
разрабатывающая и систематизирующая понятия,
приемы,
математические
методы
и
модели,
предназначенные для организации сбора, стандартной
записи, систематизации и обработки статистических
данных с целью их удобного представления, анализа,
интерпретации результатов, и получения научных и
практических выводов.
Под методами прикладной статистики предлагается
понимать те методы статистической обработки
исходных данных, разработка и использование
которых апеллируют к вероятностной природе этих
данных. Эти методы предусматривают возможность
вероятностной
интерпретации
обрабатываемых
данных и полученных в результате обработки
статистических выводов.
4.
Условно выделены три центральные проблемыприкладной статистики:
– статистическое исследование структуры и характера
взаимосвязей, существующих между анализируемыми
количественными переменными;
– разработка статистических методов классификации
объектов и признаков;
– снижение размерности исследуемого признакового
пространства с целью лаконичного объяснения
природы анализируемых многомерных данных.
Объектом исследования в прикладной статистике
являются статистические данные –совокупность
объектов (наблюдений, случаев) и признаков
(переменных) их характеризующих, полученные в
результате наблюдений или экспериментов.
5.
Например, объекты исследования – страны мира ипризнаки, – географические и экономические
показатели их характеризующие:
континент;
высота местности над уровнем моря;
среднегодовая температура;
место страны в списке по качеству жизни, доли
ВВП на душу населения;
расходы
общества
на
здравоохранение,
образование, армию;
средняя продолжительность жизни;
доля безработицы, безграмотных;
индекс качества жизни и т.д.
6.
Переменные.Переменные – это величины, которые в результате
измерения могут принимать различные значения.
Независимые переменные – это переменные,
значения которых в процессе эксперимента можно
изменять, а зависимые переменные – это переменные,
значения которых можно только измерять.
Переменные могут быть измерены в различных
шкалах.
Различие
шкал
определяется
их
информативностью. Рассматривают следующие типы
шкал, представленные в порядке возрастания их
информативности:
номинальная,
порядковая,
интервальная, шкала отношений, абсолютная. Эти
шкалы отличаются друг от друга также и количеством
допустимых
математических
действий.
Самая
«бедная» шкала – номинальная, так как не определена
ни одна арифметическая операция, самая «богатая» –
абсолютная.
7.
Измерение в номинальной (классификационной)шкале означает определение принадлежности объекта
(наблюдения) к тому или иному классу. Например:
пол, род войск, профессия, континент и т.д. Часто
номинальные переменные называют категориальными,
или группирующими, так как они позволяют
произвести разделение объектов исследования на
подгруппы (подклассы). В этой шкале можно лишь
посчитать количество объектов в классах – частоту и
относительную частоту.
Измерение в порядковой (ранговой) шкале, помимо
определения класса принадлежности, позволяет
упорядочить наблюдения, сравнив их между собой в
каком-то отношении. Однако эта шкала не определяет
дистанцию между классами, а только то, какое из двух
наблюдений предпочтительнее. Поэтому порядковые
экспериментальные
данные,
даже
если
они
изображены цифрами, нельзя рассматривать как числа
и выполнять над ними арифметические операции.
8.
В этой шкале дополнительно к подсчету частотыобъекта можно вычислить ранг объекта. Примеры
переменных, измеренных в порядковой шкале:
бальные оценки учащихся, призовые места на
соревнованиях, воинские звания, место страны в
списке по качеству жизни и т.д.
При
измерении
в
интервальной
шкале
упорядочивание наблюдений можно выполнить
настолько точно, что известны расстояния между
любыми двумя из них. Шкала интервалов единственна
с точностью до линейных преобразований (y=ax+b).
Это означает, что шкала имеет произвольную точку
отсчета – абсолютный нуль. Примеры переменных,
измеренных в интервальной шкале: температура,
время, высота местности над уровнем моря.
9.
Над переменными в данной шкале можно выполнятьоперацию
определения
расстояния
между
наблюдениями. Расстояния являются полноправными
числами и над ними можно выполнять любые
арифметические операции.
Шкала отношений похожа на интервальную шкалу,
но она единственна с точностью до преобразования
вида y=ax. Это означает, что шкала имеет
фиксированную точку отсчета – абсолютный нуль, но
произвольный
масштаб
измерения.
Примеры
переменных, измеренных в шкале отношений: длина,
вес, сила тока, количество денег, расходы общества на
здравоохранение, образование, армию, средняя
продолжительность жизни и т.д. Измерения в этой
шкале – полноправные числа и над ними можно
выполнять любые арифметические действия.
10.
Абсолютная шкала имеет и абсолютный ноль, иабсолютную единицу измерения (масштаб). Примером
абсолютной шкалы является числовая прямая. Эта
шкала безразмерна, поэтому измерения в ней могут
быть использованы в качестве показателя степени или
основания логарифма. Примеры измерений в
абсолютной шкале: доля безработицы; доля
безграмотных, индекс качества жизни и т.д.
Каждая
измерительная
шкала
имеет
соответствующую ей оценку среднего и разброса
случайной величины. Так, например, в качестве
оценки
среднего
для
шкалы
наименований
целесообразно использовать моду – значение
случайной величины, имеющее наибольшую частоту;
для порядковой шкалы целесообразно использовать
медиану – значение случайной величины, находящейся
в середине несгруппированного вариационного ряда;
для более сильных шкал – среднее арифметическое.
11.
Вообще говоря, конечная цель всякого исследованияили научного анализа состоит в нахождении связей
(зависимостей) между переменными. Философия науки
учит, что не существует иного способа представления
знания, кроме как в терминах зависимостей между
количествами или качествами, выраженными какими-либо
переменными. Таким образом, развитие науки всегда
заключается в нахождении новых связей между
переменными.
Под многомерным признаком понимается p-мерный
вектор Х=(х1,х2,…,хр) показателей (признаков, переменных)
х1,х2,…,хр, среди которых могут быть количественные,
скалярно измеряющие в определенной шкале степень
проявления изучаемого свойства объекта; порядковые (или
ординальные),
т.е.
позволяющие
упорядочить
анализируемые объекты по степени проявления в них
изучаемого свойства; классификационные
12.
Многомерный статистический анализ даетвозможность получить общие выводы относительно
всей совокупности многомерных данных. Учитывая
также и то, что анализируемые данные являются
стохастическими, т.е. ограниченными и неполными,
использование
методов
многомерного
анализа
является не только оправданным, но и существенно
необходимым.
Только
статистическими
методами
можно
установить тесноту и характер взаимосвязей
различных переменных и степень их воздействия на
интересующий исследователя результат. В таких
исследованиях широко используются процедуры
множественной регрессии.
13.
Регрессионный анализ тесно связан с другимистатистическими
методами
–
методами
множественного корреляционного и дисперсионного
анализа. В отличие от корреляционного анализа,
исследующего направление и силу статистической
связи переменных, регрессионный исследует вид
зависимости переменных, т.е. математические модели
зависимости количественной или качественной
переменной от одной или нескольких других
переменных. В дисперсионном анализе исследуется
зависимость количественной переменной от одной или
нескольких качественных переменных.
Канонический анализ является обобщением
множественного корреляционного анализа как меры
взаимосвязи одной переменной с множеством других
переменных. Канонический анализ необходим, если
имеются две совокупности переменных и необходимо
определить взаимосвязь между ними.
14.
В методах классификационного анализа с обучениеми без обучения исследуется взаимосвязь между одной
качественной
переменной
и
совокупностью
количественных переменных. Дискриминантный
анализ и деревья классификации – это методы,
позволяющие
предсказывать
принадлежность
объектов к тому или иному классу категориальной
зависимой
переменной
в
зависимости
от
соответствующих значений одной или нескольких
независимых переменных. Кластерный анализ
позволяет
произвести
разбиение
множества
исследуемых объектов и признаков на однородные в
некотором смысле группы, или кластеры.
15.
Главными целями методов факторного анализа ианализа главных компонент и классификации
являются
сокращение
числа
переменных
и
определение структуры взаимосвязей между ними.
Сокращение достигается посредством выделения
скрытых общих факторов, объясняющих связи между
наблюдаемыми признаками объекта, т.е. вместо
исходного набора переменных анализируются данные
по выделенным факторам, число которых значительно
меньше исходного числа признаков.
16.
Многомерное шкалирование можно рассматриватьв качестве альтернативы факторного анализа.
Основное
предположение
многомерного
шкалирования заключается в том, что есть некоторое
метрическое пространство существенных базовых
характеристик и объекты можно представить как
точки в этом пространстве. Предполагают, что более
близким
(по
исходной
матрице)
объектам
соответствуют меньшие расстояния в пространстве
базовых характеристик. Следовательно, многомерное
шкалирование – это совокупность методов, с помощью
которых определяется размерность пространства
базовых характеристик объектов и конструируется
конфигурация объектов в этом пространстве. Это
пространство (многомерная шкала) аналогично
обычно используемым шкалам в том смысле, что
значениям
базовых
характеристик
объектов
соответствуют определенные значения на осях
пространства.
17.
Анализ соответствий содержит описательные иразведочные методы анализа двухвходовых и
многовходовых таблиц. Эти методы по своей природе
похожи на методы факторного анализа и позволяют
исследовать структуру группирующих переменных,
включенных в таблицу частот сопряженности. Одна из
целей анализа соответствий – представление
содержимого таблицы относительных частот в виде
расстояний между отдельными строками и/или
столбцами таблицы в пространстве возможно более
низкой размерности.
Вычислительные
процедуры
прикладного
статистического
анализа
являются
достаточно
трудоемкими при их реализации. Особенно актуальной
проблема трудоемкости становится при многомерном
анализе данных. Поэтому эффективная, грамотная,
всесторонняя статистическая обработка данных даже
небольшого объема практически невозможна без
использования вычислительной техники.
18.
В настоящее время новый импульс развития ииспользования получили компьютерные технологии
обработки и анализа данных. Разработка собственных
компьютерных программ не всегда целесообразна, так
как большой сегмент рынка прикладных программ
занимают пакеты по статистической обработке
данных. Это профессиональные пакеты (SAS, BMDP),
универсальные
пакеты
(STADIA,
OLIMP,
STATGRAPHICS,
SPSS,
STATISTICA,
…),
специализированные
(BIOSTAT,
MESOSAUR,
DATASCOPE, …). Благодаря деятельности корпорации
Софтлайн,
являющейся
дилером
компании
производителя StatSoft (USA), одним из наиболее
известных в России пакетов для прикладного
статистического анализа данных является пакет
STATISTICA.
19.
ПППSTATISTICA
–
это
универсальная
интегрированная система, предназначенная для
статистического анализа и обработки данных.
Содержит многофункциональную систему для работы
с данными, широкий набор статистических модулей, в
которых собраны группы логически связанных между
собой
статистических
процедур,
специальный
инструментарий для подготовки отчетов, мощную
графическую систему для визуализации данных,
систему обмена данными с другими Windowsприложениями.
С помощью реализованных в системе STATISTICA
языков программирования (SQL, STATISTICA BASIC),
снабженных специальными средствами поддержки,
легко создаются законченные пользовательские
решения и встраиваются в различные другие
приложения или вычислительные среды.
20.
Система STATISTICA производится фирмой StatSoftInc. (США), основанной в 1984 г. в городе Тулса
(США). Первые программные продукты фирмы
(PsyhoStat-2,3) были предназначены для обработки
социологических данных. В 1985 г. StatSoft выпускает
первую систему статистического анализа для
компьютеров
Apple
Macintosh
(StatFast)
и
статистический пакет для IBM PC (STATS+). В 1986 г.
начинается работа по созданию интегрированных
статистических пакетов комплексной обработки
данных.
В 1991 г. выходит первая версия системы
STATISTICA/DOS. Эта программа представляла собой
новое
направление
развития
статистического
программного обеспечения, так как в ней реализован
графически ориентированный подход к анализу данных.
Программа обладала рядом существенных преимуществ
перед другими статистическими программами.
21.
Например, за счет оптимизации удалось добитьсяповышения скорости обработки более чем в 10 раз,
программа
могла
анализировать
фактически
неограниченный объем данных. В 1992 г. вышла
версия STATISTICA для Macintosh. В 1994 г. выходит
версия STATISTICA 4.5 для Windows, которая сразу же
занимает
лидирующее
положение
среди
статистических пакетов. В результате сравнительного
тестирования с профессиональными системами BMDP
1.0, SPSS 6.1, STATGRAPHICS 1.0, SYSTAT 5.01 она
получает первое место в некоторых ведущих научных
и компьютерных изданиях.
В конце 1995 г. вышла версия STATISTICA 5.0 с
более удобным пользовательским интерфейсом и
полной совместимостью с Windows 95. В этой версии
реализованы новые мощные возможности численного
и графического анализа данных. STATISTICA 5.0
полностью удовлетворяет основным стандартам среды
Windows.
22.
Это стандарты пользовательского интерфейса (MDI);использование технологий DDE
(динамического
обмена данными из других приложений); OLE
(связывания и внедрения объектов, поддержка
основных операций с буфером обмена) и др. В отличие
от предыдущих версий в STATISTICA 5.0 включен
внутренний язык программирования STATISTICA
BASIC, который позволит пользователю расширять
возможности системы. Например, нарастить систему
по своему усмотрению, добавив собственную панель
инструментов
с
тем
или
иным
методом
статистического анализа.
В 1996–1998 гг. появились новые выпуски
программы – STATISTICA 5.1, 5.1-97 и 5.1-98, в
которые были добавлены новые специализированные
модули, учтены все новые форматы Windows и MS
Office, дополнены и улучшены существующие
процедуры.
23.
Система STATISTICA имеет более полумиллионазарегистрированных пользователей во всем мире.
Пользователями системы являются крупнейшие
университеты, исследовательские центры, компании,
банки всего мира, государственные учреждения.
Имеются версии системы на немецком, французском,
японском, испанском, польском и других языках. В
1999 г. состоялся выпуск русской версии STATISTICA
5.1. Корпорацией Софтлайн во главе с В.П.
Боровиковым издано большое число книг с
подробным описанием системы STATISTICA 5.0.
Технология работы с основными процедурами
проиллюстрирована на большом количестве примеров.
На сайте
www.statsoft.ru можно найти всю
необходимую информацию о пакете STATISTICA.
24.
Появление операционной системы Windows XPпривело к необходимости структурных изменений
программы STATISTICA и созданию новой версии
STATISTICA 6.0. В ней существенно изменены
структуры интерфейса, диалоговых окон. Некоторые
модули исключены, так как в новой версии за счет
расширения
возможностей
они
потеряли
актуальность.
Многие выводы многомерного статистического
анализа базируются на принципах статистической
проверки гипотез.
25.
Статистической гипотезой называется любоепредположение о виде или параметрах некоторого
закона распределения. Проверяемую гипотезу обычно
называют нулевой и обозначают H0 (например, H0:
между строками и столбцам таблицы нет зависимости;
коэффициент корреляции равен 0; средние некоторого
показателя в двух выборках равны, закон
распределения признака соответствует нормальному
закону и т.д.). Наряду с нулевой гипотезой
рассматривают альтернативную, или конкурирующую
гипотезу H1, являющуюся логическим отрицанием H0
(например, H1 : между строками и столбцам таблицы
есть зависимость; коэффициент корреляции не равен 0;
средние некоторого показателя в двух выборках не
равны, закон распределения признака не соответствует
нормальному закону и т.д.).
26.
Эти гипотезы представляют собой две возможностивыбора в задачах статистической проверки гипотез.
При этом возможны четыре случая, которые
приведены в таблице, изображенной на рисунке
Но
Верна
Не верна
Принимается
Отвергается
Правильное
решение
Ошибка 2-го
рода
Неправильное решение,
ошибка 1-го рода
Правильное решение
Вероятность α совершить ошибку 1-го рода, т.е.
отвергнуть гипотезу H0, когда она верна, называется
уровнем значимости критерия.
Вероятность 1-β не допустить ошибку 2-го рода
называется мощностью критерия. Вероятности α, β
однозначно определяются выбором критической
области.
27.
Очевидно, желательно сделать α, β как угодномалыми, однако это противоречивые требования.
Лишь при увеличении объема выборки возможно
одновременное уменьшение вероятностей α, β.
Уровень значимости p – это максимально
приемлемая для исследователя вероятность ошибочно
отклонить нулевую гипотезу, когда на самом деле она
верна, т.е. допускаемая вероятность ошибки первого
рода. Величина уровня значимости устанавливается
исследователем
произвольно,
однако
обычно
принимается равным 0,05, либо 0,01, либо 0,001. В
программе
STATISTICA
приемлемой
границей
статистической значимости приняты значения p,
меньшие либо равные 0,05. Если р меньше либо равно
0,05, то результат считается статистически значимым,
если p меньше либо равно 0,01, то результат считается
статистически высоко значимым.