Similar presentations:
Лекция_1
1.
Введение в статистику2.
Статистика — это наука об изучении данных. Знанияв этой области позволяют использовать подходящие
методы сбора и анализа данных, а также
эффективно
представлять
результаты
такого
анализа.
Статистика играет ключевую роль в научных
открытиях, принятии решений и составлении
прогнозов, основанных на данных. Она позволяет
гораздо
глубже
разобраться
в
объекте
исследования.
3.
Чтобы стать успешным специалистом по теории иметодам анализа данных, необходимо знать основы
статистики. Математика и статистика — “строительные
блоки” алгоритмов машинного обучения. Чтобы понимать,
как и когда следует использовать различные алгоритмы,
нужно знать, какие методы за ними стоят. Тут встаёт
вопрос — что именно собой представляет статистика?
Статистика — это математическая наука о сборе,
анализе, интерпретации и представлении данных.
4.
Хорошее понимание различных типов данных, такженазываемых
шкалами
измерений,
является
критически важным условием для проведения
исследовательского анализа данных, поскольку
нужно использовать определенные статистические
измерения только для определенных типов данных.
5.
Исследуя некоторое множество объектов зачастую мы неимеем возможности получить о нём всю информацию.
Нам приходится работать только с некоторым его
подмножеством, которое, как правило, невелико.
6.
Генеральнаясовокупность
• вся интересующая исследователя
совокупность изучаемых объектов.
Выборка,
выборочная
совокупность
• некоторая часть генеральной
совокупности, отбираемая
специальным образом и исследуемая с
целью получения выводов о
генеральной совокупности.
7.
Выборка должна бытьрепрезентативной.
представительной
или
Репрезентативная выборка - это такая выборка, в
которой
все
основные
признаки
генеральной
совокупности, из которой извлечена данная выборка,
представлены приблизительно в той же пропорции или с
той же частотой, с которой данный признак выступает в
этой генеральной совокупности.
Неправильный отбор является причиной многих ошибок и
неверных выводов.
8.
9.
Чтобы корректно оценивать популяцию по выборке, нам нужна не обычная выборка, арепрезентативная выборка достаточного размера. Начнем с определения этого самого размера.
Как рассчитать объем выборки
Достаточный размер выборки зависит от следующих составляющих:
• изменчивость признака (чем разнообразней показания, тем больше наблюдений нужно,
чтобы это уловить);
• размер эффекта (чем меньшие эффекты мы стремимся зафиксировать, тем больше
наблюдений необходимо);
• уровень доверия (уровень вероятности, при который мы готовы отвергнуть нулевую гипотезу)
Объем выборки зависит от изменчивости признака и планируемой строгости эксперимента.
Формулы для расчета объема выборки:
Ошибка выборки значительно возрастает, когда наблюдений меньше ста. Для исследований, в
которых используется 30-100 объектов, применяется особая бутстрэп-анализ. И наконец,
статистика совсем слаба, когда наблюдений меньше 30.
10.
Различают зависимые и независимые выборки.Независимые выборки характеризуются тем, что
вероятность отбора любого испытуемого одной выборки
не зависит от отбора любого из испытуемых другой
выборки.
• Напротив, зависимые выборки характеризуются тем, что
каждому испытуемому одной выборки поставлен в
соответствие по определенному критерию испытуемый из
другой выборки.
В общем случае зависимые выборки предполагают
попарный подбор испытуемых в сравниваемые выборки,
а независимые выборки – независимый отбор
испытуемых.
11.
Данные измерений бывают двух типов:Дискретные данные представляют собой
отдельные значения признака, общее число
которых конечно либо если бесконечно, то
является счётным.
Непрерывные данные могут принимать любое
значение в некотором интервале числовой
прямой.
12.
Этим типам данных в свою очередь соответствуютнесколько шкал, которые зависят уже от природы
исходных данных:
номинальная шкала
порядковая
шкала
интервальная
шкала
относительная
шкала
13.
Шкалы для дискретных данных• Номинальные значения представляют собой дискретные
единицы и используются для обозначения переменных,
которые не имеют количественного значения.
Примерами номинальной шкалы служат семейное
положение, профессия, страна проживания, оператор
связи.
Номинальная шкала, которая состоит из двух категорий,
называется дихотомической или бинарной.
14.
Пример номинальных данных15.
Шкалы для дискретных данныхПорядковые значения представляют собой дискретные и
упорядоченные единицы, в которых, в отличие от
номинальных данных, порядок имеет значение.
Порядковые данные могут быть расположены в
естественном порядке, но размер интервала между ними
не может быть выражен количественно.
Например, школьные оценки, учёная степень, итоговые
места спортсменов, степени тяжести заболевания.
16.
ПримерОбратите внимание, что разница между начальной и средней
школой отличается от разницы между средней школой и
колледжем. Это основное ограничение порядковых данных,
различия между значениями на самом деле не известны.
По этой причине порядковые шкалы обычно используются для
измерения нечисловых характеристик, таких как счастье,
удовлетворенность клиентов и так далее.
17.
18.
Шкалы для непрерывных данныхИнтервальная шкала позволяет указать количественное
значение измеряемого признака и находить разницу
между двумя величинами. Недостатком служит отсутствие
абсолютного нуля в качестве точки отсчета.
Шкала времени, например, может быть разделена на
годы, каждый год разделен на дни, дни на часы и далее.
Относительная шкала обладает абсолютным нулем в
качестве точки отсчета. Для данных этой шкалы
осмысленными являются все операции, включая
вычитание и деление.
19.
При моделировании в основномиспользуются данные трёх типов:
пространственные данные
(cross-sectional data)
временные ряды (time-series data)
панельные данные (panel data)
20.
Пространственными данными называется совокупностьинформации, которая характеризует различные объекты
за один и тот же период или момент времени.
Примером пространственных данных может служить
комплекс экономической информации по какому-либо
предприятию
(численность
работников,
объём
производства, размер основных фондов), объёмах
потребления продукции определённого вида, данные о
ВВП различных стран в каком-либо конкретном году и т. д.
21.
Временными данными называется совокупность информации,которая характеризует один и тот же объект, но за разные
периоды времени.
Отдельно взятый временной ряд можно рассматривать как
выборку из бесконечного ряда значений показателей во
времени.
Отличия временных данных от пространственных данных:
• 1) единицы временных рядов подвержены явлению
автокорреляции (зависимости между прошлыми и текущими
наблюдениями временного ряда), т. е. они не являются
статистически независимыми в отличие от единиц случайной
пространственной выборки;
• 2) единицы временных рядов не являются одинаково
распределёнными величинами;
• 3) в отличие от пространственных данных временные данные
естественным образом упорядочены во времени.
22.
Временной ряд – это совокупность значений какого-либопоказателя за несколько последовательных моментов или
периодов времени.
Каждый уровень временного ряда формируется под
воздействием большого числа факторов, которые условно
можно подразделить на три группы:
• факторы, формирующие тенденцию ряда;
•факторы, формирующие циклические колебания ряда;
•случайные факторы.
23.
Панельными данными называются данные, содержащиесведения об одном и том же множестве объектов за ряд
последовательных периодов времени.
Панельные данные являются обобщением или
комбинацией пространственных и временных данных.
Примером панельных данных могут служить показатели
хозяйственной
деятельности
совокупности
предприятий, которые собираются каждый год. В этом
случае мы получим массив данных, в котором
содержатся и данные об однородных объектах за один
и тот же период времени, и последовательные значения
одной экономической переменной в различные
периоды времени. Но если совокупность предприятий
из года в год будет различна, то такие данные уже не
будут панельными.
24.
Введение в анализ данных25.
Анализ данных — это исследования, связанные с обсчетоммногомерной системы данных, имеющей множество
параметров.
В процессе анализа данных исследователь производит
совокупность действий с целью формирования
определенных представлений о характере явления,
описываемого этими данными. Для анализа данных
используются различные математические методы.
26.
Первичный анализ данных включает три основных этапа :Сбор данных
Подготовка
данных
Статистическая
обработка
данных
27.
Сбор данных• процесс формирования
структурированного набора
данных в цифровом виде.
Подготовка
данных
• Данные должны быть
представлены в определенном,
как правило, в табличном виде.
28.
Подготовка данныхЗачастую наборы данных имеют следующие особенности:
- отличную от табличной форму представления;
- пропуски отдельных данных;
- некорректные значения и выбросы;
- большие числовые значения;
- текстовые данные.
29.
Для устранения отмеченных несоответствий могут бытьприменены следующие операции:
структурирование – приведение данных к табличному
(матричному) виду;
отбор – исключение записей с отсутствующими или
некорректными значениями ;
нормализация – приведение числовых значений к
определенному диапазону, например к диапазону 0...1;
кодирование – это представление категориальных данных в
числовой форме. Например, при бинарной классификации
один из классов можно представить числом «0», а другой класс
– числом «1». При множественной классификации система
кодирования несколько усложняется: создается несколько
числовых полей по количеству классов в выборке данных,
каждый класс кодируется проставлением числа (например, «1»)
в соответствующем поле.
30.
Стандартизация и нормализация — это два способа масштабирования данных.Стандартизация изменяет масштаб набора данных, чтобы иметь среднее
значение 0 и стандартное отклонение 1. Для этого используется следующая
формула:
z=