Similar presentations:
Описательная статистика
1. Статистика
Елена Игоревна Васенкова2. Статистика
Существует более 200 определенийСтатистика – искусство и наука сбора и
анализа данных
Статистика - наука, разрабатывающая и
систематизирующая понятия, приемы, методы
и модели, предназначенные для сбора,
стандартной записи, систематизации и
обработки данных с целью их удобного
представления, анализа и получения научных
и практических выводов
3. Учебный план
Описательная статистика
Интервальное оценивание данных и проверка
статистических гипотез
Статистические методы исследования
взаимосвязей
Статистические методы исследования
динамики и прогнозирования
4. Литература
1. Сигел Э. Практическая бизнес-статистика,2002
2. Статистика для менеджеров с использованием
Microsoft Excel, 2005
3. Paul Newbold Statistics for business and
economics, 2005
4. Васенкова Е.И. Статистика: конспект лекций
для студентов программы переподготовки
«финансы»
http://www.elib.bsu.by
5. Использование Excel
РаспространенностьУниверсальность
Большой набор статистических функций
Наличие специализированных пакетоврасширений
Недостатки: иногда сложно реализовать
нестандартные расчетные методики
6. Статистические пакеты
StatisticaSPSS
SAS
7. Решаемые в курсе задачи
Описание данныхСравнение
Изучение зависимостей
Прогнозирование
8. Описание данных
Методы описательной статистики позволяютэффективно обработать большие массивы
данных и представить их в виде удобном и
пригодном для анализа.
Происходит своеобразное «сжатие»
информации, получение небольшого
количества наиболее важных характеристик,
дающих возможность достаточно полно
производить предварительный анализ и
оценку статистических данных.
9. Сравнение
Интервальное оценивание и проверка гипотезпозволяют сделать вывод о наличии либо
отсутствии разницы между двумя ситуациями,
проанализировать точность получаемых
результатов и надежность сделанных
предсказаний.
Эти инструменты оказываются полезными при
исследовании эффективности новых методов
работы или в изменяющихся внешних условиях,
отвечая на вопрос: являются ли наблюдаемые
изменения случайностью или же можно
определенно говорить о влиянии?
10. Изучение зависимостей
Разные факторы практической деятельностинеизбежно оказываются связанными друг с
другом.
Корреляционный анализ оценивает связь на
фоне неизбежных «шумов» и случайных
выбросов.
Регрессионный анализ дает математическое
выражение для обнаруженных зависимостей.
После этого можно производить подробное
рассмотрение ситуации по схеме «что-если»:
что произойдет при увеличении количества
клиентов, изменении курса валют и т.д.
11. Прогнозирование
Статистические методы позволяют выделитьосновные составляющие изменяющегося во
времени набора данных: долгосрочную
тенденцию, периодические сезонные
колебания, случайную составляющую.
После этого можно не только составить прогноз,
но и оценить его точность и возможность
долгосрочного прогнозирования в текущих
условиях.
12. Почему это работает?
Статистика опирается на универсальныеинструменты, практически не зависящие от
конкретной области применения.
Используются строгие математические методы,
в результате не все «очевидное» оказывается
правильным.
13. Основные понятия
Статистическая совокупность – множествоединиц, обладающих массовостью,
однородностью, определенной целостностью,
взаимозависимостью состояний отдельных
единиц и наличием вариации.
Генеральная совокупность – все возможные
(реальные или гипотетические) значения
случайной величины.
Выборочная совокупность (выборка) – реально
наблюдаемая часть значений случайной
величины.
14. Главная задача
По свойствам, полученным на основе данныхвыборка, определить свойства генеральной
совокупности.
Пример: социологический опрос. По данным
опроса 2000 человек в РБ делаются прогнозы
результатов выборов.
Выборка – 1600 человек, генеральная
совокупность – все избиратели.
15. Связь с теорией вероятностей
Теория вероятностей:известны свойства генеральной совокупности –можно предсказать свойства выборки
Статистика:
измерено свойство выборки - можно судить о
свойстве генеральной совокупности
16. Пример: подбрасывание монеты
Генеральная совокупность – всевозможныерезультаты бросания.
Теория вероятностей:
вероятность выпадения орлов и вероятность
выпадения решки равна 0.5.
Статистика:
произведено 200 испытаний, орел выпал 105 раз,
можно ли сделать вывод о равновероятности
выпадения орла и решки.
17. Стадии статистического исследования
Планирование и сбор данныхПредварительное исследование
Оценивание неизвестной величины
Проверка статистических гипотез
18. Планирование и сбор данных
Составление подробного плана исследованияОпределение необходимого (или доступного)
количества данных
Сбор данных, возможно, с использованием
случайной выборки из генеральной
совокупности
19. Предварительное исследование
Оценка соответствия имеющихся данныхпредварительным прогнозам, фильтрация
выбросов (цензурирование)
Визуализация данных
Оценка распределения данных (положение,
разброс, …)
Грубая проверка предположения о связи
данных
20. Оценка неизвестной величины
Предсказание значения неизвестной величины(победитель на выборах, объем продаж в
следующем квартале, уровень брака, …)
Оценка точности полученного значения
(доверительного интервала)
21. Проверка статистических гипотез
Использование данных для осуществлениявыбора одной из двух (или более) различных
возможностей.
Использование нового метода работы с
клиентами увеличивает (не увеличивает)
объем продаж
В Вашем учреждении зарплата зависит (не
зависит) от уровня образования сотрудники
22. Классификация статистических данных
по количеству переменных, описывающихэлементарную единицу данных:
одномерные
многомерные
23. Классификация статистических данных
по типу измерения :количественные:
дискретные
непрерывные
качественные:
порядковые
номинальные
24. Классификация статистических данных
по отношению ко времени:временные ряды
данные об одном временном срезе
25. Классификация статистических данных
по способу получения данных:
первичные
вторичные
26. Описательная статистика
Методы описательной статистики – методыописания выборок с помощью различных
показателей и графиков
27. Показатели описательной статистики
Показатели положения: среднее значение, медиана,мода, минимальной и максимальное значения,
квартили
Показатели разброса: дисперсия, стандартное
отклонение, размах, межквартильный размах
Показатели симметрии: асимметрии, положение
медианы относительно среднего
Показатели формы: эксцесс
28. Виды средних значений:
N2
(x )
i 1
2
i
N
Виды средних значений:
среднее арифметическое
среднее гармоническое
среднее геометрическое
среднее степенное
29. Среднее арифметическое
n1
x
xi
n
i 1
среднее
среднее для
сгруппированных
данных,
K
i 1
ni
n
K
x
x
i
i 1
ni
K
n
i 1
i
30. Определить среднее количество мячей, забитых за один матч
Число забитых мячей0
1
2
3
4
5
6
7
Число матчей
21
41
45
37
19
10
6
1
31. Определить средний возраст сотрудников
Возраст сотрудников, летдо 20
20 - 30
30 – 40
40 – 50
свыше 50
Число сотрудников
48
21
75
62
54
32. Среднее гармоническое
среднееx
n
n
i 1
1
xi
K
среднее для
сгруппированных
данных,
x
n
i 1
K
i 1
i
ni
xi
33. Определить среднюю урожайность культур
КультураПшеница
Рожь
Ячмень
Овес
Валовой сбор
в ц.
32500
Урожайность
в ц/га
25
1620
18
13640
22
1650
15
34. Определить среднюю урожайность культур
КультураПшеница
Посевная
площадь, га
Урожайность в
ц/га
1300
25
90
18
Ячмень
610
22
Овес
110
15
Рожь
35. Среднее геометрическое
среднеесреднее для
сгруппированных
данных,
x n x1 x2 ... xn
x ( x1 ) ( x2 ) ... ( xk )
n
n1
n2
nk
36. Среднее степенное порядка р
1p
х р хi
n i 1
n
1
p
... х 1 х0 х1 х2 ...
37. Определение моды в интервальном ряду
Мо x м о hnм о nм о 1
(n м о nм о 1 ) (nм о nм о 1 )
38. Определение медианы в интервальном ряду
KМе xMe
1
ni S Me 1
2 i 1
h
nMe
39. Показатели вариации
РазмахR X MAX X MIN
n
d
Среднелинейное
отклонение
x
i
i 1
n
K
d
x
i 1
x
i
x ni
k
n
i 1
i
40. Показатели вариации
nДисперсия
2
Дисперсия для
сгруппированных
данных
(x
i
i 1
x)
n
K
2
2
2
(
x
x
)
ni
i
i 1
K
n
i 1
i
41. Показатели вариации
Среднеквадратическое(стандартное)
отклонение
Коэффициент
вариации
V
х
2
100%
42. Табличное и графическое представление данных
Для описания количественных данных используют:распределение частот, распределение
относительных частот, процентное распределение,
распределение накопленных (кумулятивных)
частот, распределение относительных
накопленных (кумулятивных) частот,
кростабуляцию,
точечные и линейные диаграммы, гистограммы,
интегральные (кумулятивные) кривые, диаграммы
разброса, диаграмма «ствол и листья».
43. Табличное и графическое представление данных
Для описания качественных данных используют:распределение частот, распределение
относительных частот
таблицы сопряженности
линейчатые и секторные диаграммы.
44. Гистограмма стартовой зарплаты выпускников с дипломом МВА
ЧастотаГистограмма стартовой зарплаты
выпускников с дипломом МВА
6
5
4
3
2
1
0
50000 60000
70000 80000
90000 100000
Начальная зарплата
45. Гистограмма возраста служащих компании
Количество служащихГистограмма возраста служащих
компании
25
20
15
10
5
0
25 30 35 40 45 50 55 60 65 70
Возраст служащих
46. Активы некоторых коммерческих банков
Частота30
20
10
0
0
100
200
300
400
Активы банков, млрд.дол.
500
47. Гистограммы бимодальных распределений
Доходность паевых фондов, %Частота
Частота
Доходы форм, млн.дол.
20
10
0
0
2000
4000
Доходы
6000
8000
40
20
0
2
3
4
Доходность
5
6
48. Графическое представление данных
Гистограмма: данные разбиваются на интервалыпоследующим отображением на
графике
49. Асимметрия
Показывает, насколько симметричнорасположены данные относительно
среднего
Асимметрия > 0
Асимметрия = 0
Асимметрия < 0
50. Эксцесс
Показатель «остроты» распределения.Меньше эксцесс – «острее» распределение
Эксцесс = 0
0.3
Эксцесс = 1
0.2
0.1
3
2
1
1
2
3
51. Эксцесс
Эталоннымявляется
нормальное
распределение
Отрицательные
значения
эксцесса
наблюдаются у
бимодальных
распределений
52. Нормальное распределение
Стандартизованное:Общий вид:
1
f ( x)
e
2
x2
2
1
f ( x)
e
2
( x )2
Среднее значение = µ
Среднеквадратичное отклонение = σ
Асимметрия = 0
Эксцесс = 0
2 2
53. Нормальное распределение
0.40.4
0.4
0.3
µ = 10
σ = 21
0.3
0.3
0.2
0.2
0.1
0.1
0.1
4
2
4 4
22
2
4
22
4 4
54. Некоторые свойства
68% значенийотклоняются от
среднего не более,
чем на величину
одного стандартного
отклонения, 95% -двух, 99,7% -- трех.
Распределение
симметричное,
эксцесс равен 0.