757.69K
Category: informaticsinformatics

Анализ данных. Управление данными. Лекция 6

1.

Информационно-коммуникационные технологии
Лекция 6. Анализ данных. Управление
данными.
Лектор: ассоц. профессор Сейдалиева Г.О.
1

2.

План
1.Базы анализа данных. Методы сбора,
классификации и прогнозирования. Деревья
решений.
2.Обработка больших объемов данных. Методы и
этапы интеллектуального анализа данных.
3.Задачи интеллектуального анализа данных.
Визуализация данных.
2

3.

Ключевые слова:
анализ данных, большие данные,
интеллектуальный анализ данных,
предсказательные модели,
ррегрессия, ккластеризация,
статистика, деревья принятия решений
3

4.

1.Базы анализа данных. Методы сбора,
классификации и прогнозирования.
Деревья решений.
Анализ данных – это процесс
исследования, фильтрации, преобразования
и моделирования данных с целью
извлечения полезной информации и
принятия решений.
Термин знание тесно связан с понятием
интеллект.
Лектор: Сейдалиева Г.О.
4

5.

Общая схема представления знаний: Мысленный образ →
Запись (символы, текст…) → Сохранение в компьютере
Для создания плана сбора данных необходимо:
1) Определить проблемы и сформулировать цели
исследования.
2) Предварительное изучение интересующей темы.
3) Разработать концепции исследования.
4) Произвести детальное планирование исследования.
5) Произвести отбор источников информации и сбор
вторичных данных.
6) Оценить полученные данные и принять решение, насколько
необходимы первичные данные.
7) Определить способ сбора первичных данных: опрос,
наблюдение, эксперимент.
8) Провести непосредственно сбор первичной информации.
9) Представить результаты исследования (презентация).
Лектор: Сейдалиева Г.О.
5

6.

Методы прогнозирования данных делятся на:
- интуитивные, которые имеют дело с суждениями и
оценками экспертов;
- формализованные, которые уже описаны в
литературе и на основе которых уже строят модели
прогнозирования.
Деревья решений широко используются в области
анализа данных.
Деревья решений – это способ представления правил в
иерархической, последовательной структуре, где
каждому объекту соответствует единственный узел,
дающий решение.
Лектор: Сейдалиева Г.О.
6

7.

Все задачи, которые решает способ дерева, могут быть
объединены в следующие три класса:
Описание данных: Деревья решений позволяют хранить
информацию о данных в компактной форме, вместо них
мы можем хранить дерево решений с описанием
объектов.
Классификация: Деревья решений относятся к задачам
классификации. Целевая переменная должна иметь
дискретные значения.
Регрессия: Если целевая переменная имеет непрерывные
значения, деревья решений позволяют установить
зависимость целевой переменной от независимых
переменных (задачи прогнозирования).
Лектор: Сейдалиева Г.О.
7

8.

2.Обработка больших объемов данных. Методы
и этапы интеллектуального анализа данных.
Задачи интеллектуального анализа данных.
Основы Data Mining
Большие объёмы данных - Data Mining означает
огромное их количество.
Data Mining – это процесс поддержки принятия
решений, который основан на поиске в данных
скрытых закономерностей .
Это такая технология, которая предназна для
поиска в больших объемах данных объективных и
полезных на практике закономерностей.
Лектор: Сейдалиева Г.О.
8

9.

К основным задачам Data Mining относятся:
классификация, кластеризация, прогнозирование,
ассоциация, визуализация, анализ и обнаружение
отклонений, оценивание, анализ связей, подведение
итогов.
Методы и алгоритмы Data Mining:
искусственные нейронные сети;
деревья решений;
символьные правила;
байесовские сети;
корреляционно-регрессионный анализ;
иерархические методы кластерного анализа;
методы визуализации данных и др.
Лектор: Сейдалиева Г.О.
9

10.

Модели интеллектуального анализа данных и основные задачи
Предсказательные модели (predictive models) позволяют
прогнозировать значения данных. К ним относятся:
• Классификация (classification): позволяет сгруппировать данные.
• Регрессия (regression) является одним из статистических методов,
который позволяет прогнозировать значения.
• Анализ временных рядов (time series analysis): это часть DM, которая
изучает прогнозирование будущих значений процесса.
В описательной модели (descriptive model) к основным задачам
относится нахождение шаблонов (pattern) и отношений в наборах
данных:
• Кластеризация (clustering) – обработка данных, предшествующая
классификации, позволяющая создавать новые группы и классы.
• Суммаризация или генерализация (summarization/generalization):
методы, которые позволяют суммировать значительную часть данных.
• Правила Ассоциации (Association rules) позволяют установить связь
и отношения между большими наборами данных.
Лектор: Сейдалиева Г.О.
10

11.

3.Визуализация данных.
Каждый из алгоритмов Data Mining использует определенный
подход к визуализации. В ходе применения каждого из
методов Data Mining используют визуализаторы.
Приведем некоторые примеры применения DM, основной
целью которого является анализ и управление
соответствующей деятельностью.
Бизнес:
- Бизнес-анализ и управление: позволяет улучшать
организацию дел и установки бизнеса, направленные на
снижение стоимости ведения бизнеса, повышение
прибыли.
- Электронная коммерция: многомерный анализ продаж,
групп клиентов, продуктов, времени (сезонов)
11 и региона.
Лектор: Сейдалиева Г.О.

12.

Компьютерная безопасность.
Интеллектуальный анализ данных позволяет
сетевым администраторам и специалистам по
компьютерной безопасности объединить
возможности аналитических методов с бизнесзнаниями.
Банковская и финансовая обработка.
Прогнозирование возврата кредитов и решение о
выдаче кредитов клиенту, т.е. анализ кредитной
политики с учетом таких факторов как
надежность кредитного платежа и кредитный
рейтинг клиента.
12

13.

Биоинформатика, Медицина, Здравоохранение.
DM находит применение в молекулярногенетической и генной инженерии (геномные
исследования, изучение последовательностей ДНК
человека; определение генов, связанных с
различными заболеваниями и повышение
эффективности лечения).
Новости и развлечения. Индустрия новостей
(медиа) и развлечений генерирует большие объемы
данных в виде текстов, графики, аудио- и видеозаписей, которые читаются и просматриваются
людьми, демографически отличающимися друг от
друга.
Лектор: Сейдалиева Г.О.
13

14.

Microsoft Excel и большие данные
Описание проблемы с большими данными в
Excel
Когда мы говорим о больших данных, часто
имеется в виду:
- Таблицы с миллионами строк.
- Множество столбцов и сложные
вычисления.
- Высокий объем данных с разными типами
информации (например, текст, числа, даты).
Лектор: Сейдалиева Г.О.
14

15.

Excel имеет ограничения на количество
строк и столбцов:
В Excel 2016 и новее максимальное
количество строк в одном листе — 1,048,576.
Максимальное количество столбцов —
16,384 (то есть до столбца "XFD").
Лектор: Сейдалиева Г.О.
15

16.

Для работы с большими данными в Excel
можно использовать несколько подходов
1.
Использование Power Query - для
извлечения, трансформации и загрузки
данных, который интегрирован в Excel
2.
Power Pivot — это инструмент, который
позволяет работать с большими объемами
данных с помощью моделей данных
3.
Использование таблиц данных и фильтров
4.
Использование внешних источников данных
Лектор: Сейдалиева Г.О.
16

17.

Проблемные ситуации
В современном мире объем данных,
генерируемых каждый день, растет
экспоненциально. Множество организаций
сталкиваются с трудностью эффективного сбора,
хранения и анализа этих данных. Например,
компания, которая использует большие данные
для маркетинговых исследований, может
столкнуться с проблемой неструктурированных
данных из разных источников. Как результат,
возникают проблемы с извлечением полезной
информации, трудности в принятии обоснованных
решений, а также возможные ошибки в
управлении данными, такие как дублирование
или
17
потеря важной информации.
Лектор: Сейдалиева Г.О.

18.

Основная литература [1-11] [1, 107-142] Дополнительная: [12-21]
Контрольные вопросы для самоподготовки
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
Что такое анализ данных, и какие основные этапы он включает.
Как связаны между собой понятия знания и интеллект в контексте анализа данных.
Какие основные этапы необходимо пройти для создания плана сбора данных.
Какие методы прогнозирования данных существуют и чем они отличаются.
Что такое деревья решений и для каких задач их используют.
Какие существуют основные классы задач, решаемых с помощью деревьев
решений.
В чем разница между алгоритмами построения деревьев решений CART и C4.5.
Что такое Data Mining и какие задачи он решает.
Перечислите основные методы и алгоритмы, используемые в Data Mining.
Какие стадии включает в себя процесс Data Mining.
Какие основные задачи относятся к предсказательным моделям в интеллектуальном
анализе данных.
В чем заключается задача классификации в интеллектуальном анализе данных.
Как используется регрессия в контексте интеллектуального анализа данных.
Что представляет собой анализ временных рядов, и как он применяется в Data
Mining.
Какие задачи решаются с помощью описательных моделей в интеллектуальном
анализе данных.
18

19.

Лекция 7. Сети и телекоммуникации.
План
1.Конечные устройства, устройства передачи
данных, среда передачи.
2.Типы сетей. Протоколы стека: TCP/IP, OSI. IPадресация. Локальные и глобальные сети.
3.Проводные и беспроводные сетевые технологии.
DHCP-протокол. Технологии подключения к
Интернету. Телекоммуникационные технологии.
19
English     Русский Rules