Similar presentations:
Анализ данных. Управление данными. Лекция 6
1.
Информационно-коммуникационные технологииЛекция 6. Анализ данных. Управление
данными.
Лектор: ассоц. профессор Сейдалиева Г.О.
1
2.
План1.Базы анализа данных. Методы сбора,
классификации и прогнозирования. Деревья
решений.
2.Обработка больших объемов данных. Методы и
этапы интеллектуального анализа данных.
3.Задачи интеллектуального анализа данных.
Визуализация данных.
2
3.
Ключевые слова:анализ данных, большие данные,
интеллектуальный анализ данных,
предсказательные модели,
ррегрессия, ккластеризация,
статистика, деревья принятия решений
3
4.
1.Базы анализа данных. Методы сбора,классификации и прогнозирования.
Деревья решений.
Анализ данных – это процесс
исследования, фильтрации, преобразования
и моделирования данных с целью
извлечения полезной информации и
принятия решений.
Термин знание тесно связан с понятием
интеллект.
Лектор: Сейдалиева Г.О.
4
5.
Общая схема представления знаний: Мысленный образ →Запись (символы, текст…) → Сохранение в компьютере
Для создания плана сбора данных необходимо:
1) Определить проблемы и сформулировать цели
исследования.
2) Предварительное изучение интересующей темы.
3) Разработать концепции исследования.
4) Произвести детальное планирование исследования.
5) Произвести отбор источников информации и сбор
вторичных данных.
6) Оценить полученные данные и принять решение, насколько
необходимы первичные данные.
7) Определить способ сбора первичных данных: опрос,
наблюдение, эксперимент.
8) Провести непосредственно сбор первичной информации.
9) Представить результаты исследования (презентация).
Лектор: Сейдалиева Г.О.
5
6.
Методы прогнозирования данных делятся на:- интуитивные, которые имеют дело с суждениями и
оценками экспертов;
- формализованные, которые уже описаны в
литературе и на основе которых уже строят модели
прогнозирования.
Деревья решений широко используются в области
анализа данных.
Деревья решений – это способ представления правил в
иерархической, последовательной структуре, где
каждому объекту соответствует единственный узел,
дающий решение.
Лектор: Сейдалиева Г.О.
6
7.
Все задачи, которые решает способ дерева, могут бытьобъединены в следующие три класса:
Описание данных: Деревья решений позволяют хранить
информацию о данных в компактной форме, вместо них
мы можем хранить дерево решений с описанием
объектов.
Классификация: Деревья решений относятся к задачам
классификации. Целевая переменная должна иметь
дискретные значения.
Регрессия: Если целевая переменная имеет непрерывные
значения, деревья решений позволяют установить
зависимость целевой переменной от независимых
переменных (задачи прогнозирования).
Лектор: Сейдалиева Г.О.
7
8.
2.Обработка больших объемов данных. Методыи этапы интеллектуального анализа данных.
Задачи интеллектуального анализа данных.
Основы Data Mining
Большие объёмы данных - Data Mining означает
огромное их количество.
Data Mining – это процесс поддержки принятия
решений, который основан на поиске в данных
скрытых закономерностей .
Это такая технология, которая предназна для
поиска в больших объемах данных объективных и
полезных на практике закономерностей.
Лектор: Сейдалиева Г.О.
8
9.
К основным задачам Data Mining относятся:классификация, кластеризация, прогнозирование,
ассоциация, визуализация, анализ и обнаружение
отклонений, оценивание, анализ связей, подведение
итогов.
Методы и алгоритмы Data Mining:
искусственные нейронные сети;
деревья решений;
символьные правила;
байесовские сети;
корреляционно-регрессионный анализ;
иерархические методы кластерного анализа;
методы визуализации данных и др.
Лектор: Сейдалиева Г.О.
9
10.
Модели интеллектуального анализа данных и основные задачиПредсказательные модели (predictive models) позволяют
прогнозировать значения данных. К ним относятся:
• Классификация (classification): позволяет сгруппировать данные.
• Регрессия (regression) является одним из статистических методов,
который позволяет прогнозировать значения.
• Анализ временных рядов (time series analysis): это часть DM, которая
изучает прогнозирование будущих значений процесса.
В описательной модели (descriptive model) к основным задачам
относится нахождение шаблонов (pattern) и отношений в наборах
данных:
• Кластеризация (clustering) – обработка данных, предшествующая
классификации, позволяющая создавать новые группы и классы.
• Суммаризация или генерализация (summarization/generalization):
методы, которые позволяют суммировать значительную часть данных.
• Правила Ассоциации (Association rules) позволяют установить связь
и отношения между большими наборами данных.
Лектор: Сейдалиева Г.О.
10
11.
3.Визуализация данных.Каждый из алгоритмов Data Mining использует определенный
подход к визуализации. В ходе применения каждого из
методов Data Mining используют визуализаторы.
Приведем некоторые примеры применения DM, основной
целью которого является анализ и управление
соответствующей деятельностью.
Бизнес:
- Бизнес-анализ и управление: позволяет улучшать
организацию дел и установки бизнеса, направленные на
снижение стоимости ведения бизнеса, повышение
прибыли.
- Электронная коммерция: многомерный анализ продаж,
групп клиентов, продуктов, времени (сезонов)
11 и региона.
Лектор: Сейдалиева Г.О.
12.
Компьютерная безопасность.Интеллектуальный анализ данных позволяет
сетевым администраторам и специалистам по
компьютерной безопасности объединить
возможности аналитических методов с бизнесзнаниями.
Банковская и финансовая обработка.
Прогнозирование возврата кредитов и решение о
выдаче кредитов клиенту, т.е. анализ кредитной
политики с учетом таких факторов как
надежность кредитного платежа и кредитный
рейтинг клиента.
12
13.
Биоинформатика, Медицина, Здравоохранение.DM находит применение в молекулярногенетической и генной инженерии (геномные
исследования, изучение последовательностей ДНК
человека; определение генов, связанных с
различными заболеваниями и повышение
эффективности лечения).
Новости и развлечения. Индустрия новостей
(медиа) и развлечений генерирует большие объемы
данных в виде текстов, графики, аудио- и видеозаписей, которые читаются и просматриваются
людьми, демографически отличающимися друг от
друга.
Лектор: Сейдалиева Г.О.
13
14.
Microsoft Excel и большие данныеОписание проблемы с большими данными в
Excel
Когда мы говорим о больших данных, часто
имеется в виду:
- Таблицы с миллионами строк.
- Множество столбцов и сложные
вычисления.
- Высокий объем данных с разными типами
информации (например, текст, числа, даты).
Лектор: Сейдалиева Г.О.
14
15.
Excel имеет ограничения на количествострок и столбцов:
В Excel 2016 и новее максимальное
количество строк в одном листе — 1,048,576.
Максимальное количество столбцов —
16,384 (то есть до столбца "XFD").
Лектор: Сейдалиева Г.О.
15
16.
Для работы с большими данными в Excelможно использовать несколько подходов
1.
Использование Power Query - для
извлечения, трансформации и загрузки
данных, который интегрирован в Excel
2.
Power Pivot — это инструмент, который
позволяет работать с большими объемами
данных с помощью моделей данных
3.
Использование таблиц данных и фильтров
4.
Использование внешних источников данных
Лектор: Сейдалиева Г.О.
16
17.
Проблемные ситуацииВ современном мире объем данных,
генерируемых каждый день, растет
экспоненциально. Множество организаций
сталкиваются с трудностью эффективного сбора,
хранения и анализа этих данных. Например,
компания, которая использует большие данные
для маркетинговых исследований, может
столкнуться с проблемой неструктурированных
данных из разных источников. Как результат,
возникают проблемы с извлечением полезной
информации, трудности в принятии обоснованных
решений, а также возможные ошибки в
управлении данными, такие как дублирование
или
17
потеря важной информации.
Лектор: Сейдалиева Г.О.
18.
Основная литература [1-11] [1, 107-142] Дополнительная: [12-21]Контрольные вопросы для самоподготовки
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
Что такое анализ данных, и какие основные этапы он включает.
Как связаны между собой понятия знания и интеллект в контексте анализа данных.
Какие основные этапы необходимо пройти для создания плана сбора данных.
Какие методы прогнозирования данных существуют и чем они отличаются.
Что такое деревья решений и для каких задач их используют.
Какие существуют основные классы задач, решаемых с помощью деревьев
решений.
В чем разница между алгоритмами построения деревьев решений CART и C4.5.
Что такое Data Mining и какие задачи он решает.
Перечислите основные методы и алгоритмы, используемые в Data Mining.
Какие стадии включает в себя процесс Data Mining.
Какие основные задачи относятся к предсказательным моделям в интеллектуальном
анализе данных.
В чем заключается задача классификации в интеллектуальном анализе данных.
Как используется регрессия в контексте интеллектуального анализа данных.
Что представляет собой анализ временных рядов, и как он применяется в Data
Mining.
Какие задачи решаются с помощью описательных моделей в интеллектуальном
анализе данных.
18
19.
Лекция 7. Сети и телекоммуникации.План
1.Конечные устройства, устройства передачи
данных, среда передачи.
2.Типы сетей. Протоколы стека: TCP/IP, OSI. IPадресация. Локальные и глобальные сети.
3.Проводные и беспроводные сетевые технологии.
DHCP-протокол. Технологии подключения к
Интернету. Телекоммуникационные технологии.
19
informatics