97.12K
Category: informaticsinformatics

Существующие информационные технологии и средства интеллектуального анализа данных, их преимущества и недостатки

1.

Существующие информационные технологии и
средства интеллектуального анализа данных, их
преимущества и недостатки
Специальные технологии баз данных и информационных систем

2.

Загрузки для лабораторных работ
Microsoft Analysis Services Projects 2022
https://marketplace.visualstudio.com/items?itemName=ProBITools.MicrosoftAnalysisServicesModelingProjects2022
AdventureWorks sample databases
https://docs.microsoft.com/en-us/sql/samples/adventureworks-install-configure?view=sql-server-ver16&tabs=ssms
SQL Server Downloads | Microsoft (Developer Edition)
https://www.microsoft.com/en-us/sql-server/sql-server-downloads
Download SQL Server Management Studio (SSMS)
https://docs.microsoft.com/en-us/sql/ssms/download-sql-server-management-studio-ssms?view=sql-server-ver16
Visual Studio 2022 IDE — средство программирования для разработчиков программного обеспечения
https://visualstudio.microsoft.com/ru/vs/
Download SQL Server Data Tools (SSDT) for Visual Studio
https://learn.microsoft.com/ru-ru/sql/ssdt/download-sql-server-data-tools-ssdt?view=sql-server-ver16
Microsoft Analysis Services Projects 2022
https://marketplace.visualstudio.com/items?itemName=ProBITools.MicrosoftAnalysisServicesModelingProjects2022

3.

Добыча данных
Добыча данных – процесс автоматизированного обнаружения ранее неизвестных знаний (устойчивых шаблонов,
закономерностей) в больших объемах данных
Хранилище исторических данных (data warehouse) – основной источник данных.
Объемы данных – от нескольких гигабайт и более.
Анализ данных возможен для меньшего объема данных. Количество данных обычно влияет на точность обнаруженных
знаний.
Обнаруженные знания должны быть полезны и верифицируемы.
Полезность знаний выражена в способности предсказать будущее поведение.

4.

Задачи интеллектуального анализа данных
1. Для описания:
1. Поиск закономерностей (в т.ч. частых множеств признаков , ассоциативных правил).
2. Кластеризация.
3. Создание краткого обобщенного представления большого набора данных
2. Для предсказания:
1. Классификация.
2. Регрессия.
3. Поиск посторонних значений.

5.

Причины развития Data Mining
● Базы данных используются с 1960 гг.: в настоящее время есть большой
объем накопленных данных.
● Увеличение количества источников данных, в том числе за счет
развития удаленной торговли и банковских платежей.
● Снижение стоимости и улучшение характеристик вычислительного
оборудования, в том числе накопителей данных.
● Появление социальных сетей и генерируемого пользователями
контента.

6.

Применение в области финансов
принятие решений в области кредитования;
составление инвестиционных портфелей;
обнаружение финансового мошенничества, случаев уклонения от уплаты налогов и отмывания денег;
оценка стоимости недвижимости.
Predictive analytics using Big Data for the real estate market during the COVID-19 pandemic

7.

Применение в анализе поведения пользователей
Оптимизация сайтов для поисковых систем.
Оптимизация сайтов для улучшения характеристик удобства использования.
Анализ оставленной корзины в интернет-магазинах.
Выбор наиболее подходящих пользователей сайта для email-рассылки.
Прогнозирование нагрузки сервера или времени простоя сервера.
Обнаружение шаблонов поведения и трендов в социальных сетях.

8.

Применение в исследовании потребительского
поведения
Прогнозирование продаж (периодичность совершения покупок клиентами), поиск особо ценных клиентов.
Поиск последовательностей в выборе товаров.
Анализ отказов от покупки.
Определение продуктов, которые продаются вместе.
Кластеризация покупателей: выявление групп покупателей с общими чертами поведения.
7 examples of big data retail personalization (crayondata.com)

9.

Применение в медицине
выбор наиболее эффективного плана лечения;
диагностика заболеваний;
диагностика предрасположенности к заболеваниям;
обнаружение побочных действий лекарств.

10.

Критика Data mining
утечки персональных данных;
ограничение анонимности;
дискриминация;
манипуляции рынком;
необратимое изменение свойств изучаемого объекта/явления.

11.

Этапы интеллектуального анализа данных
1.
2.
3.
4.
5.
6.
Выявление проблемы.
Изучение данных.
Подготовка данных.
a. Очистка.
b. Агрегация.
c. Преобразование.
Применение алгоритмов.
Оценка.
Развертывание.

12.

Выявление проблемы
На этапе выявления проблемы происходит определение цели заказчика и
преобразование цели заказчика в цели проекта («Уменьшить время простоя
техники?» преобразуется в «Какие последовательности событий приводят к
простою техники»). Уточняются желаемые показатели точности и требования к
реализации и развертыванию модели.

13.

Изучение данных
На этапе изучения данных оцениваются источники данных на соответствие целям
анализа. Проверяются атрибуты элементов данных и возможные способы их
преобразования или создания новых атрибутов на основе имеющихся. Возможен
поиск дополнительных источников данных.
● Изучение отдельных источников данных.
● Добавление новых атрибутов к элементам данных (дата_рождения ->
возраст, стоимость покупки -> количество покупок больше лимита).
● Проверка соответствия данных целям анализа. При неполном
соответствии поиск дополнительных (новых) источников.

14.

Подготовка данных
Подготовка данных является наиболее трудоемким процессом. От качества данных
в значительной степени зависит результат исполнения алгоритма анализа данных.
В ходе очистки выполняется удаление ли преобразование записей с
отсутствующими атрибутами, происходит поиск и последующее преобразование
или удаление аномальных элементов данных в том случае, если поиск аномалий не
является основной задачей анализа данных. Для поиска аномалий применяются
методы статистики, алгоритмы кластеризации и нейронные сети-автокодировщики.
Автокодировщики обучаются для повторения (репликации) входных данных с
минимальной ошибки. Необычно высокая ошибка репликации свидетельствует о
возможном аномальном элементе данных.

15.

Оценка модели
1. Создание набора данных для верификации степени достижения целей
анализа.
2. Если точность модели неудовлетворительная, происходит возврат на
этап изучения данных.
3. При достижении целей происходит переход к этапу развертывания.

16.

Развертывание
Способы развертывания:
1. Предоставление отчета заказчику в виде бумажного или электронного
документа.
2. Создание программы-клиента для запуска процесса анализа данных по
требованию.
3. Создание веб-сайта для запуска процесса анализа и просмотра отчетов.

17.

Компоненты программной реализации
● UI;
● модель;
● исполнитель алгоритма;


алгоритм;
оценщик эффективности (точности);
● загрузчик и преобразователь данных;
● источники данных.

18.

Сложности применения алгоритмов
● Размерность (количество измерений) элементов данных
● Гетерогенность данных (разные форматы, единицы измерения и т.д.)
● Объем данных и скорость их поступления, масштабируемость
● Безопасность и обезличивание данных

19.

Компоненты для добычи данных на основе OLAP
● Хранилище данных
● OLAP-сервер
● Инструмент просмотра отчетов

20.

Источники данных
реляционные базы данных;
базы данных нереляционных моделей;
хранилища данных;
устаревшие архивные (необслуживаемые) базы данных;
источники потоковых данных;
файловые хранилища.

21.

Источники данных
бизнес-трансакции;
научные данные;
медицинские и персональные данные;
данные систем безопасности, в т.ч. видеонаблюдения;
спутниковые данные;
виртуальные миры и социальные сети;
архивы Интернета.

22.

Поиск посторонних значений
● Определение мошенничества.
● Исключение ошибочных данных.
● Способы реализации:



Кластеризация.
Автокодировщики.
Методы статистики.
English     Русский Rules