Data Mining
Что такое Data Mining?
‘
Data Mining как мультидисциплинарная область
Данные
Набор данных и их атрибутов
Шкалы
СРЕДА MATLAB
Окна MATLAB
Примеры применения команд
Пример функции
Разработка GUI-приложения
Элементы управления и их свойства
Написание функции отклика Callback
1.33M
Category: informaticsinformatics

Технология обработки информации. Data Mining

1. Data Mining

2. Что такое Data Mining?

"За последние годы, когда, стремясь к повышению
эффективности и прибыльности бизнеса, при создании БД все
стали
пользоваться
средствами
обработки
цифровой
информации, появился и побочный продукт этой активности горы собранных данных: И вот все больше распространяется
идея о том, что эти горы полны золота".
В прошлом процесс добычи золота в горной промышленности
состоял из выбора участка земли и дальнейшего ее
просеивания большое количество раз. Иногда искатель находил
несколько ценных самородков или мог натолкнуться на
золотоносную жилу, но в большинстве случаев он вообще
ничего не находил и шел дальше к другому многообещающему
месту или же вовсе бросал добывать золото, считая это занятие
напрасной тратой времени.
Сегодня
появились
новые
научные
методы
и
специализированные
инструменты,
сделавшие
горную
промышленность намного более точной и производительной.

3.

*
Data Mining для данных развилась почти таким
же способом. Старые методы, применявшиеся
математиками и статистиками, отнимали
много времени, чтобы в результате получить
конструктивную и полезную информацию.
Сегодня на рынке представлено множество
инструментов,
включающих
различные
методы,
которые
делают
Data
Mining
прибыльным делом, все более доступным для
большинства компаний.

4.

Термин Data Mining получил свое название из двух
понятий:
*
поиска ценной информации в большой базе
данных (data) и
*
добычи горной руды (mining).
Оба процесса требуют или просеивания огромного
количества сырого материала, или разумного
исследования и поиска искомых ценностей.
Термин Data Mining часто переводится как добыча
данных, извлечение информации, раскопка
данных, интеллектуальный анализ данных,
средства поиска закономерностей.
Понятие "обнаружение знаний в базах данных"
(Knowledge Discovery in Databases, KDD)
можно считать синонимом Data Mining

5.

Data Mining - мультидисциплинарная область,
возникшая и развивающаяся на базе таких
наук как
прикладная статистика,
распознавание образов,
искусственный интеллект,
теория баз данных и др.,
см. рис.

6. Data Mining как мультидисциплинарная область

7.

Приведем
краткое
описание
некоторых
дисциплин, на стыке которых появилась
технология Data Mining.
Статистика
Статистика - это наука о методах сбора
данных, их обработки и анализа для
выявления
закономерностей, присущих
изучаемому явлению.
Статистика является совокупностью методов
сбора данных, их представления и обобщения,
а также анализа и получения выводов на
основании этих
данных.
Статистика оперирует данными, полученными
в
результате
наблюдений
либо
экспериментов.

8.

Машинное обучение можно охарактеризовать
как процесс получения программой новых
знаний.
Митчелл в 1996 году дал такое определение:
"Машинное обучение - это наука, которая
изучает
компьютерные
алгоритмы,
автоматически улучшающиеся во время
работы"

9.

Искусственный интеллект - научное направление,
в рамках которого ставятся и решаются задачи
аппаратного или программного моделирования
видов человеческой деятельности, традиционно
считающихся интеллектуальными.
Термин интеллект (intelligence) происходит от
латинского intellectus, что означает ум, рассудок,
разум, мыслительные способности человека.
Соответственно, искусственный интеллект (AI,
Artificial Intelligence) толкуется как свойство
автоматических систем брать на себя отдельные
функции интеллекта человека.
Искусственным интеллектом называют свойство
интеллектуальных систем выполнять творческие
функции,
которые
традиционно
считаются
прерогативой человека.

10.

Понятие Data Mining тесно связано с
технологиями баз данных и понятием данные

11. Данные

Что такое данные?
В широком понимании данные представляют собой
факты,
текст,
графики,
картинки,
звуки,
аналоговые или цифровые видео-сегменты.
Данные могут быть получены в результате
измерений, экспериментов, арифметических и
логических операций.
Данные должны быть представлены в форме,
пригодной для хранения, передачи и обработки.

12. Набор данных и их атрибутов

В таблице
данных
представлен
некоторый
набор

13.

По горизонтали таблицы располагаются
атрибуты объекта или его признаки.
По вертикали таблицы - объекты.
Объект описывается как набор атрибутов.
Объект также известен как запись, случай,
пример, строка таблицы и т.д.
Атрибут - свойство, характеризующее объект.
Например: цвет глаз человека, температура
воды и т.д.

14.

Часто ис
следования основываются на гипотезах.
Гипотезы проверяются с помощью данных.
Гипотеза - предположение относительно
параметров совокупности объектов, которое
должно быть проверено на ее части.
Гипотеза
частично
обоснованная
закономерность знаний, служащая либо для
связи между различными эмпирическими
фактами, либо для объяснения факта или
группы фактов.

15.

Пример гипотезы:
между показателями продолжительности жизни и
качеством питания есть связь. В этом случае
целью исследования может быть объяснение
изменений
конкретной переменной, в данном
случае - продолжительности жизни.
Допустим, существует гипотеза, что зависимая
переменная
(продолжительность
жизни)
изменяется в зависимости от некоторых причин
(качество
питания,
образ
жизни,
место
проживания и т.д.), которые и являются
независимыми переменными.
Однако переменная изначально не является
зависимой или независимой. Она становится
таковой
после
формулировки
конкретной
гипотезы. Зависимая переменная в одной гипотезе
может быть независимой в другой.

16.

Многие инструменты Data Mining при импорте
данных из других источников предлагают выбрать
тип шкалы для каждой переменной и/или выбрать
тип данных для входных и выходных переменных
(символьные,
числовые,
дискретные
и
непрерывные).
Пользователю такого инструмента необходимо
владеть этими понятиями.
Переменные могут являться числовыми данными
либо символьными.
Числовые данные, в свою очередь, могут быть
дискретными и непрерывными.

17.

Дискретные
данные
являются
значениями
признака, общее число которых конечно либо
бесконечно, но может быть подсчитано при
помощи натуральных чисел от одного до
бесконечности.
Пример дискретных данных. Продолжительность
маршрута троллейбуса (количество вариантов
продолжительности конечно): 10, 15, 25 мин.
Непрерывные данные - данные, значения которых
могут принимать какое угодно значение в
некотором интервале. Измерение непрерывных
данных предполагает большую
точность.
Пример непрерывных данных: температура,
высота, вес, длина и т.д.

18. Шкалы

Существует
пять
типов
шкал
измерений:
номинальная, порядковая, интервальная,
относительная и дихотомическая.
Номинальная шкала (nominal scale) - шкала,
содержащая только категории; данные
в ней не могут упорядочиваться, с ними не могут
быть произведены никакие арифметические
действия.
Номинальная
шкала
состоит
из
названий,
категорий, имен для классификации и сортировки
объектов
или
наблюдений
по
некоторому
признаку.
Пример
такой
шкалы:
профессии,
город
проживания, семейное положение.
Для этой шкалы применимы только такие
операции: равно, не равно.

19.

Порядковая шкала (ordinal scale) - шкала, в
которой числа присваивают объектам для
обозначения относительной позиции объектов, но
не величины различий между ними.
Измерения в порядковой шкале содержат
информацию только о порядке следования
величин, но не позволяют сказать "насколько одна
величина больше другой", или "насколько она
меньше другой".
Пример такой шкалы: место (1, 2, 3-е), которое
команда получила на соревнованиях,
номер студента в рейтинге успеваемости (1-й, 23й, и т.д.), при этом неизвестно, насколько один
студент успешней другого, известен лишь его
номер в рейтинге.
Для этой шкалы применимы только такие
операции: равно, не равно, больше, меньше .

20.

Интервальная шкала (interval scale) - шкала,
разности между значениями которой могут быть
вычислены, однако их отношения не имеют смысла.
Эта шкала позволяет находить разницу между двумя
величинами, обладает свойствами номинальной и
порядковой шкал, а также позволяет определить
количественное изменение признака.
Пример такой шкалы: температура воды в море утром
- 19 градусов, вечером - 24, т.е. вечерняя на 5
градусов выше, но нельзя сказать, что она в 1,26 раз
выше.
Номинальная
и
порядковая
шкалы
являются
дискретными, а интервальная шкала -непрерывной,
она позволяет осуществлять точные измерения
признака и производить
арифметические операции сложения, вычитания,
умножения, деления.
Для этой шкалы применимы только такие операции:
равно, не равно, больше, меньше, операции
сложения и вычитания.

21.

Относительная шкала (ratio scale) - шкала, в
которой есть определенная точка отсчета и
возможны отношения между значениями
шкалы.
Пример такой шкалы: вес новорожденного
ребенка (4 кг и 3 кг). Первый в 1,33 раза
тяжелее.
Цена на картофель в супермаркете выше в 1,2
раза, чем цена на базаре.
Относительные
и
интервальные
являются числовыми.
шкалы
Для этой шкалы применимы только такие
операции: равно, не равно, больше, меньше,
операции сложения и вычитания, умножения
и деления.

22.

Дихотомическая шкала (dichotomous scale) шкала, содержащая только две категории.
Пример такой
женский).
шкалы:
пол
(мужской
и

23.

Пример использования разных шкал для
измерений свойств различных объектов, в
данном случае температурных
приведен в таблице данных
условий,

24. СРЕДА MATLAB

MatLab – это программный продукт
компании
«The
MathWorks,
Inc.»[MathWorks], предназначенный для
инженерных, научных и прикладных
вычислений, а также визуализации
анализа их результатов.
и
MatLab предлагает мощный C-подобный
язык для реализации численных методов,
прекрасную графику и большое число
различных библиотек (toolbox-ов).

25.

Среда MatLab идеально подходит для решения
задач машинного обучения, обработки сигналов и
изображений и т.д.
Пользователю предоставляется инструмент, с
помощью
которого
можно
загрузить
и
предобработать данные, запустить алгоритмы
анализа, визуализировать результат, составить
отчёт об составить отчёт об
экспериментах и получить исполняемый файл,
который проводит нужные операции
над этими данными.
Слово MatLab означает matrix laboratry (матричная
лаборатория). Все вычисления здесь матричные,
и, в определенном смысле, только один
(полезный) тип данных: матрица.

26. Окна MATLAB

При запуске системы появляются следующие окна:
1. Command Window (правое нижнее на рис. ). В этом окне
вводятся команды (после значка-приглашения >> ). В нём
же отображаются результаты выполнения.
MatLab – это интерпретатор! Команды можно также записать
в М-файл (текстовый файл *.m) в виде скрипта
(последовательность команд) или функции (получает
аргументы и выдаёт значения), тогда они будут запускаться
при наборе в командном окне имени этого файла.
Для создания такого файла вызовите редактор командой
edit – появится окно редактора Editor (правое верхнее окно
на рис.
Если нажать клавишу «стрелка вверх» после
значка-приглашения
>> , то отобразится предыдущая
набранная команда.
2. Command History (левое нижнее на рис. В этом окне
отображаются все команды, которые запускали на
исполнение вводом в командном окне.

27.

28.

3. Workspace (левое верхнее на рис.). В этом окне
отображаются
все
переменные,
которые
использует система в данный момент. Если
набрать команду
a=1 , то в окне появится новая переменная:
матрица a размера 1×1.
Если набрать команду b=2; (точка с запятой), то
новая переменная b появится в окне рабочего
пространства, но в командном окне её результат
не выводится. Это эффект действия «точки с
запятой». Её используют, когда не требуется
промежуточный вывод
результатов.
4. Help (окно помощи, вызываемое нажатием
клавиши F1).
5. Current Directory (на рис. «закрыто» окном
Workspace, для активации необходимо щёлкнуть по
вкладке с названием окна). Отображает текущую
директорию. В этой директории система MatLab
ищет файлы данных и M-файлы.

29.

Считается,
что
основное
удобство при работе с системой
MatLab

отсутствие
необходимости
определять
переменные и распределять
память, а также «краткость
языка»: благодаря векторным
(матричным) вычислениям и
логическим
массивам
одна
строчка в этой среде заменяет
несколько строчек кода на
языке C++.

30. Примеры применения команд

>> a = [1,2], b = a‘
Порождение двух
векторов:вектор-строки
и вектор-столбца. Штрих
обозначает
транспонирование.
Элементы
векторов заключаются в
квадратные скобки!
>> a*b
Скалярное произведение
(строка на столбец).
>> a.*b'
Поэлементное
произведение.
Все поэлементные
операции
«помечаются» точкой
перед
знаком операции.
>> A = [1 2; 3 4]
Пробел является
горизонтальной
конкатенацией, «точка с
запятой» – вертикальной.

31.

>> D(1:2, 7:8)
Подматрица матрицы. a:b –
вектор с элементами
a,a+1,...,b.
>> [max(B); min(B);
sum(B)]
Максимальные и минимальные
элементы в столбцах. Суммы
столбцов.
>> x = -3:0.1:3;
>> y = exp(-x.*x);
>> plot (x,y);
Рисование плоского графика
>> x = rand([1 10]); y Рисование графика зачерненными
= randn([1 10]);
точками
>> scatter(x, y,
'filled');
>> x = rand([1 100]);
>> y = rand([1 100]);
>> z = sin(x + y);
>>scatter3(x,y,z);
Визуализация трехмерных точек
>> A
=[1,2,3;4,5,6;7,8,9];
>> [i,j] = find(A>5 &
A<9);
Поиск индексов элементов,
удовлетворяющих специальным
условиям.

32. Пример функции

function f = myfunc(a,b,c)
a = a + c; % new
b(1) = b(1) + 1; % new!!!
f = a(c>0) + b(c>0);
В этой функции переменные a,b меняются,
поэтому под них будут созданы новые области
памяти, а под переменную c – нет.

33. Разработка GUI-приложения

Для создания графического приложения в
меню MATLAB необходимо выбрать пункт File,
New, GUI (или набрать в командном окне
guide).При этом появится окно

34.

Выбираем Blank GUI (Пустое окно) и левую закладку.
Этот же пункт выбираем и для корректировки уже
существующего приложения, только выбираем правую
закладку. Появится окно:

35. Элементы управления и их свойства

Визуальные элементы (кнопки, поля ввода и
т.д.) размещаются на форме. Приложение
записывается в два файла с одним и тем же
именем и расширениями .fig (визуальная
форма) и .m (программный файл)
При нажатии правой кнопкой мыши
по
любому элементу на форме или по самой
форме появляется контекстное меню

36.

Из пунктов этого меню представляет интерес пункты
Property Inspector (Редактор свойств) и
View Callbacks (функции отклика)
Редактор свойств имеет вид:

37.

38.

Здесь перечисляются все свойства объекта.
Из них важны :
Tag – имя объекта и
String - текст кнопки или подсказки
Value - значение (включено или выключено)
для элементов RadioButton и ComboBox

39. Написание функции отклика Callback

Выбор в контекстном меню элемента View
Callbacks

40.

приводит к открытию в одноименном m-файле заголовка
функции отклика на нажатие кнопки или выбор пункта меню
function pushbutton1_Callback(hObject, eventdata, handles)
% hObject handle to pushbutton1 (see GCBO)
% eventdata reserved - to be defined in a future version of
MATLAB
% handles
structure with handles and user data (see
GUIDATA)
Функция имеет 3 параметра, из которых третий - handles является указателем на структуру свойств объекта.
Можно получить значение свойства с помощью вызова
функции get вида
значение =get(указатель.имя объекта, 'имя свойства');
и записывать в свойство новое значение с помощью вызова
функции set вида
set(указатель.имя объекта,'имя свойства',значение);
English     Русский Rules