1.78M

Category: $mathematics$ mathematics

Similar presentations:

Задача кластеризации. Алгоритмы кластеризации

Кластерный анализ

Кластеризация. Понятие кластеризации

Методы анализа данных. Примеры задач. Иллюстрации

Интегрированная система Maple

Имитационное моделирование в среде ППП «PowerSim»

Математические основы САПР. Mathcad. (Лекция 1)

Дистрибутивная рекурсия

Новейшие информационные технологии в управлении

Математика и статистика для анализа данных

Text Mining в RapidMiner (построение характеристического вектора и кластеризация документов)

1.

Text Mining в RapidMiner
(построение характеристического вектора и кластеризация документов)
Бленда Н.А.

2.

ШАГ 1: Установка расширения Text Mining и Web Mining

3.

4.

5.

6.

7.

ШАГ 2: Установка словаря WordNet

8.

9.

ШАГ 3: Получение характеристик текстового
документа

10.

Создаем
1) Новый проект
2) Ищем оператор Read Document
Открываем наш текст

11.

3) Настраиваем связи (без входа, выход на res)

12.

4)Смотрим на результат

13.

5)Получим список слов и их частотную характеристику
- оператор "Process Documents"
Это контейнер
процессов, в нем
настраивается логика

14.

Запустим и увидим пустоту…

15.

-токинизируем – то есть получаем список токенов(слов)

16.

Запустим и увидим …

17.

- Добавляем фильтры ( стоп слов и по длине слова)

18.

- Для удобства, приведем все слова в нижний регистр (Transform Cases)

19.

20.

ШАГ 4: Кластеризация набора документов

21.

1) Process Documents from Files – этот оператор берет все документы по шаблону из
указанного списка директориев

22.

Можно задать несколько
каталогов

23.

2) Настраиваем получение характеристического вектора документов

24.

Смотрим все выбранные токины из документов

25.

Продолжаем смотреть
Количество док в
которых
встречается слово

26.

3) Кластеризация

English Русский Rules