1.44M
Category: informaticsinformatics

Проблеми аналізу інформації (лекція 9)

1.

НАЦІОНАЛЬНА АКА ДЕМІЯ СБ УКРАЇНИ
АНАЛІЗ ЗМІСТУ ДЖЕРЕЛ ІНФОРМАЦІЇ
КИЇВ - 2022

2.

ПЛАН ЛЕКЦІЇ
1. Проблеми аналізу інформації.
2. Алгоритм аналізу документальних джерел
інформації.
3. Технології аналізу електронної інформації
4. Контентний аналіз.

3.

РЕКОМЕНДОВАНА ЛІТЕРАТУРА
1. Васина Е.Ю. Профессиональный поиск научно-технической
информации: учеб. пособие / Е.Ю. Васина. – Екатеринбург.:
УГТУ–УПИ, 2009. – 157 с.
2. Паршукова Г.Б. Современные технологии информационного
поиска в профессиональной деятельности: уч. пособие /
Новосибирск.: НГАХА, 2004. – 177с.
3. 1. Галашев В.А. Системы поиска и обработки информации:
Учеб.-метод. пособие. Ижевск: Удм. гос. ун-т., 2011. 149 с.

4.

РЕКОМЕНДОВАНА ЛІТЕРАТУРА
Додаткова
2. Інформація і документація, Науково-інформаційна
діяльність. Терміни та визначення понять: ДСТУ 5034:2008.- К.:
Держспоживстандарт України, 2009. - III, 38 с.
3. Концепція формування системи національних електронних
інформаційних ресурсів// затверджена розпорядженням
Кабінету Міністрів України від 5 травня 2003 р. № 259-р
4. Закон України Про національну програму інформатизації /
ВВР, 1998, № 27-28, ст.181.
5. Інформація та документація. Видання. Основні види.
Терміни та визначення понять: ДСТУ 3017:2015. К.: ДП
«УкрНДНЦ», 2016. 42с

5.

1. ПРОБЛЕМИ АНАЛІЗУ ІНФОРМАЦІЇ
Аналіз інформації - процедура багатосторонньої обробки
фактичних даних, що забезпечують їх порівнянність,
об'єктивну оцінку і вироблення нової вивідної інформації.

6.

1. ПРОБЛЕМИ АНАЛІЗУ ІНФОРМАЦІЇ
Види аналізу інформації:
1. Традиційний експертний аналіз джерел інформації
(для вирішення тактичних і оперативних завдань).
2. Комп'ютерні системи аналізу електронної інформації
(системи звітності, багатовимірний аналіз даних, побудова
таблиць і діаграм) – для тиражування знань і вирішення
стратегічних проблем.
а) база для прийняття рішення – інструкція, інтуїція;
прийняття рішення – людина;
б) використання комп'ютерних програм (попередня
обробка: - очищення (фільтрація), зглажування тощо;
- математичні методи аналізу - кластеризація,
класифікація, регресія і т.д.
- моделі, підготовлені комп'ютером)

7.

2. АЛГОРИТМ АНАЛІЗУ ДОКУМЕНТАЛЬНИХ
ДЖЕРЕЛ ІНФОРМАЦІЇ
Послідовність проведення аналізу змісту документального
джерела інформації:
1. Аналіз структури документа за змістом.
2. Оцінка змісту по реферату.
3. Бібліографічна оцінка документа за переліком
використаних в документі джерел інформації.
4. Перевірка наявності в уже згадуваному джерелі
інформації авторської гіпотези вирішення проблеми;
5. Перевірка наявності доказу реальності висунутої автором
гіпотези;
6. Оцінка ступеня практичної реалізації гіпотези автора і
стадії її впровадження.
7. Проведення критичного аналізу теоретичних положень,
передумов і висновків автора.

8.

3. Технології аналізу електронної інформації
OLAP-технології (англ. online analytical processing,
аналітична обробка у реальному часі) - це інтерактивна
система що дозволяє переглядати різні підсумки по
багатовимірним даним. Термін «в реальному часі»
(англ. online) означає що нові результати отримуються
протягом секунд, без довгого очікування на результат
запиту.
Основоположником OLAP є автор реляційної моделі даних
Едгар Кодд, який запропонував у 1993 році «12 правил
аналітичної обробки в реальному часі» - за аналогією з
раніше сформульованими ним 12-ма правилами для
реляційних БД. У 1995 році Едгар Кодд додав ще 6 правил
та переформатував їх. У 2001 році для визначення OLAP був
запропонований більш простий тест FASMI[en] (4 вимоги).

9.

3. Технології аналізу електронної інформації
Основою концепції OLAP є ідея віртуально
багатовимірного OLAP-куба (гіперкуба). Вісями (вимірами)
OLAP-кубу є числові або короткі лінгвістичні дані про
предметну область роботи.
У теперішній час OLAP-куб часто створюють за допомогою
реляційних баз даних із застосуванням схем «зірка», а також
«сніжинка». В центрі «зірки» знаходиться таблиця, яка містить
ключові факти відповідно до їх назв у сховищі чи кіоску даних. До
таблиці фактів приєднується необхідна кількість таблиць-вимірів,
які є "променями зірки" у схемі бази даних ROLAP-моделі. Назви
стовпчиків цих таблиць - це первинні дані, на основі яких можуть
виконуватися базові OLAP-операції. Кількість можливих агрегацій
визначається кількістю способів, якими первинні дані можуть
бути ієрархічно відображені.

10.

3. Технології аналізу електронної інформації
Завдяки простоті розуміння і наочності OLAP набув широкого
поширення в якості механізму аналізу даних, але його
можливості в області більш глибокого аналізу, наприклад,
прогнозування - вкрай обмежені.
Основна проблема при вирішенні завдань прогнозування - це
побудова адекватної моделі досліджуваного процесу. Якщо
модель побудована, то на її вхід подається нова
інформація, пропускається через неї, а результат - це і є
прогноз.
Для цього застосовується зовсім інший набір технологій Knowledge Discovery in Databases (KDD).

11.

3. Технології аналізу електронної інформації
Knowledge Discovery in Databases – виявлення знань в базах
даних. KDD - це автоматизований процес пошуку корисних
знань в «сирих даних». KDD включає в себе питання
підготовки даних, вибору інформативних ознак, очищення
даних, застосування методів Data Mining (DM, див. нижче),
постобробки даних, інтерпретації отриманих результатів.
Безумовно, «серцем» всього цього процесу є методи DM,
що дозволяють виявляти знання.
Цими знаннями можуть бути правила, що описують зв'язки
між властивостями даних (дерева рішень), часто - шаблони
(асоціативні правила), а також результати класифікації
(нейронні мережі) і кластеризації даних (карти Кохонена) і
т.д.
KDD не задає набір методів обробки або придатні для аналізу
алгоритми, він визначає послідовність дій, щоб з вихідних
даних отримати знання.

12.

3. Технології аналізу електронної інформації
Даний підхід універсальний і не залежить від
предметної області, що є його перевагою.
В складі системи – Deductor, - повнофункціональна
платформа для вирішення завдань KDD, що
дозволяє провести всі вищеописані кроки.
Data Mining - метод виявлення в «сирих» даних раніше
невідомих, нетривіальних, практично корисних і доступних
для інтерпретації знань, необхідних для прийняття рішень в
різних сферах людської діяльності. Цей метод базується на
вирішенні таких завдань:
класифікація, кластеризація, регресія, асоціація, встановлення
послідовності і відхилення.

13.

3. Технології аналізу електронної інформації
Привабливість цього підходу в тому, що, незалежно від
предметної області, в KDD застосовуються одні і ті ж
операції:
1. Витяг даних.
2. Очищення (фільтрація) даних. «Брудні» дані можуть звести
нанівець застосовувані в подальшому механізми аналізу.
3. Трансформування даних. Різні методи аналізу вимагають
даних, підготовлених в спеціальному вигляді. Наприклад,
десь в якості входів можна використовувати тільки
цифрову інформацію.
4. Проведення аналізу Data Mining.
5. Інтерпретація отриманих результатів.

14.

3. Технології аналізу електронної інформації
Процес KDD складається з наступних кроків:
1. Підготовка вихідного набору даних.
2. Передобробка даних.
3. Трансформація, нормалізація даних.
4. Data Mining.
5. Постобробка даних.

15.

3. Технології аналізу електронної інформації
Text Analyst. Text Analyst розроблений як інструмент для аналізу змісту
текстів, смислового пошуку інформації, формування електронних архівів, і
надає користувачеві наступні основні можливості:
• аналіз змісту тексту з автоматичним формуванням гіперпосилань для
отримання смислового портрета тексту в термінах, основних поняттях і їх
смислових зв'язків;
• аналіз змісту тексту з автоматичним формуванням тематичного дерева з
гіперпосиланнями для виявлення структури тексту у вигляді ієрархії тем і
підтем;
• смисловий пошук з урахуванням прихованих смислових зв'язків слів запиту
зі словами тексту;
• автоматичне реферування тексту;
• кластеризація інформації - для аналізу розподілу матеріалу тексту за
тематичними класами;
• автоматична індексація тексту з перетворенням в гіпертекст;
• ранжування усіх видів інформації тексту за «ступенем значимості» з
можливістю варіювання детальності її дослідження;
• автоматичне формування повнотекстової бази знань з гіпертекстовою
структурою і можливостями асоціативного доступу до інформації.

16.

3. Технології аналізу електронної інформації
Oracle Inter Media Text
Одним з найбільш потужних продуктів, що дозволяють
реалізувати підтримку повнотекстових баз даних з
доступом через Інтернет, є система Inter Media Text в складі
СУБД Oracle8i. В основі технологій Oracle лежить
використання словника англійської мови - тезауруса, який
містить близько півмільйона слів, класифікованих за
тематичними категоріями:
для кожного слова встановлені його синоніми, більш загальні і
більш часткові поняття, а також «родинні» слова, які часто
мають з ним смисловий зв'язок в тексті.
Наявність тезауруса також дозволяє Inter Media Text проводити
тематичний аналіз тексту англійською мовою.
Більшість можливостей Inter Media Text в більшій мірі доступні
лише для англійської мови і, в меншій мірі, ще для ряду
європейських і східно-азіатських мов.

17.

3. Технології аналізу електронної інформації
Russian Context Optimizer (RCO)
Адаптацією технологій Oracle Inter Media Text до
російськомовних баз даних займаються фахівці компанії
«Гарант-Парк-Інтернет», яка випускає продукт під назвою
Russian Context Optimizer (RCO), призначений для спільного
використання з системою Inter Media Text.
Система Poly Analyst. Система Poly Analyst призначена для
автоматичного аналізу числових і текстових даних з метою
виявлення в них раніше невідомих, нетривіальних,
практично
корисних
і
доступних
розумінню
закономірностей, необхідних для прийняття оптимальних
рішень в бізнесі і в інших областях людської діяльності.

18.

4. Контентний аналіз
Контент-аналізом називають метод збору кількісних даних
про досліджуване явище чи процес, що містяться в
документах.
Під документом при цьому розуміється не тільки офіційний
текст (типу інструкції чи правового закону), але все
написане чи сказане, все, що стало комунікацією.
Контент-аналізу піддаються книги, газетні або журнальні
статті, оголошення, телевізійні виступи, кіно- та
відеозаписи, фотографії, гасла, етикетки, малюнки, інші
твори мистецтва, а також, зрозуміло, і офіційні документи.

19.

4. Контентний аналіз
Методика проведення контент-аналізу
1. Визначення категорій аналізу ключових понять
(смислових одиниць), наявних в тексті. Категорії аналізу
повинні бути:
а) доречними;
б) вичерпними (досить повно відображали зміст основних
понять);
в) взаємовиключними (один і той же зміст не повинен
входити в різні категорії в однаковому об’ємі);
г) надійними (такими, які не викликали б розбіжностей між
дослідниками з приводу того, що слід відносити до тієї чи
іншої категорії в процесі аналізу документа);

20.

4. Контентний аналіз
Методика проведення контент-аналізу
2. Вибір відповідних одиниць аналізу тексту. За одиницю
аналізу може бути прийнято:
а) слово;
б) речення;
в) тема;
г) ідея;
д) автор;
е) персонаж;
ж) соціальна ситуація;
з) частина тексту, що об'єднана чимось, що відповідає
смислу категорії аналізу.
3. Визначення одиниці рахунку

21.

4. Контентний аналіз
Методика проведення контент-аналізу
3. Визначення одиниці рахунку (кількісної міри одиниці аналізу,
що дозволяє реєструвати частоту (регулярність) появи
ознаки категорії аналізу в тексті ).
Одиницями рахунку можуть бути:
число певних слів або їх поєднань, кількість рядків,
друкованих знаків, сторінок, абзаців, авторських аркушів,
площа тексту, виражена в фізичних просторових величинах і
багато іншого.

22.

4. Контентний аналіз
Інструменти контент-аналізу
Проведення контент-аналізу вимагає попередньої розробки
ряду дослідницьких інструментів.
З них обов'язковими є:
• класифікатор контент-аналізу;
• протокол підсумків аналізу, який має друге
позначення - бланк контент-аналізу;
• реєстраційна картка або кодувальна матриця;
• інструкція досліднику, який безпосередньо займається
реєстрацією і кодуванням одиниць рахунку;
• каталог (список) проаналізованих документів.

23.

4. Контентний аналіз
Інструменти контент-аналізу
• Класифікатор контент-аналізу - загальна таблиця, в яку зведено
всі категорії (і підкатегорії) аналізу і одиниці аналізу. Класифікатор
є основним методичним документом контент-аналізу, що зумовлює
зміст всіх інших інструментів цього методу.
• Протокол підсумків аналізу, який має друге позначення - бланк
контент-аналізу. Це, по-перше, відомості про документ (його
автора, час видання, обсяг та ін.); по-друге, підсумки його аналізу
(кількість випадків вживання в ньому певних одиниць аналізу і
наступні звідси висновки щодо категорій аналізу).
• Реєстраційна картка або кодувальна матриця являє собою
кодувальну матрицю, в якій зазначається кількість одиниць
рахунку, що характеризує одиниці аналізу.
• Інструкція досліднику, який безпосередньо займається
реєстрацією і кодуванням одиниць рахунку;
• Каталог (список) проаналізованих документів.

24.

ДЯКУЮ ЗА УВАГУ!
0673211286
Настрадін
Володимир
Петрович
ПРОФЕСОР
НАЦІОНАЛЬНОЇ
АКАДЕМІЇ СБ
УКРАЇНИ
English     Русский Rules