Знания в автоматической обработке текстов
Ранее: данные vs. знания
Лексическое и предметное знание в автоматической обработке текстов
Знаменитый ImageNet, используемый для обучения систем компьютерного зрения основан на WordNet
Дальнейшее развитие ресурсов
EuroWordNet (1996-1998)
В настоящее время: Open Multilingual WordNet http://compling.hss.ntu.edu.sg/omw/
Тезаурус RuWordNet
Графы знаний
Состав графа знаний
Откуда берутся открытые семантические графы
База Freebase
Представление знаний в системе Freebase
Типы отношений: Freebase
Google: Knowledge Vault
WikiData
Moscow
BabelNet
Проекты склеивания Википедии и WordNet
Понятия в Википедии
Нужно сопоставить страницы Википедии и WordNet
Создание контекста для заголовочного слова словарной статьи
Включение в контекст слов с гиперссылками
Включение категорий в контекст
Выбор лучшего синсета для статьи Википедии
Контекст Википедии в сети WordNet
Отношения в BabelNet
Перевод на другие языки
ConceptNet
Источники ConceptNet
Статистика
Заключение
Пример «осень» (странные месяцы, например)
Домашнее задание
7.45M
Category: informaticsinformatics

Знания в автоматической обработке текстов

1. Знания в автоматической обработке текстов

2. Ранее: данные vs. знания

• Много информации о использовании данных
и машинного обучения в автоматической
обработке текстов
• А как используются знания?
Комбинированные модели?
– Общие знания о мире и лексике
– Фактографические знания о мире (графы
знаний)

3. Лексическое и предметное знание в автоматической обработке текстов

• Необходимость больших ресурсов для
конкретных приложений
– Наиболее востребованные ресурсы в виде
семантических сетей
• Лексические отношения
– WordNet и ворднеты для разных языков
– ImageNet - создан на основе WordNet
• Знание о предметной области
– Медицинские ресурсы (UMLS, MESH, Gene Ontology)

4. Знаменитый ImageNet, используемый для обучения систем компьютерного зрения основан на WordNet

5. Дальнейшее развитие ресурсов

• Две тенденции
– Использование концепции и ресурсов типа
WordNet
– Семантические графы и использование
данных Википедии

6. EuroWordNet (1996-1998)

• Структурные лингвистические ресурсы
• Интерлингва:
английский WordNet
• Первоначально:
испанский, итальянский, голландский
• Далее:
немецкий, французский, чешский, эстонский
• Известны попытки создать свои структурные
ресурсы на базе WordNet:
- японский, болгарский, румынский, шведский
- русский

7. В настоящее время: Open Multilingual WordNet http://compling.hss.ntu.edu.sg/omw/

8. Тезаурус RuWordNet

9. Графы знаний

• Графы знаний – это большие семантические
сети, описывающие сущности, их типы,
свойства и отношения, включая абстрактные
понятия и большие объемы отношений для
конкретных объектов
• Один из существенных источников – Википедия
– FreeBase
– DBPedia
– BabelNet (WordNet+Wikipedia+…)
– WikiData – проект Викимедии по принципам
Википедии

10. Состав графа знаний

• База данных. Часто хранится в виде
триплетов: субъект-отношение-объект
• Граф: можно использовать структуру сети для
различного рода задач
• Формальная семантика, которая помогает
интерпретировать данные и выводить новые
факты:
– Схема или онтология – классификация сущностей
– классы, подклассы, экземпляры, типы отношений,
аксиомы
– Конкретные сущности и отношения между ними

11. Откуда берутся открытые семантические графы

• Один из существенных источников –
Википедия
– FreeBase
– DBPedia
– BabelNet (WordNet+Wikipedia+…)
– WikiData – проект Викимедии по принципам
Википедии

12. База Freebase

• онлайн-коллекция структурированных данных
– Извлечены из структурированных фрагментов
Википедии
– Коллаборативное наполнение
– Публикация 2007
• Владелец Компания Metaweb
– 2010 Metaweb куплена компанией Google
• 2014 Google провозгласила использование графа
знаний в интернет-поиске
– Freebase+ автоматическое извлечение
информации из текстов
• Объем (2014 год)
– 2.4 млрд фактов

13. Представление знаний в системе Freebase

14. Типы отношений: Freebase

15. Google: Knowledge Vault

• Сначала были включены факты,
описанные во Freebase
• Сейчас извлечение новых фактов из
Интернет-страниц
– 320M фактов с вероятностью > 0.9. Из них
223M были во FreeBase.

16.

17.

18.

19.

20.

21.

22. WikiData

• Wikipedia for data (2012)
• Data is basically described through property-value
pairs;
– for example, the item for “Rome” might have a property
“population” with value “2,777,979.”
• Properties are objects and have their own Wikidata
pages with labels, aliases, and descriptions.
– Unlike items, however, these pages are not linked to
Wikipedia articles
– property pages always specify a datatype that de nes
which type of values the property can have. “Population”
is a number; “has father” relates to another Wikidata
item;.

23. Moscow

24.

25. BabelNet

Автор R. Navigli
несколько крупных европейских
грантов
Создал компанию на основе
разработанного ресурса

26. Проекты склеивания Википедии и WordNet


WordNet

Не хватает именованных сущностей

Нет многоязычия

Структурированный, требует много ручного
труда
Wikipedia

Мультиязычная

Обширная и подробная

Но слабоструктурированная
Проекты: Yago, BabelNet

27.

28. Понятия в Википедии

29. Нужно сопоставить страницы Википедии и WordNet

В WordNet: baloon – два
значения

30. Создание контекста для заголовочного слова словарной статьи

31. Включение в контекст слов с гиперссылками

32. Включение категорий в контекст

33. Выбор лучшего синсета для статьи Википедии

34. Контекст Википедии в сети WordNet

35.

Утверждается, что качество сопоставления – 87% accuracy для 50 тысяч пересек.
понятий

36. Отношения в BabelNet

Из WordNet
На основе Википедии, используются гиперссылки:

37. Перевод на другие языки

• 1) С использованием соотв. статей Википедии
• 2) Если у понятия нет статьи на некотором
языке, то применяется автоматический
перевод
– Английской статьи в Википедии для данного слова
(есть уверенность, что слово именно в нужном
значении)
– Предложений из корпуса SemCor, который
семантически аннотирован значениями WordNet
- Берется наиболее частый перевод данного слова

38.

39.

Перевод статьи Википедии для заданного значения Balloon

40.

41.

42.

Babelnet.org

43.

44.

45. ConceptNet

• Истоки ресурса восходят к 2004 году
• В последнее время ресурс стал чаще
упоминаться, в связи с интересом к
common sense knowledge, учета контекста в
чат-ботах
• https://conceptnet.io/

46. Источники ConceptNet

• Facts acquired from Open Mind Common Sense (OMCS)
(Singh 2002) and sister projects in other languages
• Information extracted from parsing Wiktionary, in multiple
languages,
• “Games with a purpose” designed to collect common
knowledge
• Open Multilingual WordNet a linked-data representation of
WordNet and its parallel projects in multiple languages
• JMDict (Breen 2004), a Japanese-multilingual dictionary
• OpenCyc, a hierarchy of hypernyms provided by Cyc (Lenat
and Guha 1989), a system that represents common sense
knowledge in predicate logic
• A subset of DBPedia (Auer et al. 2007), a network of facts
extracted from Wikipedia infoboxes

47. Статистика

• 21 million edges and over 8 million nodes.
• Its English vocabulary contains approximately 1,500,000
nodes, and there are 83 languages in which it contains at
least 10,000 nodes
• 36 типов отношений
• Symmetric relations:
– Antonym, DistinctFrom, EtymologicallyRelatedTo, LocatedNear,
RelatedTo, SimilarTo, and Synonym
• Asymmetric relations:
– AtLocation, CapableOf, Causes, CausesDesire, CreatedBy, DefinedAs,
DerivedFrom, Desires, Entails, ExternalURL, FormOf, HasA, HasContext,
HasFirstSubevent, HasLastSubevent, HasPrerequisite, HasProperty,
InstanceOf, IsA, MadeOf, MannerOf, MotivatedByGoal, ObstructedBy,
PartOf, ReceivesAction, SenseOf, SymbolOf, and UsedFor

48.

49.

50. Заключение

• Семантические сети большого объема
(графы знаний) используются для
различных приложений автоматической
обработки текстов
• Пример общедоступного графа знаний
Wikidata

51. Пример «осень» (странные месяцы, например)

52. Домашнее задание

• Посмотреть представление для слов
русского языка в BabelNet
• - синонимы
• - отношения
• - переводы?
• 6 слов разных частей речи (по 2 сущ, прилаг.,
глагол), отчет, выводы
• Сравнить с RuWordNet – ruwordnet.ru
• babelnet.org - current version
English     Русский Rules