Similar presentations:
Знания в автоматической обработке текстов
1. Знания в автоматической обработке текстов
2. Ранее: данные vs. знания
• Много информации о использовании данныхи машинного обучения в автоматической
обработке текстов
• А как используются знания?
Комбинированные модели?
– Общие знания о мире и лексике
– Фактографические знания о мире (графы
знаний)
3. Лексическое и предметное знание в автоматической обработке текстов
• Необходимость больших ресурсов дляконкретных приложений
– Наиболее востребованные ресурсы в виде
семантических сетей
• Лексические отношения
– WordNet и ворднеты для разных языков
– ImageNet - создан на основе WordNet
• Знание о предметной области
– Медицинские ресурсы (UMLS, MESH, Gene Ontology)
4. Знаменитый ImageNet, используемый для обучения систем компьютерного зрения основан на WordNet
5. Дальнейшее развитие ресурсов
• Две тенденции– Использование концепции и ресурсов типа
WordNet
– Семантические графы и использование
данных Википедии
6. EuroWordNet (1996-1998)
• Структурные лингвистические ресурсы• Интерлингва:
английский WordNet
• Первоначально:
испанский, итальянский, голландский
• Далее:
немецкий, французский, чешский, эстонский
• Известны попытки создать свои структурные
ресурсы на базе WordNet:
- японский, болгарский, румынский, шведский
- русский
7. В настоящее время: Open Multilingual WordNet http://compling.hss.ntu.edu.sg/omw/
8. Тезаурус RuWordNet
9. Графы знаний
• Графы знаний – это большие семантическиесети, описывающие сущности, их типы,
свойства и отношения, включая абстрактные
понятия и большие объемы отношений для
конкретных объектов
• Один из существенных источников – Википедия
– FreeBase
– DBPedia
– BabelNet (WordNet+Wikipedia+…)
– WikiData – проект Викимедии по принципам
Википедии
10. Состав графа знаний
• База данных. Часто хранится в видетриплетов: субъект-отношение-объект
• Граф: можно использовать структуру сети для
различного рода задач
• Формальная семантика, которая помогает
интерпретировать данные и выводить новые
факты:
– Схема или онтология – классификация сущностей
– классы, подклассы, экземпляры, типы отношений,
аксиомы
– Конкретные сущности и отношения между ними
11. Откуда берутся открытые семантические графы
• Один из существенных источников –Википедия
– FreeBase
– DBPedia
– BabelNet (WordNet+Wikipedia+…)
– WikiData – проект Викимедии по принципам
Википедии
12. База Freebase
• онлайн-коллекция структурированных данных– Извлечены из структурированных фрагментов
Википедии
– Коллаборативное наполнение
– Публикация 2007
• Владелец Компания Metaweb
– 2010 Metaweb куплена компанией Google
• 2014 Google провозгласила использование графа
знаний в интернет-поиске
– Freebase+ автоматическое извлечение
информации из текстов
• Объем (2014 год)
– 2.4 млрд фактов
13. Представление знаний в системе Freebase
14. Типы отношений: Freebase
15. Google: Knowledge Vault
• Сначала были включены факты,описанные во Freebase
• Сейчас извлечение новых фактов из
Интернет-страниц
– 320M фактов с вероятностью > 0.9. Из них
223M были во FreeBase.
16.
17.
18.
19.
20.
21.
22. WikiData
• Wikipedia for data (2012)• Data is basically described through property-value
pairs;
– for example, the item for “Rome” might have a property
“population” with value “2,777,979.”
• Properties are objects and have their own Wikidata
pages with labels, aliases, and descriptions.
– Unlike items, however, these pages are not linked to
Wikipedia articles
– property pages always specify a datatype that de nes
which type of values the property can have. “Population”
is a number; “has father” relates to another Wikidata
item;.
23. Moscow
24.
25. BabelNet
Автор R. Navigliнесколько крупных европейских
грантов
Создал компанию на основе
разработанного ресурса
26. Проекты склеивания Википедии и WordNet
WordNet
–
Не хватает именованных сущностей
–
Нет многоязычия
–
Структурированный, требует много ручного
труда
Wikipedia
–
Мультиязычная
–
Обширная и подробная
–
Но слабоструктурированная
Проекты: Yago, BabelNet
27.
28. Понятия в Википедии
29. Нужно сопоставить страницы Википедии и WordNet
В WordNet: baloon – двазначения
30. Создание контекста для заголовочного слова словарной статьи
31. Включение в контекст слов с гиперссылками
32. Включение категорий в контекст
33. Выбор лучшего синсета для статьи Википедии
34. Контекст Википедии в сети WordNet
35.
Утверждается, что качество сопоставления – 87% accuracy для 50 тысяч пересек.понятий
36. Отношения в BabelNet
Из WordNetНа основе Википедии, используются гиперссылки:
37. Перевод на другие языки
• 1) С использованием соотв. статей Википедии• 2) Если у понятия нет статьи на некотором
языке, то применяется автоматический
перевод
– Английской статьи в Википедии для данного слова
(есть уверенность, что слово именно в нужном
значении)
– Предложений из корпуса SemCor, который
семантически аннотирован значениями WordNet
- Берется наиболее частый перевод данного слова
38.
39.
Перевод статьи Википедии для заданного значения Balloon40.
41.
42.
Babelnet.org43.
44.
45. ConceptNet
• Истоки ресурса восходят к 2004 году• В последнее время ресурс стал чаще
упоминаться, в связи с интересом к
common sense knowledge, учета контекста в
чат-ботах
• https://conceptnet.io/
46. Источники ConceptNet
• Facts acquired from Open Mind Common Sense (OMCS)(Singh 2002) and sister projects in other languages
• Information extracted from parsing Wiktionary, in multiple
languages,
• “Games with a purpose” designed to collect common
knowledge
• Open Multilingual WordNet a linked-data representation of
WordNet and its parallel projects in multiple languages
• JMDict (Breen 2004), a Japanese-multilingual dictionary
• OpenCyc, a hierarchy of hypernyms provided by Cyc (Lenat
and Guha 1989), a system that represents common sense
knowledge in predicate logic
• A subset of DBPedia (Auer et al. 2007), a network of facts
extracted from Wikipedia infoboxes
47. Статистика
• 21 million edges and over 8 million nodes.• Its English vocabulary contains approximately 1,500,000
nodes, and there are 83 languages in which it contains at
least 10,000 nodes
• 36 типов отношений
• Symmetric relations:
– Antonym, DistinctFrom, EtymologicallyRelatedTo, LocatedNear,
RelatedTo, SimilarTo, and Synonym
• Asymmetric relations:
– AtLocation, CapableOf, Causes, CausesDesire, CreatedBy, DefinedAs,
DerivedFrom, Desires, Entails, ExternalURL, FormOf, HasA, HasContext,
HasFirstSubevent, HasLastSubevent, HasPrerequisite, HasProperty,
InstanceOf, IsA, MadeOf, MannerOf, MotivatedByGoal, ObstructedBy,
PartOf, ReceivesAction, SenseOf, SymbolOf, and UsedFor
48.
49.
50. Заключение
• Семантические сети большого объема(графы знаний) используются для
различных приложений автоматической
обработки текстов
• Пример общедоступного графа знаний
Wikidata
51. Пример «осень» (странные месяцы, например)
52. Домашнее задание
• Посмотреть представление для словрусского языка в BabelNet
• - синонимы
• - отношения
• - переводы?
• 6 слов разных частей речи (по 2 сущ, прилаг.,
глагол), отчет, выводы
• Сравнить с RuWordNet – ruwordnet.ru
• babelnet.org - current version