Лекция №8. Тезаурусы, управляемые словари и метаданные
В обработке данных метаданные представляют собой описательные данные, содержащие сведения или документацию о других данных, с
Типы управляемых словарей
Кольцо синонимов
Синсеты WordNet
Нормативные файлы
Телефонные коды городов Харьковской области
Указатель производителей на tabletki.ua
Схемы классификации (таксономии)
Универсальный десятичный классификатор - УДК
Тезаурус - «книга синонимов, часто содержащая близкие или противоположные слова и антонимы». Представляет собой семантическую
Семантические отношения в тезаурусе
Технический жаргон
Семантические отношения в тезаурусе вин
Типы тезаурусов
Стандарты тезаурусов
Преимущества стандартов тезаурусов
Эквивалентность
Иерархичность
Ассоциативность
Аспекты терминологии
Иерархия и полииерархия
Пример полииерархии
Фасетная классификация
2.03M
Category: databasedatabase

Тезаурусы, управляемые словари и метаданные

1. Лекция №8. Тезаурусы, управляемые словари и метаданные

ЛЕКЦИЯ №8.
ТЕЗАУРУСЫ, УПРАВЛЯЕМЫЕ
СЛОВАРИ И МЕТАДАННЫЕ
1
• Метаданные
2
• Управляемые словари
3
• Тезаурусы
1

2. В обработке данных метаданные представляют собой описательные данные, содержащие сведения или документацию о других данных, с

В ОБРАБОТКЕ ДАННЫХ МЕТАДАННЫЕ ПРЕДСТАВЛЯЮТ СОБОЙ ОПИСАТЕЛЬНЫЕ
ДАННЫЕ, СОДЕРЖАЩИЕ СВЕДЕНИЯ ИЛИ ДОКУМЕНТАЦИЮ О ДРУГИХ ДАННЫХ, С
КОТОРЫМИ ОСУЩЕСТВЛЯЮТСЯ ДЕЙСТВИЯ В ПРИЛОЖЕНИИ ИЛИ СРЕДЕ.
НАПРИМЕР, В МЕТАДАННЫХ МОГУТ РЕГИСТРИРОВАТЬСЯ ДАННЫЕ ОБ ЭЛЕМЕНТАХ
ДАННЫХ ИЛИ АТРИБУТАХ (ТАКИХ КАК ИМЯ, РАЗМЕР, ТИП ДАННЫХ И Т. Д.),
ДАННЫЕ О ЗАПИСЯХ ИЛИ СТРУКТУРАХ ДАННЫХ (ДЛИНА, ПОЛЯ, КОЛОНКИ И Т.
Д.) И ДАННЫЕ О ДАННЫХ (ГДЕ ОНИ НАХОДЯТСЯ, КАК СВЯЗАНЫ, КТО ВЛАДЕЛЕЦ
И Т. Д.).
2

3. Типы управляемых словарей

3

4. Кольцо синонимов

Увеличивают полноту, но теряется точность
© Louis Rozenfeld and Peter Morville, 2002
4

5. Синсеты WordNet

5

6. Нормативные файлы

6

7. Телефонные коды городов Харьковской области

7

8.

8

9.

9

10. Указатель производителей на tabletki.ua

10

11. Схемы классификации (таксономии)

Таксономия - иерархическая организация
предпочтительных терминов:
• Иерархия на стороне клиента, типа Yahoo,
допускающая навигацию и являющаяся видимой
составной частью пользовательского интерфейса.
• Инструмент на сервере, применяемый
информационными архитекторами, авторами
содержимого и создателями указателей для
организации документов и разметки их с помощью
тегов.
© Louis Rozenfeld and Peter Morville, 2002
11

12. Универсальный десятичный классификатор - УДК

12

13. Тезаурус - «книга синонимов, часто содержащая близкие или противоположные слова и антонимы». Представляет собой семантическую

ТЕЗАУРУС - «КНИГА СИНОНИМОВ, ЧАСТО СОДЕРЖАЩАЯ БЛИЗКИЕ ИЛИ
ПРОТИВОПОЛОЖНЫЕ СЛОВА И АНТОНИМЫ». ПРЕДСТАВЛЯЕТ СОБОЙ
СЕМАНТИЧЕСКУЮ СЕТЬ ПОНЯТИЙ, СВЯЗЫВАЯ СЛОВА СО СВОИМИ
СИНОНИМАМИ, ОМОНИМАМИ, АНТОНИМАМИ, ВЫШЕСТОЯЩИМИ И
НИЖЕСТОЯЩИМИ ДЕСКРИПТОРАМИ, А ТАКЖЕ С АССОЦИАТИВНЫМИ
ДЕСКРИПТОРАМИ.
УПРАВЛЯЕМЫЙ СЛОВАРЬ, В КОТОРОМ ОПРЕДЕЛЕНЫ ЭКВИВАЛЕНТНОСТЬ,
ИЕРАРХИЧЕСКИЕ И АССОЦИАТИВНЫЕ СВЯЗИ ДЛЯ ЦЕЛЕЙ УЛУЧШЕНИЯ
ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ.
13

14. Семантические отношения в тезаурусе

© Louis Rozenfeld and Peter Morville, 2002
14

15. Технический жаргон

Preferred Term (PT) –
предпочтительный термин
Variant Term (VT) – альтернативный
термин
Broader Term (BT) – вышестоящий
дескриптор
•accepted term (принятый термин), acceptable value (приемлемое значение) или descriptor
(дескриптор). Все связи определяются относительно предпочтительного термина.
•непредпочтительный термин (nonpreferred term). Альтернативные термины определяются
как эквивалентные или почти синонимичные предпочтительному термину.
•является родительским по отношению к предпочтительному термину. В иерархии он
располагается на один уровень выше.
Narrower Term (NT) – нижестоящий
дескриптор
•является дочерним для предпочтительного термина. В иерархии он располагается на один
уровень ниже
Related Term (RT) – ассоциативный
дескриптор
•связан с предпочтительным термином отношением ассоциативности. Эта связь часто
выражается посредством «см. также».
Use (U) – смотри (см.)
Used For (UF) – синоним (с)
Scope Note (SN) – лексическое
примечание к тезаурусной статье
•следующий синтаксис: альтернативный термин Use предпочтительный термин
•обратное отношение: предпочтительный термин синонимичен альтернативному термину.
•определение предпочтительного термина особого типа, ограничивающее значение этого
термина, чтобы устранить неоднозначность.
15

16. Семантические отношения в тезаурусе вин

16

17. Типы тезаурусов

17

18. Стандарты тезаурусов

• ISO 2788 (1974, 1985, 1986,
международный)
• BS 5723 (1987, британский)
• AFNOR NFZ 47100 (1981, French)
• DIN 1463 (19871993, немецкий)
• ANSI/NISO Z39.19 (1994, США)
18

19. Преимущества стандартов тезаурусов

• Эти принципы
основаны на здравых
рассуждениях и
интеллекте.
• Большая часть
программного
обеспечения для
управления
тезаурусами
спроектирована с
учетом совместимости
со стандартом
ANSI/NISO, поэтому
полезно
придерживаться этого
стандарта с точки
зрения интеграции
технологий.
• Соответствие этому
стандарту
обеспечивает лучшие
возможности
совместимости между
базами данных,
поэтому объединение
двух комплектов
словарей при слиянии
конкурирующих
компаний вызовет
меньше трудностей.
19

20.

Эквивалентность
Иерархичность
Ассоциативность
20

21. Эквивалентность

синонимы
близкие синонимы
акронимы
аббревиатуры
лексические варианты
распространенные варианты
ошибочного написания
21

22. Иерархичность

Родовое
Целое – часть
Экземпляр
22

23. Ассоциативность

Область исследований и объект
исследований
Процесс и его агент
Понятия и их свойства
Действие и его результат
Причинная зависимость
23

24. Аспекты терминологии

Формат терминов
Выбор термина
Определение термина
Специфичность
терминов
24

25. Иерархия и полииерархия

25

26. Пример полииерархии

26

27. Фасетная классификация

27

28.

ТЕМА СЛЕДУЮЩЕЙ ЛЕКЦИИ:
«ОСНОВЫ ПРОЕКТИРОВАНИЯ
ЧЕЛОВЕКО-МАШИННЫХ
ИНТЕРФЕЙСОВ»
28
English     Русский Rules