Обработка текстов размеченной коллекции МФ РЯ средствами WordTabulator
Ex: разметка МФ (начало текста)
/Особенности тегирования в КГТ; информативность тегов для лингв.анализа: тег <q>
/Особенности тегирования в КГТ; информативность тегов для лингв.анализа: тег <head> и код_текста
Обязательные индексы тем, выделяемых экспертами Машинного фонда {{1..10},{61..71}} из 71
Факультативные индексы тем, выделяемых экспертами Машинного фонда (16 индексов)
1.2. ПО: Word Tabulator
Опции проекта WT, заданные по умолчанию:
Необходимые изменения опций для распознавания индекса с символами {<,>,0,1,2,3,4,5,6,7,8,9} :
Поисковый шаблон для сочетаний факультативной темы с основной: формат: *head>?????????</head* , т.е. 9 знаков между разделителями
Пример выдачи по шаблону РАСШИФРОВКА *head>izh??????</head* сочетаний индексов
Сложный поисковый шаблон:
Пример выдачи по шаблону РАСШИФРОВКА *head>izh??????</head* сочетаний индексов
363.50K
Category: softwaresoftware

Обработка текстов размеченной коллекции МФ РЯ средствами WordTabulator

1. Обработка текстов размеченной коллекции МФ РЯ средствами WordTabulator

2.

1.1. Данные:
тексты тематически индексированного
Корпуса газетных текстов (КГТ) из коллекции
Машинного фонда русского языка (МФ РЯ)
(http://cfrl.ru/newspap.shtm )

3. Ex: разметка МФ (начало текста)

<!DOCTYPE tei.2 SYSTEM "tei2.dtd" [
<!ENTITY % iso88591 SYSTEM "ISOlat1.ent">
%iso88591;
<!ENTITY % TEI.extensions.dtd SYSTEM "parole.dtd">
<!ENTITY % TEI.extensions.ent SYSTEM "parole.ent">
<!ENTITY % TEI.prose 'INCLUDE'>
]>
<tei.2>
<teiHeader type=text>
<fileDesc>
<titleStmt>
<title>Izvestiya, August 1997</title>
<respStmt>
<name>CFRL</name>
<resp>Parole encoding</resp>
</respStmt>
</titleStmt>
<extent words=199600></extent>
<publicationStmt>
<distributor>Computer Fund of Russian
Language</distributor>
Ex: разметка МФ
(разметка абзаца)
<q>Мы не отдадим им Караджича</q>, поклялся премьер-министр сербской
республики Гойко Кличкович, выступая
перед своими сторонниками
на митинге в Брчко.</p>

4. /Особенности тегирования в КГТ; информативность тегов для лингв.анализа: тег <q>

/Особенности тегирования в КГТ;
информативность тегов для лингв.анализа: тег <q>
<p> Прежде чем рассказать о деятельности госпожи Хьюстон, давайте
познакомимся с ней самой поближе. Эффектная, модно одетая
дама бальзаковского возраста по хабаровскому телефону непременно
говорящая <q>хэллоу</q> вместо привычного <q>алло</q>, вообще-то
не должна была основательно подзабыть родной язык. Ведь совсем
недавно она была Надей Зайковой из деревни Зайково, что на
Курганщине. Потом выучилась на зубного техника, несколько
лет обитала в Хабаровске, была замужем за неким Элисом, разошлась.
В Москве получила паспорт на фамилию Ноздрина. Шесть лет назад
вышла замуж за американского юриста Мэлколма Хьюстона. Естественно,
сменила место жительства, фамилию, гражданство. В Хабаровске
вновь уже госпожа Хьюстон появилась почти два года назад,
занялась бизнесом по усыновлению детей.</p>
СР.:
<p> Одна из фирм, которую официально представляет Надежда Хьюстон
- <q>Кэролайн Эдопшен Сервисез</q>, - вполне откровенно через сеть
Интернет обозначила цену только своих услуг по усыновлению каждого
ребенка - от одиннадцати до двадцати тысяч долларов. За увечных и
больных, как за товар с изъяном, цены снижаются, о чем беззастенчиво
сообщается все в той же рекламе.</p>
<q> - тег TEI,
q
должен содержать цитату
или кажущуюся цитату
Sic! Тегом <p> в КГТ
тегируется любой
закавыченный текст
МАЛОИНФОРМАТИВНО
ДЛЯ ОБРАБОТКИ

5. /Особенности тегирования в КГТ; информативность тегов для лингв.анализа: тег <head> и код_текста

/Особенности тегирования в КГТ;
информативность тегов для лингв.анализа: тег <head> и код_текста
<head>izh30polf</head>
ИНФОРМАТИВНОCТЬ
ДЛЯ ОБРАБОТКИ
EX.
имя газеты
месяц
номер газеты
AAA – обязательный индекс темы POL – политика;
а – факультативный индекс темы
f- западный

6. Обязательные индексы тем, выделяемых экспертами Машинного фонда {{1..10},{61..71}} из 71

ИНДЕКС
РАСШИФРОВКА
ИНДЕКС
РАСШИФРОВКА
acc
accident


adv
adventure
spo
sport
agr
agriculture
spy
spying
ani
animals
sta
statistics
ant
anthropology
tel
television
arc
architecture
the
theatre
arm
army
tow
town
art
visual arts
tra
tradition
bib
bibliography
tur
tourism
che
Chechnya
uni
universal


war
war
! Sic! Группировка тем при анализе (М.Метелица, 14 тем, связанных с ген.темой
ИСКУССТВО)

7. Факультативные индексы тем, выделяемых экспертами Машинного фонда (16 индексов)

-a
announcement
-i
interview
-v
home/NIS
-b
book review
-l
letter
-w
NIS/foreign
-d
dispute
-m
memoir
-x
advertisement
-f
foreign
-p
person
-y
history
-g
home/foreign
-r
region
-h
humour
-u
NIS
! Sic! ВОЗМОЖНА
рруппировка тем при
анализе (М.Метелица, 14
тем, связанных с ген.темой
ИСКУССТВО)
WT как инструмент тематического анализа
индексированных текстов

8. 1.2. ПО: Word Tabulator

Разработчик: С.В.Логичев
Сайт: www.rvb.ru
Назначение программы: <…>
Главное окно
программы

9. Опции проекта WT, заданные по умолчанию:

10. Необходимые изменения опций для распознавания индекса с символами {<,>,0,1,2,3,4,5,6,7,8,9} :

Необходимые изменения опций для распознавания индекса
с символами {<,>,0,1,2,3,4,5,6,7,8,9} :
Удалено из разделителей:: {/,<,>}
Добавлено в доп.символы: …
COMMENT: …
*<head>izh01spag</head>*

11. Поисковый шаблон для сочетаний факультативной темы с основной: формат: *head>?????????</head* , т.е. 9 знаков между разделителями

Поисковый шаблон для сочетаний факультативной темы
с основной: формат: *head>?????????</head* ,
т.е. 9 знаков между разделителями
C. Спецсимволы
шаблона:
?
*
Ср. далее:
Сужение поиска:
поиск в газете
"Известия"|IZ
за 8 месяц | H

12. Пример выдачи по шаблону РАСШИФРОВКА *head>izh??????</head* сочетаний индексов

Пример выдачи по шаблону
*head>izh??????</head*
# част. элемент
1. 8
head>izh07prey</head>
2. 6
head>izh12spof</head>
3. 5
head>izh26spof</head>
4. 4
head>izh05spog</head>
5. 3
head>izh09ecng</head>
6. 3
head>izh12polf</head>
7. 3
head>izh15polf</head>
8. 3
head>izh19spog</head>
9. 3
head>izh20polf</head>
10. 3 head>izh22crif</head>

……
340. 1
head>izh30spof</head>
341. 1
head>izh30towi</head>
342. 1
head>izh30turx</head>
416 1_ИзвестияАвгуст_сочетанияТем.txt
РАСШИФРОВКА
сочетаний индексов
пресса+история (!именно в номере 7)
спорт+западный
спорт+западный
спорт+отечественный
экономика+отечественный
политика+западный
политика+западный
спорт+отечественный
политика+западный
криминал+западный

спорт+западный
город+интервью
туризм+реклама

13. Сложный поисковый шаблон:

Извлекаются как коды с индексами основных тем, так и коды с сочетанием
основная+факультативная тема
#
част. элемент
1. 8
head>izh02con</head>
2. 8
head>izh07prey</head>
………
576. 1
730
head>izh30turx</head>
ПРИМЕР ВЫДАЧИ

14. Пример выдачи по шаблону РАСШИФРОВКА *head>izh??????</head* сочетаний индексов

Пример выдачи по шаблону
*head>izh??????</head*
# част. элемент
1. 8
head>izh07prey</head>
2. 6
head>izh12spof</head>
3. 5
head>izh26spof</head>
4. 4
head>izh05spog</head>
5. 3
head>izh09ecng</head>

… …
340. 1
head>izh30spof</head>
341. 1
head>izh30towi</head>
342. 1
head>izh30turx</head>
РАСШИФРОВКА
сочетаний индексов
пресса+история (!именно в номере 7)
спорт+иностранный
спорт+иностранный
спорт+отечественный
экономика+отечественный

спорт+иностранный
город+интервью
туризм+реклама
416
!Sic
Получение частотного списка сочетаний тем безразлично к номеру и
месяцу выхода газеты: MS ACCESS
English     Русский Rules