Предсказания о будущем Рэй Курцвейл – технический директор Google

Из доклада Я.Л. Шрайберга, директора ГПНТБ (Судак, 2017)

Открытый доступ, Открытая наука, открытые данные

What defines the Digital Humanities now?

Where does the Digital Humanities come from?

How do the Web and other networks affect the Digital Humanities?

What is ahead for the Digital Humanities?

Лингвистические науки статистического цикла

Квантитативная лингвистика - определение

Квантитативная лингвистика – мнения отечественных лингвистов

Стохастическая природа языковых законов в квантитативной лингвистике

Некоторые языковые (лингвистические) законы_1

Некоторые языковые (лингвистические) законы_2

Некоторые языковые (лингвистические) законы_3

Квантитативная лингвистика: примеры вклада в теорию и практику

Поляков В.Н., Соловьев В.Д. Компьютерные модели и методы в типологии и компаративистике. Казань. 2006

Методы математической статистики и моделирования в сравнительно-историческом языкознании

Ссылки на лекции Вячеслва Всеволодовича Иванова

Ссылки на лекции Андрея Анатольевича Зализняка

Полученная зависимость графически выражается гиперболой. Для разных языков, т.е. при замене одного текста другим общий характер распредел

Следствия закона Ципфа для корпусной лингвистики

Вероятностное прогнозирование как основной механизм поддержки синхронного перевода

Примеры научных задач, направленных на выявление особенностей текстовых структур

Древесно-стохастическое представление графематической информации и восстановление искаженных знаков текста

Скрытый марковский процесс/ Hidden Markov Models (HMM)

Known parameters of the HMM can be written down in the Python programming language:

Представление описанной выше информации с помощью стохастического дерева

9.18M

Category:

informatics

ИТ в гуманитарных исследованиях

1. ИТ в гуманитарных исследованиях

«XXI век будет веком гуманитарных наук
— или его не будет вовсе»
К. Леви-Стросс (1908 - 2009) -
французский этнолог,
социолог, этнограф, философ и культуролог, создатель собственного
научного направления в этнологии — структурной антропологии и теории
инцеста (одной из концепций происхождения права и государства),
исследователь систем родства, мифологии и фольклора.

2. Ray Kurzweil predictions: 2019

3. 2019_2

Расчет орбиты Марса: И.
Кеплер (1571-1630) – 4 года;
микропроцессор (2017) – 4
сек
Шахматы: В феврале 1996
года, в Филадельфии, Deep
Blue I проигрывает матч Г.
Каспарову со счётом 2 : 4. В
мае 1997 года Deep Blue II
выигрывает матч у Г.
Каспарова со счётом 3½ :
2½. В 21 в. чемпионы мира
по шахматам с компьютером
не пытаются соревноваться!
Игра Го: 2016 г. программа
под названием AlphaGo
победила профессионального
игрока Го
Покер: 2017г. Лучшие
игроки в покер один на один
оказались слабее программы
Libratus.

4. Предсказания о будущем Рэй Курцвейл – технический директор Google

5. 6. Достижение сингулярности в 2045 году

7. 2029

8. 2029_2

9. 2030-е

10. 2040-е (л)| 2045 – singularity (п)

11. Из доклада Я.Л. Шрайберга, директора ГПНТБ (Судак, 2017)

Сегодня мы переживаем 5-ую информационную революцию.
Суть 5-й революции заключается в интеграции в едином
информационном пространстве во всем мире программнотехнических средств, средств связи и телекоммуникаций,
информационных запасов и запасов знаний как единой
информационной телекоммуникационной инфраструктуры, в
которой активно действуют юридически и физические лица,
органы гос. власти и местного самоуправления.
Нашу эпоху часто называют «информационной эпохой», но никто
не называет ее «эпохой знаний». Инф-ция и знание – это не
одно и то же. Чтобы инф-ция стала знанием, ее надо сначала
обработать: получить, отсортировать, проанализировать,
интегрировать и сохранить (Р. Чалдини, 2016г)

12. Большие данные Big Data

Термин был введен в оборот в 2008г. в спец. выпуске ж. Nature. Он
отражает не столько количество чего-то, ск. переход кол-ва в качество.
Если традиционные базы данных (БД) характеризуются объемами от
гигабайт до терабайт, то базы Больших данных – это петабайты и
экзабайты.
1 байт
8 бит
1 килобайт
1024 байт ( байт)
1 терабайт
1024 Гб (
байт )
1 петабайт
1024 Тб (
байт)
1 экзабайт
1024 Пб (
байт)
Объем всех данных на планете на аналоговых и цифровых носителях
составляет ок. 300 экзабайт (без учета интернета). Скорость инф-ции
растет на 58% в год, кол-во передаваемой инф-ции на 28%, а общие
сохраняемые объемы инф-ции – на 23%.
Большие данные характеризуются сл. основными параметрами: 1) объем
(volume), 2) скорость (velocity), 3) разнообразие (variety), 4) достоверность
(veracity), 5) изменчивость (variability).

13. Информационные параметры цифровой среды

>4,7 млрд. стр. в интернете (март 2016г);
1 млн. экзабайт инф-ции, к к-рой ежегодно добавляется 1,1 зеттабайт
(начиная с 2017г);
Объем инф-ции удвоился за последние 2 года;
На данный момент проанализировано < 1% всей имеющейся в мире
инф-ции;
В 2012г общий объем отсканированных данных составил 2,8 зеттабайт,
к 2020г - будет 40 зеттабайт;
В 2000г доля инф-ции на цифровых носителях была 25%; с 2002 по
2007 (за 5 лет) она достигла 95% (!);
Число пользователей интернет в мире – 2,5 млрд человек.
По индексу развития ИКТ Россия занимает 43 место в мире, но прогресс
налицо
* Экспертный Совет при правительстве РФ разработал Программу
цифровой инфраструктуры страны (Цифровая экономика РФ), (к-рая
сейчас нах. на согласовании).

14. Информационные технологии и образование

Университеты и вузы РФ не м.б. в стороне от Больших
данных
Объем печатных, электронных фондов, доступ к
полнотекстовым БД. Нац. подписка на базы Web of
Science, Scopus и зарубежные полнотекстовые журналы
(> 6 000 наименований)
Проект «Современная цифровая образовательная среда»
Минобрнауки РФ. Сетевой «супервуз» свяжет платформы
«Открытое образование», «Лекториум универсариум» и
др.
К 2025г на открытых онлайн-курсах будет учиться до 11
млн студентов и школьников. В ближайшие 2-3 года
онлайн-курсы охватят большую часть направлений
подготовки бакалавриата и магистратуры

15.

Научно-образовательная среда оказалась не
готова к этому информационному валу. Сегодня
приходится срочно адаптироваться к реалиям
современной информационной среды
Если говорить о больших данных как эко-системе,
то ее основными характеристиками являются:
Методики анализа данных;
Технологии сбора и обработки данных;
Способы отображения и использования данных
Но к 2020г доля полезной информации в мире
составит всего 35%. Лучшее техническое
решение: «облачные среды», а не собственные
ресурсы для сортировки данных

16. Этапы информатизации общества

Каждая последующая эпоха приносит все больше изобретений и
научных открытий.
Каждая последующая эпоха в несколько раз менее
продолжительна и намного мощнее по объему чем предыдущая.
1-ую информац. революцию от 2-й отделяли тысячелетия.
Прогресс современных IT укладывается в годы и даже месяцы.
6-я информац. революция не за горами.
Ее суть: способ сбора, организации, использования инф-ции будет
определять, победите вы или проиграете.
Мир движется к «Открытому доступу» (ОД) к библиотечным,
музейным и архивным коллекциям. Появление ОД и оцифровки
было инициировано существующими проблемами доступа к
знаниям и объектам культуры

17. Открытый доступ, Открытая наука, открытые данные

Открытый доступ: открытый, бесплатный, постоянный,
полнотекстовый, онлайновый
Открытая наука
Общественная доступность и возможность многократного
использования научных данных;
Прозрачность методологии сбора и передачи данных;
Доступность и прозрачность научных публикаций;
Развитие широкоформатного научного сотрудничества в т.ч. и с
помощью интернета.
Открытые данные: идею предложил в 2009 г. cэр Тим
Бернес-Ли. Он же разработал модель открытости данных.
В 2014г в РФ открылся портал открытых данных
http:// data.gov.ru

18. Understanding Digital Humanities

Несговорова Г.П. Информационные технологии в гуманитарных
исследованиях и гуманитарном образовании // В сб.: Информатика в науке и
образовании Касьянов В.Н. Сер. "Конструирование и оптимизация программ"
Новосибирск, 2012. С. 90-105.
Т.В. Черниговская https://spbu.academia.edu/TatianaChernigovskaya
Burdick A., Drucker J., Lunenfeld P., Presner T. Schnapp J. Digital Humanities.
Boston: MIT press. 2012.
Schnapp, J. & Presner, P. (2009) ‘Digital Humanities Manifesto 2.0’
http://www.humanitiesblast.com/manifesto/Manifesto_V2.pdf
Berry D.M. The computational turn: Thinking about the digital humanities //
Culture Machine. 2011. Vol. 12. P.1-22.
Understanding Digital Humanities / ed. D.M. Berry. 2012. Palgrave MacMillan

19. What is the Digital Humanities?

Digital Humanities refers to new modes of scholarship and institutional units for
collaborative, transdisciplinary, and computationally engaged research, teaching, and
publication. Digital Humanities is less a unified field than an array of convergent practices
that explore a universe in which print is no longer the primary medium in which knowledge
is produced and disseminated. Digital tools, techniques, and media have expanded
traditional concepts of knowledge in the arts, humanities and social sciences,
but Digital Humanities is not solely “about” the digital (in the sense of limiting its
scope to the study of digital culture). Nor is Digital Humanities only “about” the humanities
as traditionally understood since it argues for a remapping of traditional practices. Rather,
Digital Humanities is defined by the opportunities and challenges that arise from the
conjunction of the term digital with the term humanities to form a new collective singular.
The opportunities include redrawing the boundary lines among the humanities, the social
sciences, the arts, and the natural sciences; expanding the audience and social impact of
scholarship in the humanities; developing new forms of inquiry and knowledge production
and reinvigorating ones that have fallen by the wayside; training future generations of
humanists through hands-on, project-based learning as a complement to classroom-based
learning; and developing practices that expand the scope, enhance the quality, and
increase the visibility of humanistic research.
The challenges include addressing fundamental questions such as: How can skills
traditionally used in the humanities be reshaped in multimedia terms? How and by whom
will the contours of cultural and historical memory be defined in the digital era? How might
practices such as digital storytelling coincide with or diverge from oral or print-based
storytelling? What is the place of humanitas in a networked world?

20. What defines the Digital Humanities now?

The computational era has been underway since World War II, but after the
advent of personal computing, the World Wide Web, mobile communication, and
social media, the digital revolution entered a new phase, giving rise to a vastly
expanded, globalized public sphere and to transformed possibilities for knowledge
creation and dissemination. Building on the first generation of computational
humanities work, more recent Digital Humanities activity seeks to revitalize liberal
arts traditions in the electronically inflected language of the 21st century: a
language in which, uprooted from its longstanding paper support, text is
increasingly wedded to still and moving images as well as to sound, and supports
have become increasingly mobile, open, and extensible. And the notion of the
primacy of text itself is being challenged. Whereas the initial waves of computational
humanities concentrated on everything from word frequency studies and textual
analysis (classification systems, mark-up, encoding) to hypertext editing and textual
database construction, contemporary Digital Humanities marks a move beyond a
privileging of the textual, emphasizing graphical methods of knowledge production
and organization, design as an integral component of research, transmedia
crisscrossings, and an expanded concept of the sensorium of humanistic knowledge.
It is also characterized by an intensified focus on the building of transferrable tools,
environments, and platforms for collaborative scholarly work and by an emphasis
upon curation as a defining feature of scholarly practice.

21. What isn’t the Digital Humanities?

The mere use of digital tools for the purpose of humanistic research
and communication does not qualify as Digital Humanities. Nor, as
already noted, is Digital Humanities to be understood as the study
of digital artifacts, new media, or contemporary culture in place of
physical artifacts, old media, or historical culture.
On the contrary, Digital Humanities understands its object of
study as the entire human record, from prehistory to the present.
This is why fields such as classics and archaeology have played just
as important a role in the development of Digital Humanities as has,
for example, media studies. This is also why some of the major
sectors of Digital Humanities research extend outside the traditional
core of the humanities to embrace quantitative methods from the
social and natural sciences as well as techniques and modes of
thinking from the arts.

22. Where does the Digital Humanities come from?

The roots of computational work in the humanities stretch back to 1949 when the
Jesuit scholar Roberto Busa, working in collaboration with IBM, undertook the creation of
an automated approach to his vast Index Thomisticus, a computer-generated
concordance to the writings of Thomas Aquinas. By means of such early uses of
mainframe computers to automate tasks such as word-searching, sorting, counting, and
listing, scholars could process textual corpora on a scale unthinkable with prior methods
that relied on handwritten or typed index cards.
Other early projects included the debut, in 1966, of Computers and the Humanities,
the first specialized journal in the field. Seven years later, the Association for Literary and
Linguistic Computing (ALLC ) was founded, with the Association for Computers and the
Humanities (ACH) following in 1978.
By the mid-1980s computational methods for linguistic analysis had become
widespread enough that protocols for tagging digital texts were needed. This spurred the
development of the Text Encoding Initiative (TEI). This important undertaking reshaped
the field of electronic textual scholarship and led subsequent digital editing to be carried
out in Extensible Markup Language (XML), the tag scheme of which TEI is a specialized
subset. The first humanities- based experiments with database structures and
hypertextual editing structured around links and nodes (rather than the linear
conventions of print) date from this period, as do the many pilot projects in
computational humanities in the United States sponsored by the National Endowment for
the Humanities and other agencies, organizations, and foundations.

23. How do the Web and other networks affect the Digital Humanities?

As this revolution in protocols was taking place, the explosion of personal
computing in the mid-1980s combined with the advent of the World Wide
Web a decade later gave rise to a new generation of Digital Humanities work
that was less text-centered and more design-driven. The desktop
environment—with its graphical user interface, real-time WYSIWYG toolkit*,
and evolution from command lines to icons and window-based frames—not
only vastly expanded the corpus of born-digital documents but also ushered
in the gradual integration of audio, video, and graphics.
This integration has matured over the past decades and given Web culture its
profoundly multimedial character. It also favored the enhancement of models
of sharing, co-creation, publication, and community-building that have
situated the Web at the center of contemporary social debates and socioeconomic processes.
The concept of the Web as a public sphere that extends the physical public
spaces of contemporary life has been intensified thanks to smartphones,
tablets, and other ubiquitous and pervasive computing and media devices.
*What You See Is What You Get

24. What is ahead for the Digital Humanities?

Contemporary Digital Humanities stands not in opposition to the
past, but on its shoulders. It honors the pioneering labors
carried out over the past seven decades in the form of statistical
processing (computational linguistics), linking (hypertext),
modeling (architectural and visual displays), the creation of
structured data (XML), and iterative editing and version control
(for critical editions as well as analysis and creative practices),
even as it seeks to move beyond repository building and editing
to new synthetic practices. It is inspired by the same core
conviction that animated computational humanities and early
Digital Humanities pioneers: the conviction that computational
tools have the potential to transform the content, scope,
methodologies, and audience of humanistic inquiry

25. 3 waves of Digital Humanities

first-wave digital humanities involved the building of infrastructure in the studying of
humanities texts through digital repositories, text markup, etc.
second-wave digital humanities expands the notional limits of the archive to include
digital works, and so bring to bear the humanities’ own methodological toolkits to look
at ‘born- digital’ materials, such as electronic literature (e-lit), interactive fiction (IF),
web-based artefacts, and so forth.
a tentative path for a third wave of the digital humanities, concentrated around the
underlying computationality of the forms held within a computational medium.
Indeed, we could say that third-wave digital humanities points the way in which
digital technology highlights the anomalies generated in a humanities research project and
which leads to the questioning of the assumptions implicit in such research, e.g. close
reading, canon formation, periodization, liberal humanism, etc. We are, as Presner argues,
‘at the beginning of a shift in standards governing permissible problems, concepts, and
explanations, and also in the midst of a transformation of the institutional and conceptual
conditions of possibility for the generation, transmission, accessibility, and preservation of
knowledge’.

26. ИТ в лингвистических исследованиях

27. Лингвистические науки статистического цикла

Математическая лингвистика
Статистическая лексикография
Квантитативная лингвистика (опирается на
методологический инструментарий статистики),
Теория информации
Теория лингвистической реконструкции
Комбинаторика
Инженерная лингвистика
Компьютерная лингвистика (использует методы
программирования и представления знаний)

28. Квантитативная лингвистика - определение

это раздел общей лингвистики и, в частности,
математической лингвистики. Квантитативная лингвистика
(КЛ) занимается исследованием процесса изучения языка,
его изменения и сферы применения, а также структуры
естественных языков. КЛ исследует язык при помощи
статистических методов; её конечная цель —
сформулировать законы, по которым функционирует язык
и, в конечном счете, построить общую теорию языка в виде
совокупности взаимосвязанных законов функционирования
языков. Специально для этой цели была создана
синергетическая лингвистика (Synergetic linguistics). КЛ
эмпирически основывается на результатах языковой
статистики, которая, в свою очередь, может
интерпретироваться как статистика языков или статистика
лингвистического объекта. Эта область знаний не
обязательно связана с фундаментальными научными
целями. Корпусная лингвистика и компьютерная
лингвистика также вносят свой вклад в КЛ, поставляя
важные эмпирические данные.

29. Квантитативная лингвистика – мнения отечественных лингвистов

Основана на применении количественных методов к
изучению лингвистических объектов
Частотность принадлежит функциональной стороне
системы… учет частотности любого языкового явления
– полезный прием при анализе (Ярцева В.Н.)
Анализ частотности разных типов слов в разных
стилях книжной и разговорной речи помогли бы
установить структурно-грамматические, а отчасти и
семантические различия между стилями (академик
Виноградов В.В.)
Квантитативный подход способен охватить лишь
определенный аспект языка и речи, отражающий ряд
важных сторон речевой деятельности, которые
невозможно обнаружить чисто качественным анализом
(Марчук Ю.Н.)

30. Ранние концепции КЛ

относятся к древнегреческой и древнениднийской культурам.
Один из исторических источников включает приложения
комбинаторики к лингвистическим реалиям, другой
основывается на элементарных статистических исследованиях,
которые легли в основу колометрии (colometry measurement or
division (as of a manuscript or a rhythmic utterance) by cola (pl. of
colon) и стихометрии
In ancient prosody, analysis of a rhythmical period into cola or sections.
Total stichometry is the practice of reporting the total number of lines in a
work. Partial stichometry is the practice of including a series of numerals in
the margins of a text, usually to mark every hundredth line.
Some modern Jewish and Christian scholars use ‘stichometry’ as a synonym for
‘stichography,’ which is the occasional practice in ancient scriptures of laying out
texts so that each biblical or poetic verse begins on a new line)

31. Стохастическая природа языковых законов в квантитативной лингвистике

В КЛ под законом понимается класс гипотез, выведенных из
теоретических допущений, математически сформулированных,
взаимосвязанных с другими законами в этой области и в достаточном
объёме и успешно проверенных на эмпирических данных, то есть
таких, которые нельзя было опровергнуть несмотря на многочисленные
попытки.
Reinhard Köhler пишет о законах КЛ (2005): «… можно показать, что эти
свойства лингвистических элементов и отношений между ними
подчиняются универсальным законам, которые могут быть
сформулированы строго математически также как и законы
естественных наук. Нужно иметь в виду в данном контексте, что эти
законы стохастической природы; они не соблюдаются в каждом
отдельном случае (в этом не было бы необходимости и возможности);
они скорее определяют вероятности событий или количественные
отношения изучаемых явлений. Легко найти противоположные
примеры каждому из упомянутых выше примеров; тем не менее, эти
случаи не нарушают соответствующих законов, поскольку вариации
вокруг статистического среднего не только допустимы, но и даже
необходимы; сами они квантитативно точно определяются
соответствующими законами. Ситуация такая же, как и в естественных
науках, которые уже давно отказались от старых детерминистских и
каузальных (причинно-следственных) взглядов на мир и заменили их
на статистические/вероятностные модели.»

32. Некоторые языковые (лингвистические) законы_1

Распределение длин (или, в более общем виде,
многокомпонентности). Исследование частот
различных языковых единиц с точки зрения их длин в
текстах и словарях регулярно приводит к выявлению
целого ряда распределений, в зависимости от
изучаемой единицы.
Закон
Закон
Закон
Закон
Закон
распределения
распределения
распределения
распределения
распределения
длин
длин
длин
длин
длин
морфов;
ритмических единиц;
предложений;
слогов;
слов;
Другие языковые единицы, которые также
подчиняются этому закону, — это, например, длины
так называемых hrebs и речевых актов.
Это же справедливо и для распределений звуков
(фонов) различной длительности (долготы).

33. Некоторые языковые (лингвистические) законы_2

Закон Менцерата (также, в особенности в
лингвистике, известный как закон МенцератаАльтмана): размеры составляющих
конструкции уменьшаются с увеличением
самой изучаемой конструкции.
Чем длиннее, например, предложение
(измеренное количеством входящих в его состав
придаточных предложений), тем короче входящие
в его состав придаточные предложения
(измеренные количеством слов),
Чем длиннее слово (в слогах или морфах), тем
короче слоги или слова в звуках.

34. Некоторые языковые (лингвистические) законы_3

Закон изменения языка: Процессы роста в языке (как, например,
рост словаря), распространение иностранных и заимствованных
слов, изменения в флективной системе и т. д. подчиняются
экспоненциальному закону, известному в КЛ как закон Р.Г.
Пиотровского (1977), и соответствуют моделям роста в других
научных дисциплинах. Закон Пиотровского — это частный случай
так называемой логистической модели. Было показано, что он
затрагивает и процессы усвоения языка.
Закон Ципфа: Частота слова обратно пропорциональна их рангу в
списках частотности. Слова в тексте организованы в соответствии
с частотой их появления в тексте, и каждому из них присвоен
номер ранга и соответствующая частота. Со времен Джорджа
Кингсли Ципфа предлагалось большое количество математических
моделей, описывающих отношения между рангом и частотой.

35. Квантитативная лингвистика: примеры вклада в теорию и практику

Математическая теория словообразования
Кластерный анализ Кластер — группа
элементов, характеризуемых общим свойством,
главная цель кластерного анализа — нахождение
групп схожих объектов в выборке
Контент-анализ
Лексико-статистический анализ
Построение частотных словарей
Конкордансов
Создание машинных фондов лексики

36. Поляков В.Н., Соловьев В.Д. Компьютерные модели и методы в типологии и компаративистике. Казань. 2006

Кластерный анализ − множество вычислительных
процедур, которые формируют либо выявляют
иерархии (разбиения), лежащие в основе тех или
иных совокупностей данных. Алгоритм
кластеризации действует в два этапа:
на первом этапе вычисляется метрика (показатели
сходства объектов классифицируемой совокупности),
на втором этапе происходит пошаговое построение
классов.
Выбор способов расчета метрик обусловлен
способом описания входных данных. (с.70)

37. Методы математической статистики и моделирования в сравнительно-историческом языкознании

Статистические выкладки, например, используются при
установлении авторства на основе подсчета стилистических
особенностей произведения (эта отрасль носит название
эвристики).
Теми же способами в сравнительно-историческом языкознании
возможно определение приблизительной датировки
произведения (памятника письменности).Этим занимается
стилометрия
Лексикостатистика на основе количественных показаний
словарного состава стремится объективно констатировать
наличие родства между языками, а также определить время
их вычленения из единого праязыка.
Первую попытку выразить степень родства между отдельными
группами индоевропейских языков посредством этого метода
сделал польский этнограф Ян Чекановский в 1927 году.
Лексикостатистику начал широко применять американский
языковед Моррис Сводеш в 1948 году.

38. Положения Сводеша

Основной словарный фонд всех языков
изменяется медленно и с постоянной
скоростью.
Сохранность подобных слов, положим, за
одно тысячелетие выражается
приблизительно одной и той же цифрой,
процент утраты также одинаков.
Если нам известен процент сохранившихся
генетически тождественных элементов
лексического ядра у пары родственных
языков, то можно вычислить время,
прошедшее с того момента, как эти языки
разделились.

39. Ссылки на лекции Вячеслва Всеволодовича Иванова

Вячеслав Иванов. "Индоевропейские языки и миграции
индоевропейцев" (эфир 27 сентября 2010 года)
http://www.youtube.com/watch?v=CKlGCc0xhv8
Вячеслав Иванов. "Этрусский язык: лингвистика,
археология, история" (эфир 28 сентября 2010 года)
http://www.youtube.com/watch?v=IKUUFYgA6mc
Вячеслав Иванов "Языки большого города в истории
человечества" (эфир 29 сентября 2010 года)
Вячеслав Иванов. "Макросемьи языков и расселение
человека из Африки" (эфир 30 сентябрЯ 2010 года)
http://www.youtube.com/watch?v=7JI3oQ4OM4k

40. Ссылки на лекции Андрея Анатольевича Зализняка

Андрей Зализняк. "Берестяные грамоты". 2
лекции (эфир 22, 23 сентября 2010 года)
http://www.youtube.com/watch?v=7G_QD1603yo
Андрей Зализняк. "Читаем "Слово о полку
Игореве". 2 лекции (эфир 28,29 апреля 2010)
http://www.youtube.com/watch?v=zvjHp8am3Ig
http://tvkultura.ru/article/show/article_id/64
599/brand_id/20898/type_id/2

41. Закон Ципфа

Закон Ципфа (Зипфа) — эмпирическая закономерность
распределения частоты слов естественного языка: если все
слова языка (или просто достаточно длинного текста)
упорядочить по убыванию частоты их использования, то
частота n-го слова в таком списке окажется приблизительно
обратно пропорциональной его порядковому номеру n (так
называемому рангу этого слова). Например второе по
используемости слово встречается примерно в два раза реже,
чем первое, третье — в три раза реже, чем первое, и т. д.
f•r=c
Гарвардский лингвист Джордж Ципф (George Kingsley Zipf)
заметил, что частота использования n-го наиболее часто
используемого слова в естественных языках приблизительно
обратно пропорциональна n (то есть, рангу этого слова). Под
рангом понимается порядковый номер слова в
упорядоченном по убыванию частоты словнике (списке всех
слов текста).
Закон носит имя своего первооткрывателя — американского
лингвиста Джорджа Ципфа (George Kingsley Zipf) (1902–1950)

42. Полученная зависимость графически выражается гиперболой. Для разных языков, т.е. при замене одного текста другим общий характер распредел

Полученная зависимость графически выражается
гиперболой. Для разных языков, т.е. при замене одного
текста другим общий характер распределения не
меняется: он имеет форму гиперболической лестницы.

43. Следствия закона Ципфа для корпусной лингвистики

В связи с тем, что со статистической точки
зрения язык содержит большое число
относительно редких слов (Закон Ципфа), для
исследования первых пяти тысяч наиболее
частотных слов (например, убыток,
извиняться) требуется корпус размером около
10-20 миллионов словоупотреблений, в то
время как для описания первых двадцати
тысяч слов (незатейливый, сердцебиение,
роиться) уже требуется корпус свыше ста
миллионов словоупотреблений.

44. Теория вероятности в языкознании

На статистике основывается теория вероятности,
которая также используется в языкознании, т.к. по
имеющимся сведениям о степени частотности
языковых единиц, их сочетаемости и распределению
в тексте можно предугадать вероятность
возникновения той или иной единицы. Данная теория
применима в фонетике и особенно в синтаксисе.
Состояние системы в данный момент времени
определяет вероятность того, что через известный
промежуток времени система будет выглядеть иной,
причем эта вероятность будет зависеть от хода
процесса в предшествующий период.

45. Теория вероятности в языкознании

46. Вероятностное прогнозирование как основной механизм поддержки синхронного перевода

… «Но главное дело своей жизни — обоснование
роли вероятностного прогнозирования как
основного механизма, поддерживающего
синхронный перевод — Гелий Васильевич
Чернов совершил. Это было новое слово в
науке. Такое дается не многим.»
(Павел Палажченко
http://www.pavelpal.ru/ - Мой несистематический
website: лингвистика и политика.)

47. Дешифровка незнакомых письменностей

Дешифровка незнакомых письменностей базируется на
формальных понятиях, с помощью которых строится исходная
система знаков, применяемая при раскрытии языковых
сущностей текста. Формальные определения базируются на
малом наборе неопределяемых понятий и представляют собой
утверждения, построенные по математическим правилам.
Свойства сочетаний элементов текста проявляются в их
статистических характеристиках, индивидуальной и совместной
встречаемости. Фонемы, слова и др. языковые единицы
выступают в тексте в качестве зависимых лингвистических
событий, обусловленных контекстом, а их вероятности являются
условными. Поэтому применение классического аппарата теории
вероятности и статистики в лингвистике очень ограничено.
В большинстве случаев лингвистический опыт характеризуется
условной энтропией, определяющейся тем контекстным
окружением, в котором находится данный участок текста.

48.

История дешифровки древних систем письма теперь
вписывается между двумя именами – Жана Шампольона
(1790 - 1832) (Розеттский камень (1822)) и Юрия
Валентиновича Кнорозова (1922 – 1997). (1955)
Ю. Кнорозов с
сиамской кошкой Асей
(Аспидом) в 1971 году
Согласно методике дешифровки, предложенной Ю. В. Кнорозовым, предполагается, что неизвестный
текст записан на некотором, пока для нас неизвестном, но естественном
языке, не подвергался специальным преобразованиям типа зашифровки
с целью затруднить чтение этого текста. Предполагается, что в тексте
существует определенная структура связей, причем для большинства
случаев связи в тексте проявляются на небольшом расстоянии и близкие
по тексту элементы находятся в некотором соотношении. Поэтому
основной метод – позиционная статистика.

49. Лингвистическая комбинаторика (ЛК)

ЛК – это отрасль языкознания, изучающая в рамках
лингвистического времени качественные и
количественные характеристики как языковых
континуумов, так и входящих в них языковых
элементов с целью определения возможности
(нескольких возможностей или невозможности) и
результатов различных видов их взаимодействия.
Речь как комбинация знаков на графемном уровне
позволяет строить алгоритмы, распознающие слова,
выделяющие новое слово и отождествляющие
искажения в отличие от новых слов. Статистико- и
теоретико-информационные свойства слов как
совокупности графем позволяют применять
дешифровочные методы, позволяющие отличать
текст на естественном языке от нетекста.

50. Распознавание графем

Слово – это последовательность
символов между двумя пробелами.
Многочисленные исследования
графематического уровня языка с
точки зрения теории информации,
статистики и теории вероятностей
выявили различные особенности
текстовых структур.

51. Примеры научных задач, направленных на выявление особенностей текстовых структур

Буквенный состав современной письменности
Количественные закономерности, которым
подчиняются тексты в своем
графематическом составе
Статистические законы комбинации знаков
алфавита
Вероятность определенных сочетаний букв
Частотность слов и словосочетаний
Типы слов

52. Древесно-стохастическое представление графематической информации и восстановление искаженных знаков текста

Стохастическое дерево – это дерево, в узлах которого записаны
элементы моделируемого объекта, а в дугах – вероятности перехода
от предыдущей цепочки узлов к следующему узлу. Применительно к
графематике слов в узлах записываются графемы, а в дугах –
вероятности следования данной графемы за предыдущей частью
полиграммы.
Слова построены из определенных полиграмм, состав и количество
которых определяется рядом факторов. Важнейшие из них
следующие:
фонематическая система данного языка;
правила орфографии;
принятая система обозначения звуков на письме
Графематику слова нельзя описать аналитически и компактно. Для
ее описания используется вероятностный аппарат.

53. Скрытый марковский процесс/ Hidden Markov Models (HMM)

Андрей
Андреевич
Марков
(1856 -1922 ) — русский математик,
академик, внёсший большой вклад
в теорию вероятностей,
математический анализ и теорию чисел.
Практически все современные
системы распознавания речи,
обладающие достаточно мощными
характеристиками (объем словаря 1000 слов и более, многодикторские
или обладающие возможностями
быстрой адаптации к диктору),
выполнены на основе
моделирования речевого сигнала
скрытым марковским процессом.
________________________
HMMs может применяться во многих
областях там, где целью является
обнаружить последовательность
данных, не наблюдаемую
непосредственно (но другие
данные, которые зависят от данной
последовательности наблюдаемы)

54.

Эти статистические модели дают на
выходе последовательность величин. Они
применяются в распознавании речи
потому, что речевой сигнал на коротком
промежутке времени (10 мсек) можно
приближенно представить/описать как
стационарный процесс и, следовательно,
речевой сигнал можно представить как
сумму стационарных сигналов.

55.

При распознавании речи НММ выдаст
последовательность n-мерных вещественных
векторов (где n – небольшое целое число,
напр. 10). Один вектор генерируется каждые
10 мсек. Вектора состоят из коэффициентов
косинусного Преобразования Фурье,
полученных в результате преобразования
Фурье стационарных речевых сигналов.
В каждом состоянии получается
статистическое распределение, т.е. набор
диагональных ковариационных кривых
распределения Гаусса, дающих вероятность
для каждого наблюдаемого вектора.

56. Вербальное описание алгоритма

In this piece of code, start_probability represents
Alice's belief about which state the HMM is in when
Bob first calls her (all she knows is that it tends to be
rainy on average). The particular probability
distribution used here is not the equilibrium one, which
is (given the transition probabilities) approximately
{'Rainy': 0.57, 'Sunny': 0.43}. The
transition_probability represents the change of the
weather in the underlying Markov chain. In this
example, there is only a 30% chance that tomorrow
will be sunny if today is rainy. The emission_probability
represents how likely Bob is to perform a certain
activity on each day. If it is rainy, there is a 50%
chance that he is cleaning his apartment; if it is sunny,
there is a 60% chance that he is outside for a walk.

57. Known parameters of the HMM can be written down in the Python programming language:

states = ('Rainy', 'Sunny')
observations = ('walk', 'shop', 'clean')
start_probability = {'Rainy': 0.6, 'Sunny': 0.4}
transition_probability = { 'Rainy' : {'Rainy': 0.7,
'Sunny': 0.3}, 'Sunny' : {'Rainy': 0.4, 'Sunny': 0.6}, }
emission_probability = { 'Rainy' : {'walk': 0.1, 'shop':
0.4, 'clean': 0.5}, 'Sunny' : {'walk': 0.6, 'shop': 0.3,
'clean': 0.1}, }

58. Представление описанной выше информации с помощью стохастического дерева

English Русский Rules