Similar presentations:
Разработка программных средств анализа библиометрической информации на основе данных, собранных в рамках проекта OpenAlex
1.
Московский государственный университет геодезии икартографии
Факультет геоинформатики и информационной безопасности
кафедра прикладной информатики
Тема выпускной квалификационной работы:
«Разработка программных средств анализа
библиометрической информации на основе данных,
собранных в рамках проекта OpenAlex»
Выполнил:
Терентьев Ярослав
Григорьевич
Научный руководитель:
Учаев Денис
Валентинович
Москва — 2025
2.
Актуальность1.
2.
3.
По данным OpenAlex могут быть выполнены множество задач благодаря
содержащимся в них метаданным:
Оценка влияния публикаций и авторов.
Картирование науки.
Анализ сотрудничества.
Задача анализа документов по данным OpenAlex решается в следующих
информационных системах:
1. Веб-интерфейс OpenAlex.org и API OpenAlex.
2. AWS Open Data Sponsorship Program. Предоставляет доступ к полному набору
данных OpenAlex в формате JSON Lines через Amazon S3. Что в свою очередь
позволяет использовать облачные сервисы AWS для обработки и анализа больших
объемов данных.
Функциональность анализа определяется возможностями, предоставляемыми
сервисами. Пользователь не имеет полного контроля над методами анализа. Для
решения данной проблемы были разработаны программные средства на
платформе LibSpace, позволяющие находить взаимосвязи между: авторами,
публикациями, институтами, тегами, темами.
3.
OpenAlexOpenAlex — это открытая база научной литературы. Она получила свое
название в честь Александрийской библиотеки, одной из крупнейших
библиотек древности.
Этот ресурс содержит более 250 миллионов записей о публикациях из
230 тысяч источников.
Содержит информацию о цитированиях, авторах, аффилиациях,
ключевых словах, концепциях и многом другом.
Легкий и удобный в использовании RESTful API для доступа к
данным OpenAlex
4.
ТемыСущность Topics можно использовать
для точного и краткого описания
содержания статьи. Данная сущность
обеспечивает однозначную связь
между темами и полями более
высокого уровня.
OpenAlex использует LLM, чтобы
назначить темы наиболее вероятному
field, и, используя этот выбор, LLM затем
выбрал наиболее вероятное subfield.
Subfields, fields и domains взяты из структуры ASJC
Scopus и предоставляют пользователям
устоявшуюся структуру, с которой они могут быть
знакомы. В отличие от других систем, которые
применяют ASJC на уровне журнала, OpenAlex
применяет темы на уровне статьи, что
обеспечивает повышенный уровень детализации.
Каждая тема будет относиться к одному subfield,
которое будет относиться к одному field, которое
будет относиться к одному domain.
5.
Цель и задачиЦель
Задачи
1. Дополнить базу данных LibSpace новыми
Разработка программных средств
полями и добавить недостающие
анализа библиометрической
сущности.
информации на основе данных,
2. Выгрузить данные из OpenAlex в базу
собранных в рамках проекта OpenAlex в
LibSpace.
рамках платформы LibSpace.
3. Создать микро-сервис для работы с
Заинтересованные стороны
публикациям из OpenAlex.
4. Создать вкладку «Аналитика» на сайте
1. Исследователи и ученые.
LibSpace.
2. Научные организации и
университеты.
5. На вкладке «Аналитика» реализовать
3. Государственные и некоммерческие
плоский граф, вершинами которого, будут
организации, финансирующие науку.
сущности, имеющие взаимосвязь с
4. Издательства и агрегаторы научной
публикациями.
информации.
6. По полученному графу, визуализировать
таблицу сущностей, полученных в
результате построения графа.
6.
Сравнениеаналогов
Преимущества
1. Есть статистика.
OpenAlex.org
Российский центр
научной информации
1. Есть граф концептов.
2. Есть возможность
настроить глубину
графа.
1. Есть граф
метаинформации.
Connected Papers
Недостатки
1. Нет аналитики.
2. Для нахождения
публикации необходимо
знать ее название.
3. Отсутствует визуализация
данных в формате графа.
Вершины графа имеет
название сопутствующая
метаинформация отсутствует.
Есть ссылка на внешний
источник.
1. Отсутствует возможность
настроить взаимосвязь
между публикациями.
2. Отсутствует пояснение
связей между работами.
3. Только 2 графа в месяц без
7.
Технологический стекBackend
Frontend
Vue3
Nuxt3
SCSS
D3
C#
.Net9
OpenAlex API
PostgreSQL
8.
Архитектура системы9.
Архитектура базы данных10.
Пример используемогоAPI
Запрос на получение всех работ:
https://api.openalex.org/works
Запрос на получение n-го количества работ:
https://api.openalex.org/works?sample=n&page=1
Запрос на получение n-го количества работ с
выбором полей, которые будут приходить:
https://api.openalex.org/works?
select=display_name,keywords,topics,authorship&
sample=n&page=1
11.
Пример интерфейса12.
КонкурентыConnected papers
РЦНИ
13.
Сценарии использованияСценарий №1 Анализ соавторов
Цель: найти всех соавторов
В верхней панели интерфейса необходимо нажать на значок «+» и выбрать ключевой
сущностью «Публикации» затем еще раз нажать на «+» и выбрать «Авторы». После
этого отобразится граф вершинами которого являются публикации а связи
ассоциируют общих авторов. При клике на связь отобразиться боковая панель с
информацией о авторах.
Сценарий №2 Нахождение похожих публикаций
Цель: найти все работы у которых имеются общие тематики.
В верхней панели интерфейса необходимо нажать на значок «+» и выбрать
ключевой сущностью «Публикации» затем еще раз нажать на «+» и выбрать «Темы».
После этого отобразится граф вершинами которого являются публикации а связи
ассоциируют общих авторов. При клике на связь отобразиться боковая панель с
информацией о темах.
14.
ЗаключениеВ результате проделанной работы была разработана страница «Аналитика» на
платформе Libspace, также был разработан функционал для работы с
публикациями из OpenAlex. Что значительно ускорило нахождение и аналитику
публикаций.
На текущий момент были решены следующие задачи:
1. Расширение существующей модели публикаций и дополнением
метаинформацией из OpenAlex.
2. Был разработан микро сервис для работы с публикациями из OpenAlex.
3. Частично было выгружена база данных OpenAlex. Было выгружено 10 000
публикаций.
4. Разработана страница «Аналитика» на которой реализован граф сущностей
связей и аналитические инструменты.
15.
Перспективы развития1. Интеграция с ORCID. Для однозначной
идентификации авторов.
2. Использование публикаций Libspace, для
увеличения функционала графа
сущностей.
3. Добавление метода аналитики на основе
Индекса Хирша, i-индекса и других.
ORCID - незапатентованный
буквенно-цифровой код, который
однозначно идентифицирует
авторов научных публикаций.
Основная задача ORCID — решить
проблему идентификации учёных с
одинаковыми именами и
фамилиями.
programming
database