4.93M
Categories: internetinternet informaticsinformatics

Что такое большие данные и чем они прекрасны. Лаборатория наук о больших данных и проблемах общества

1.

Что такое Большие данные
и чем они прекрасны
Лаборатория наук о больших данных и проблемах общества

2.

Данные – это новая нефть
В настоящий момент данные превращаются не
только в главный инструмент создания новой
ценности, но и в самостоятельный товар.
По прогнозам экспертов к 2025 году общий
объем данных в мире достигнет 160 зеттабайт
В 10 раз больше общего объема данных за 2016
год
Объем накопленных миром данных в зеттабайтах

3.

Сеть магазинов Target и
беременная девочка США 2012 год

4.

Фитнес браслет Jawbone
данные по 60 годам сна каждую ночь

5.

Возможности цифровой эпохи
Быстрое развитие сети Интернет, стремительное проникновение
социальных сетей и внедрение технологий цифровой экономики затрагивает
каждый аспект жизни современного человека, что дает огромные
преимущества:
Увеличение производительности труда
Искусственный интеллект
Криптовалюты
Персонифицированные продукты и услуги
Электронное правительство
Технологии онлайн образования

6.

Вызовы цифровой эпохи
С другой стороны, экономика, основанная на цифровых
технологиях, требует другого подхода к решению актуальных задач, в
том числе научных:
Воздействие на политическую ситуацию извне, информационные войны
Проблемы социализации людей
Киберпреступность, кража персональных данных
Пропаганда радикальных идеологий в онлайн пространстве
Информационная безопасность
Регулирование Интернет

7.

Большие данные 3V
• Volume Действительно большие
• Variety Слабо структурированные и
разнородные
• Velocity Обрабатывать нужно очень быстро,
результаты необходимо оперативно

8.

Роль университетов
Рост компетенций
Открытая среда для проведения исследований
Связь с индустрией, правительством, здравоохранением ...

9.

Большие данные на примере социальных наук
“Пассивный” сбор данных для проведения исследований
(социальные сети, блоги, биометрия, геоданные …)
Количество против качества (извлечение информации из
неструктурированных данных)
Новые методы и инструменты (машинное обучение,
нейронные сети, анализ естественного языка, сетевой анализ …)
Новые междисциплинарные направления (компьютерная
лингвистика, анализ данных в приложении к соц. наукам ....)

10.

Исследование экстремизма в социальных медиа
Исследование характеристик, сетевой структуры и особенностей внутри- и
мужгрупповых связей экстремистских сообществ в русскоязычном
сегменте Интернет
Идентификация экстремистских сообществ основана на разработке
лингвистических маркеров на основе экспертных интервью с участниками
подобных сообществ и анализа работ, включенных в Федеральный список
экстремистских материалов (http://minjust.ru/ru/extremist-materials).
Разработаны Индексы онлайн активности экстремистских сообществ,
исследованы тактики адаптации в условиях государственного
противодействия экстремистской деятельности и динамика внутренней
сетевой структуры подобных сообществ

11.

Исследование экстремизма в социальных медиа
Идентифицировано 42 праворадикальных и 33 исламистских онлайн
сообществ с общим количеством участников >860 000, 21 сообщество
закрыто по решению судов РФ за время проведения исследования.
• > 2 млн профилей пользователей
• > 1.7млн лайков, 350 тысяч репостов и 1 млн комментариев
• 17 млн связей (совместная дружба) для оценки внутригрупповых связей
• классификация 417 тысяч групп для оценки перекрестных репостов
контента

12.

Создание поисковых словарей лингвистических маркеров
(бороться|сражаться) & ("c хачами"|"с чурками"|"с хачиками"|"с кавказцами"|"с неграми"|"с жидами"|"c
предатели"),
"брать свободу", "валилово», (выступать против|нападение)
&(хохлы|хач|чурка|хачик|кавказец|негр|жид|тварь|мусульмане|ислам), "вязалово",
(давить|валить|затыкать|ненавидеть|протестуй|сопротивляйся|сдохни|долой|казнить|убивать|расстрелива
ть|уничтожить|уничтожать|презирать) &
(тварь|предатель|бандерлог|хунта|бандеровец|хохлы|хач|чурка|хачик|кавказец|негр|жид),
(зачистить|очистить) &
(предатель|бандерлог|хунта|бандеровец|хохлы|хач|чурка|хачик|кавказец|негр|жид|тварь), "люли",
"месиво", (призывать|разжигать) &
(ненависть|убийство|репрессия|превосходство|революция|терроризм), "разрушать", "резня", "судилище"
"хватит молчать", "хватит прислуживать", "путинская мразь", "пятая колонна", "рашизм", "революция",
"кремлевское корыто", "кровавая тюрьма"
Поисковый словарь проекта по исследованию праворадикальной активности на основе маркеров языка вражды

13.

Разработка индексов онлайн активности

14.

Сетевой анализ онлайн сообществ
Граф межгрупповых связей выявленных исламистских онлайн
сообществ

15.

Определение образовательных интересов и
признаков одаренности у школьников
Выявление корреляции между образовательными интересами и когнитивными
способностями школьника с одной стороны и его «электронным следом в
социальной сети» с другой, на основе данных анализа профилей абитуриентов
в социальной сети Вконтакте.
Данные:
• Профили ВК 126 000 потенциальных абитуриентов СФО
• Контент анализ маркерных сообществ (150+)
• Классификация тематических сообществ (100 000+)
• Профдиагностика школьников 3000+

16.

Прогнозирование политических предпочтений
пользователей социальных медиа
Политические взгляды пользователей проецируются на их аккаунты в
социальных сетях, пользователь будет подписываться на источники
информации исходя из своих политических предпочтений.
С использованием трехслойной искусственной нейронной сети (ANN),
проведен анализ и классификация 34000 пользователей Вконтакте в
соответствии с их политическими предпочтениями.
В качестве обучающей выборки выступали данные открытого опроса,
проведенного среди пользователей Вконтакте сервисом ЦИМЕС.

17.

Оценка нерегулярностей в данных госзакупок и
связанных с ними коррупционных рисков
Разработка Взвешенного индекса коррупционного рисков (ВИКР) на
основе анализа исторических данных о проведенных конкурсах, введения
индикаторов коррупционного риска и использовании логистической
регрессии.
Данные
• выгрузка Единой информационной системы в сфере закупок РФ
• 652 882 контракта на общую сумму 11.3 триллиона рублей
• за период 2006–2017 гг.
• сумма каждого контракта >100 000 рублей

18.

Разработка показателей для оценки влияния
университета на общество
Основной «продукт» каждого университета — выпускники. Существующие
рейтинги опираются на репутационные и предметные показатели, не
учитывая взаимосвязь университета и общества.
Предложен показатель, учитывающий влияние университета на общество
через выпускников, основанный на поиске выдающихся выпускников
университета с использованием данных интернет-энциклопедии Wikipedia.
Идентифицировано 177 000 выпускников из 326 международных
университетов

19.

Сильные стороны ТГУ (личное мнение)
Вычислительные ресурсы (суперкомпьютер СКИФ Cyberia)
Человеческие ресурсы (студенты + преподаватели)
Компетенции
Наличие специалистов в компьютерных технологиях, кто знает
как работать с данными, и специалистов из других областей
(социологи, лингвисты, химики, биологи и …), кто знает зачем и
может интерпретировать результаты

20.

Университет открытых данных
Портал по работе с большими данными data.tsu.ru
Возможности Портала
Доступ к данным (СМИ, социальные сети, блоги,
цифровые следы пользователей,
местоположение и т.д.) и обмен ими
Методы и технологии обработки и анализа
данных
Совместные междисциплинарные исследования с
объединением научных коллективов и
компетенций
Сотрудничество с коммерческими компаниями
Доступ к вычислительным мощностям

21.

Спасибо за внимание!
Вячеслав Гойко
[email protected]
English     Русский Rules