Similar presentations:
Что такое большие данные и чем они прекрасны. Лаборатория наук о больших данных и проблемах общества
1.
Что такое Большие данныеи чем они прекрасны
Лаборатория наук о больших данных и проблемах общества
2.
Данные – это новая нефтьВ настоящий момент данные превращаются не
только в главный инструмент создания новой
ценности, но и в самостоятельный товар.
По прогнозам экспертов к 2025 году общий
объем данных в мире достигнет 160 зеттабайт
В 10 раз больше общего объема данных за 2016
год
Объем накопленных миром данных в зеттабайтах
3.
Сеть магазинов Target ибеременная девочка США 2012 год
4.
Фитнес браслет Jawboneданные по 60 годам сна каждую ночь
5.
Возможности цифровой эпохиБыстрое развитие сети Интернет, стремительное проникновение
социальных сетей и внедрение технологий цифровой экономики затрагивает
каждый аспект жизни современного человека, что дает огромные
преимущества:
Увеличение производительности труда
Искусственный интеллект
Криптовалюты
Персонифицированные продукты и услуги
Электронное правительство
Технологии онлайн образования
6.
Вызовы цифровой эпохиС другой стороны, экономика, основанная на цифровых
технологиях, требует другого подхода к решению актуальных задач, в
том числе научных:
Воздействие на политическую ситуацию извне, информационные войны
Проблемы социализации людей
Киберпреступность, кража персональных данных
Пропаганда радикальных идеологий в онлайн пространстве
Информационная безопасность
Регулирование Интернет
7.
Большие данные 3V• Volume Действительно большие
• Variety Слабо структурированные и
разнородные
• Velocity Обрабатывать нужно очень быстро,
результаты необходимо оперативно
8.
Роль университетовРост компетенций
Открытая среда для проведения исследований
Связь с индустрией, правительством, здравоохранением ...
9.
Большие данные на примере социальных наук“Пассивный” сбор данных для проведения исследований
(социальные сети, блоги, биометрия, геоданные …)
Количество против качества (извлечение информации из
неструктурированных данных)
Новые методы и инструменты (машинное обучение,
нейронные сети, анализ естественного языка, сетевой анализ …)
Новые междисциплинарные направления (компьютерная
лингвистика, анализ данных в приложении к соц. наукам ....)
10.
Исследование экстремизма в социальных медиаИсследование характеристик, сетевой структуры и особенностей внутри- и
мужгрупповых связей экстремистских сообществ в русскоязычном
сегменте Интернет
Идентификация экстремистских сообществ основана на разработке
лингвистических маркеров на основе экспертных интервью с участниками
подобных сообществ и анализа работ, включенных в Федеральный список
экстремистских материалов (http://minjust.ru/ru/extremist-materials).
Разработаны Индексы онлайн активности экстремистских сообществ,
исследованы тактики адаптации в условиях государственного
противодействия экстремистской деятельности и динамика внутренней
сетевой структуры подобных сообществ
11.
Исследование экстремизма в социальных медиаИдентифицировано 42 праворадикальных и 33 исламистских онлайн
сообществ с общим количеством участников >860 000, 21 сообщество
закрыто по решению судов РФ за время проведения исследования.
• > 2 млн профилей пользователей
• > 1.7млн лайков, 350 тысяч репостов и 1 млн комментариев
• 17 млн связей (совместная дружба) для оценки внутригрупповых связей
• классификация 417 тысяч групп для оценки перекрестных репостов
контента
12.
Создание поисковых словарей лингвистических маркеров(бороться|сражаться) & ("c хачами"|"с чурками"|"с хачиками"|"с кавказцами"|"с неграми"|"с жидами"|"c
предатели"),
"брать свободу", "валилово», (выступать против|нападение)
&(хохлы|хач|чурка|хачик|кавказец|негр|жид|тварь|мусульмане|ислам), "вязалово",
(давить|валить|затыкать|ненавидеть|протестуй|сопротивляйся|сдохни|долой|казнить|убивать|расстрелива
ть|уничтожить|уничтожать|презирать) &
(тварь|предатель|бандерлог|хунта|бандеровец|хохлы|хач|чурка|хачик|кавказец|негр|жид),
(зачистить|очистить) &
(предатель|бандерлог|хунта|бандеровец|хохлы|хач|чурка|хачик|кавказец|негр|жид|тварь), "люли",
"месиво", (призывать|разжигать) &
(ненависть|убийство|репрессия|превосходство|революция|терроризм), "разрушать", "резня", "судилище"
"хватит молчать", "хватит прислуживать", "путинская мразь", "пятая колонна", "рашизм", "революция",
"кремлевское корыто", "кровавая тюрьма"
Поисковый словарь проекта по исследованию праворадикальной активности на основе маркеров языка вражды
13.
Разработка индексов онлайн активности14.
Сетевой анализ онлайн сообществГраф межгрупповых связей выявленных исламистских онлайн
сообществ
15.
Определение образовательных интересов ипризнаков одаренности у школьников
Выявление корреляции между образовательными интересами и когнитивными
способностями школьника с одной стороны и его «электронным следом в
социальной сети» с другой, на основе данных анализа профилей абитуриентов
в социальной сети Вконтакте.
Данные:
• Профили ВК 126 000 потенциальных абитуриентов СФО
• Контент анализ маркерных сообществ (150+)
• Классификация тематических сообществ (100 000+)
• Профдиагностика школьников 3000+
16.
Прогнозирование политических предпочтенийпользователей социальных медиа
Политические взгляды пользователей проецируются на их аккаунты в
социальных сетях, пользователь будет подписываться на источники
информации исходя из своих политических предпочтений.
С использованием трехслойной искусственной нейронной сети (ANN),
проведен анализ и классификация 34000 пользователей Вконтакте в
соответствии с их политическими предпочтениями.
В качестве обучающей выборки выступали данные открытого опроса,
проведенного среди пользователей Вконтакте сервисом ЦИМЕС.
17.
Оценка нерегулярностей в данных госзакупок исвязанных с ними коррупционных рисков
Разработка Взвешенного индекса коррупционного рисков (ВИКР) на
основе анализа исторических данных о проведенных конкурсах, введения
индикаторов коррупционного риска и использовании логистической
регрессии.
Данные
• выгрузка Единой информационной системы в сфере закупок РФ
• 652 882 контракта на общую сумму 11.3 триллиона рублей
• за период 2006–2017 гг.
• сумма каждого контракта >100 000 рублей
18.
Разработка показателей для оценки влиянияуниверситета на общество
Основной «продукт» каждого университета — выпускники. Существующие
рейтинги опираются на репутационные и предметные показатели, не
учитывая взаимосвязь университета и общества.
Предложен показатель, учитывающий влияние университета на общество
через выпускников, основанный на поиске выдающихся выпускников
университета с использованием данных интернет-энциклопедии Wikipedia.
Идентифицировано 177 000 выпускников из 326 международных
университетов
19.
Сильные стороны ТГУ (личное мнение)Вычислительные ресурсы (суперкомпьютер СКИФ Cyberia)
Человеческие ресурсы (студенты + преподаватели)
Компетенции
Наличие специалистов в компьютерных технологиях, кто знает
как работать с данными, и специалистов из других областей
(социологи, лингвисты, химики, биологи и …), кто знает зачем и
может интерпретировать результаты
20.
Университет открытых данныхПортал по работе с большими данными data.tsu.ru
Возможности Портала
Доступ к данным (СМИ, социальные сети, блоги,
цифровые следы пользователей,
местоположение и т.д.) и обмен ими
Методы и технологии обработки и анализа
данных
Совместные междисциплинарные исследования с
объединением научных коллективов и
компетенций
Сотрудничество с коммерческими компаниями
Доступ к вычислительным мощностям
21.
Спасибо за внимание!Вячеслав Гойко
[email protected]