1.63M

MLP-Mixer

1.

Введение и авторы статьи
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ
ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ «ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»
Факультет информатики, математики и компьютерных наук Программа
подготовки бакалавров по направлению 01. 03. 02 Прикладная
математика и информатика PAPER REVIEW MLP-Mixer. Во вступлении
хотелось бы немного рассказать об авторах данной статьи — ведущих
исследователях из Google Research, Brain Team. Многие из них известны в
сообществе ИИ не только этой работой, но и другими значимыми
публикациями.
Автор фото: Kammerin Hunt на Unsplash

2.

Вклад авторов в область ИИ
Ilya Tolstikhin — ведущий автор и исследователь, участвующий в разработке архитектур глубокого обучения. Neil Houlsby —
известен исследованиями в области глубокого обучения и трансформеров. Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai,
Thomas Unterthiner — авторы также участвовали в разработке Vision Transformer (An image is worth 16x16 words), другой
влиятельной архитектуры.
Их работы оказали значительное влияние на развитие технологий искусственного интеллекта и машинного обучения.

3.

Цель статьи
Авторы поставили перед собой довольно непростую задачу — создать
модель для обработки изображений, которая: показывает высокие
результаты на стандартных тестах по классификации изображений; при
этом не использует привычные трюки современных сетей — ни
свёрточные слои, ни механизмы внимания типа трансформеров; состоит
исключительно из полносвязных слоёв — то есть самых простых связей
между нейронами, какие только есть в нейросетях; и делает это
эффективно: модель должна быть обучаема и применяема с затратами
ресурсов, сравнимыми с другими современными моделями.
Автор фото: BoliviaInteligente на Unsplash

4.

Актуальность исследования
В компьютерном зрении долгое время считалось,
что без свёрток или трансформеров невозможно
хорошо анализировать изображения.
Эти методы закладывают в модель индуктивные
предположения — например, что пиксели рядом
друг с другом важнее, чем далеко расположенные.
Актуальность данного исследования в том, что
современные модели компьютерного зрения стали
очень большими и сложными. CNN имеют много
гиперпараметров, трансформеры требуют
огромных вычислительных ресурсов из-за блоков
внимания.

5.

Архитектура MLP-Mixer’a
Разберём процесс классификации изображения по порядку — от входа
до классификационной головы. На вход подаётся изображение,
предварительно приведённое к нужному размеру. Далее изображение
разбивается на непересекающиеся патчи (так же, как в Vision Transformer)
— они же называются токенами.
Количество таких патчей вычисляется по следующей формуле.
Полученные токены затем проходят через несколько слоёв нейронной
сети для извлечения признаков.
Автор фото: Shahabudin Ibragimov на Unsplash

6.

Структура MLP-Mixer
После этого получаем S патчей размером P×P×Cin, где Cin — количество каналов в исходном изображении. Можно
провести аналогию с батчем: каждый токен можно рассматривать как независимо представляемое изображение, но
важно помнить, что дальше они обрабатываются в общей таблице.
Подаём это в Flatten слой, который «вытягивает»
нашу матрицу пространства S×P×P×C в
пространство размерности S×P2Cin.
Далее, в полученном пространстве S×P²×Cin
производится обработка данных для дальнейшего
использования в модели.

7.

Описание Mixer-слоёв
Далее все патчи линейно проецируются с помощью одной и той же
матрицы проекции в желаемое скрытое измерение С. После такой
проекции получаем матрицу, где строки соответствуют патчам, а столбцы
— признакам в пространстве эмбеддингов. Именно эта матрица является
входом в последовательность Mixer-слоёв, которые далее обрабатывают
данные.
Выход Mixer-слоёв затем используется для формирования финального
представления данных в скрытом пространстве.

8.

Роль нелинейности GELU
В Mixer-слое каждый слой состоит из двух MLP-блоков. Первый из них — это token-mixing MLP для смешивания
токенов: он действует на столбцы X (т. е.
применяется к транспонированной таблице
входных данных XT), получая на вход вектор RS и
возвращая такой же (maps RS → RS), а также
используется для всех столбцов.
GELU используется так как даёт более плавную и
статистически обоснованную нелинейность, вместо
жёсткого порога как ReLU, что позволяет лучше
спускаться по градиентному спуску и искать
сложные зависимости.

9.

Обоснования эффективности и
работоспособности
Модель MLP-Mixer показывает, что для задач компьютерного зрения
совсем необязательно использовать свёртки или механизмы внимания
— можно обойтись только MLP-блоками, если правильно построить
структуру обмена информацией.
Это главный тезис статьи: в классических CNN (свёртки) смешивание
признаков происходит через N×N фильтры, в Vision Transformer (ViT) —
через attention, в Mixer — через раздельное перемешивание (mixing) по
пространству и по каналам, реализованное простыми многослойными
перцептронами (MLP).

10.

Эксперименты
Эффективность архитектуры во многом объясняется тем, что она явно разделяет два ключевых аспекта обработки
визуальной информации: перемешивание по пространству — token-mixing MLP, которое позволяет информации из
одного патча обмениваться с другими патчами (т.
е.
захватывать глобальные пространственные
зависимости); перемешивание по каналам —
channel-mixing MLP, которое перестраивает
признаки внутри каждого патча.

11.

Спасибо за внимание!
Спасибо за внимание. В этой презентации мы рассмотрели архитектуру MLP-Mixer, его структуру и роль отдельных
компонентов, таких как Mixer-слои и функция активации GELU. Мы также обсудили цель и актуальность исследования,
связанного с этой моделью, и представили результаты экспериментов, подтверждающие её эффективность.

English Русский Rules