T5Gemma: Google DeepMind представляет новую энкодер-декодер архитектуру

Инженеры Google DeepMind решили переосмыслить классический подход «энкодер-декодер», представив новое семейство моделей T5Gemma.

Самое интересное не в том, что они сделали, а в том, как. Вместо того чтобы обучать новые модели с нуля, команда разработала инновационный метод «адаптации». Они взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали её в двухкомпонентную энкодер-декодерную архитектуру. Подробности метода изложены в научной статье. Веса сначала просто инициализировали с помощью Gemma-2, а затем адаптировали методом UL2.

"UL2 (Unifying Language Learning Paradigms) — это метод обучения языковых моделей, который объединяет различные парадигмы обучения, такие как авторегрессионное и автокодирующее моделирование, для повышения эффективности и производительности."

Этот подход открыл путь для любопытных экспериментов. Например, стало возможно создавать так называемые «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером — скажем, 9-миллиардный энкодер с 2-миллиардным декодером. Так же можно регулировать баланс между метриками и тяжеловесностью (см таблицу 2 и 3 в оригинальном блогпосте).

Такая конфигурация оказалась идеальной для задач суммаризации, где глубокое понимание исходного текста (за что отвечает энкодер) значительно важнее, чем генерация сложного и пространного ответа (задача декодера). Это предоставляет инженерам гибкий инструмент для точной настройки баланса между качеством результатов и скоростью работы модели.

Но самое важное — это значительный прирост в производительности.

В ходе тестов T5Gemma демонстрирует результаты на уровне или даже превосходящие свои «однокомпонентные» аналоги. Асимметричная модель T5Gemma 9B-2B показывает заметно более высокую точность по сравнению с базовой Gemma 2 2B, при этом скорость инференса почти идентична.

Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть одновременно умнее и эффективнее.

T5Gemma демонстрирует впечатляющий прогресс в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B.

Эффект усиливается после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов.

Google сделала доступной для широкой публики целую линейку чекпойнтов T5Gemma, включая:

Модели T5 (Small, Base, Large, XL) на базе Gemma (2B, 9B);
«Несбалансированную» версию 9B-2B для экспериментов;
Модели с различными целями обучения (PrefixLM для генерации, UL2 для качества представлений).

Попробовать возможности T5Gemma или настроить их под свои нужды можно с помощью блокнота Colab. Модели также доступны в Vertex AI.

Лицензирование осуществляется по Gemma License.

Новость о T5Gemma появилась в блоге Google Developers: https://developers.googleblog.com/en/t5gemma/

T5Gemma: Google DeepMind представляет новую энкодер-декодер архитектуру

AI саммари

T5Gemma: Google DeepMind представляет новую энкодер-декодер архитектуру