Инженеры Google DeepMind решили переосмыслить классический подход «энкодер-декодер», представив новое семейство моделей T5Gemma.
Самое интересное не в том, что они сделали, а в том, как. Вместо того чтобы обучать новые модели с нуля, команда разработала инновационный метод «адаптации». Они взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали её в двухкомпонентную энкодер-декодерную архитектуру. Подробности метода изложены в научной статье. Веса сначала просто инициализировали с помощью Gemma-2, а затем адаптировали методом UL2.
Этот подход открыл путь для любопытных экспериментов. Например, стало возможно создавать так называемые «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером — скажем, 9-миллиардный энкодер с 2-миллиардным декодером. Так же можно регулировать баланс между метриками и тяжеловесностью (см таблицу 2 и 3 в оригинальном блогпосте).
Такая конфигурация оказалась идеальной для задач суммаризации, где глубокое понимание исходного текста (за что отвечает энкодер) значительно важнее, чем генерация сложного и пространного ответа (задача декодера). Это предоставляет инженерам гибкий инструмент для точной настройки баланса между качеством результатов и скоростью работы модели.
Но самое важное — это значительный прирост в производительности.
В ходе тестов T5Gemma демонстрирует результаты на уровне или даже превосходящие свои «однокомпонентные» аналоги. Асимметричная модель T5Gemma 9B-2B показывает заметно более высокую точность по сравнению с базовой Gemma 2 2B, при этом скорость инференса почти идентична.
Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть одновременно умнее и эффективнее.
T5Gemma демонстрирует впечатляющий прогресс в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B.
Эффект усиливается после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов.
Google сделала доступной для широкой публики целую линейку чекпойнтов T5Gemma, включая:
- Модели T5 (Small, Base, Large, XL) на базе Gemma (2B, 9B);
- «Несбалансированную» версию 9B-2B для экспериментов;
- Модели с различными целями обучения (PrefixLM для генерации, UL2 для качества представлений).
Попробовать возможности T5Gemma или настроить их под свои нужды можно с помощью блокнота Colab. Модели также доступны в Vertex AI.
Лицензирование осуществляется по Gemma License.
Новость о T5Gemma появилась в блоге Google Developers: https://developers.googleblog.com/en/t5gemma/

