Разработка LLM для казахского языка: энтузиасты создают новые бенчмарки

В Казахстане команда энтузиастов из числа стажеров Вихрей активно занимается разработкой LLM

LLM (Large Language Model) - большая языковая модель, тип искусственного интеллекта, способный понимать и генерировать текст на естественных языках

для казахского языка. Подход остается стандартным: расширяют токенайзер и дообучают LLM.

Особенностью является то, что они собрали современные сеты для оценок, включая ArenaHard, вариацию Shlepa и даже адаптацию MMLU на основе казахского теста для старшей школы.

Ребята работают на чистом энтузиазме, поддержите их лайками!

Разработка LLM для казахского языка: энтузиасты создают новые бенчмарки

AI саммари

Разработка LLM для казахского языка: энтузиасты создают новые бенчмарки