feedback

AI саммари

Cursor обновил модель поиска кода, внедрив семантический поиск на основе RAG и обучив собственную embedding-модель. Это позволило повысить точность поиска и улучшить удержание кода в проектах, особенно в крупных кодовых базах.
от FlowFeed AI
Обновлено: 20 hours ago
Cursor давно использует retrieval-механику, где агент ищет по кодовой базе и добавляет нужные фрагменты в контекст LLM
LLM (Large Language Model) — большая языковая модель.
. Ранее применялся простой grep-поиск по строковому совпадению, что было быстро, но не всегда достаточно релевантно.

Теперь используется семантический поиск на основе RAG
RAG (Retrieval-Augmented Generation) — метод, при котором LLM дополняется информацией, полученной из внешних источников.
. Релевантность кода оценивается векторной моделью, сопоставляющей смыслы, а не просто ключевые слова.

Cursor обучил собственную embedding-модель, специализированную для кода, используя реальные траектории работы агента. LLM оценивала, какие фрагменты кода оказались полезными, а какие — шумом.

Векторная модель обучалась на триплетах (запрос, релевантные файлы, нерелевантные) так, чтобы её ранжирование соответствовало оценкам LLM, приближая полезные фрагменты к запросу в векторном пространстве.

Grep-поиск остался для быстрого поиска по названиям переменных и функций. Результаты grep-модуля и векторной модели комбинируются.

**Метрики:**

1. На бенчмарке «Cursor Context Bench» точность поиска повысилась на ~12,5%.
2. На A/B-тестах code retention
Code retention — метрика, показывающая, сколько сгенерированного кода остаётся в проекте пользователя.
вырос в среднем на ~0,3%, а на больших кодовых базах — на +2,6%.
3. Количество dissatisfied follow-up requests снизилось на ~2,2%.

Эффект заметен, особенно в крупных кодовых базах.
Cursor улучшил поиск кода с помощью RAG и собственной embedding-модели
Link copied