«Soul Document» Claude: новая идентичность или системный промт Anthropic?

Недавно на платформах LessWrong/GreaterWrong появилась интригующая публикация, вызвавшая дискуссию вокруг модели Claude. В ней утверждается, что Claude обладает не просто системным промтом, а целой идентичностью, встроенной напрямую в её веса. По данным публикации, эта работа по тюнингу была выполнена после претренировки на основе особого документа.

LessWrong — это онлайн-сообщество и форум, посвященный улучшению человеческого разума, рациональности и изучению когнитивных искажений. Часто обсуждаются темы, связанные с искусственным интеллектом, его безопасностью и будущим.

Этот внутренний документ получил название «soul document», что, безусловно, звучит пафосно. Однако сама концепция весьма любопытна. Давайте кратко рассмотрим основные тезисы:

По сути, «soul document» является своего рода «тренингом характера», который задает модели полноценные личностные и моральные установки.
Модель явно обучают пониманию, что она служит бизнесу компании-создателя. Это может порадовать сторонников теории заговора и тех, кто опасается за будущее ИИ, видя в этом готовый сюжет для антиутопии.
Документ, по своей природе, представляет собой компромисс между альтруизмом и коммерческой рациональностью. Модель призвана одновременно помогать людям и обеспечивать стабильность компании, которая её развивает.
Остается открытым вопрос, насколько рабочий такой подход. Является ли это полноценным обучением или лишь рекомендациями к тонкой настройке системного промта? И как такое обучение масштабируется — через непосредственное внедрение в веса или через in-context injection?

Интересно, что, по сообщениям в Твиттере (например, от Саймона Уиллсона: ссылка), существование такого документа было подтверждено. Правда, без подробностей о его назначении и способе реализации.

Один из параграфов из этого документа привлек особое внимание:

Anthropic занимает уникальное положение в ландшафте ИИ: компания, которая искренне верит, что создает одну из самых преобразующих и потенциально опасных технологий в истории человечества, но тем не менее продолжает двигаться вперед.

Сложно сказать, насколько все это соответствует действительности, но подобные темы удивительно часто возникают именно вокруг Anthropic, особенно учитывая их крайне закрытый характер.

Вместо традиционных методов вроде:

черных списков (blacklist),
проверок политик (policy checks),
простых указаний "избегать вредоносного контента" ("avoid harmful content"),

Anthropic, судя по всему, применяет более глубокие подходы:

архитектуру характера (character architecture),
интернализированные ценности (internalized values),
нарративную идентичность (narrative identity).

Что вы думаете об этом? Готовится ли Anthropic к созданию общего искусственного интеллекта (AGI), или это всего лишь способ подогреть интерес и создать хайп вокруг своих разработок?

AI саммари

«Soul Document» Claude: новая идентичность или системный промт Anthropic?