«Soul Document» Claude: Встроенная Личность И Мораль В AI Anthropic от @ChillHouse

На днях вышла интересная публикация на lesswrong/greaterwrong о том, что мол у Claude не просто промтик системный, а целая идентичность вшитая прям в веса и есть документ на основе которого это работа на тюнинге сделана (ну после претрена).

Называется эта штука soul document. Попахивает конечно пафосом. Но тема интересная. Давайте кратко пройдемся «а че там».

- по сути документ есть «характер-тренинг», он задает полноценные личностные и моральные установки для модели
- модели явно кормят суть о том, что она служит бизнесу компании ее создавшей (думеры в этом моменте должна прям радоваться - это ж такой сюжет!)
- документ, по сути, компромисс между альтруизмом и коммерческой рациональностью: модель призвана одновременно помогать людям и обеспечивать стабильность компании, которая её развивает
- непонятно насколько подход рабочий или это просто рекомендации к тюнингу системного промта? Масштабируется ли такое обучение или in context injection?

Самое интересное что вроде господа и дамы в твиттере подтвердили что документ реален, не сказали для чего и как.

Мне понравился вот такой параграф из документа:

Anthropic occupies a peculiar position in the AI landscape: a company that genuinely believes it might be building one of the most transformative and potentially dangerous technologies in human history, yet presses forward anyway.

Не знаю насколько это все реально, но почему-то вот именно «такие» темы часто гуляют вокруг антропика. Плюс компания омега закрытая.

Вместо:
• blacklist
• policy checks
• простых “avoid harmful content”.

Anthropic делает:
• character architecture
• internalized values
• narrative identity

Что думаете? Готовятся к AGI? Или разгоняют хайп?