Источник: Anthropic
-Исследователь Anthropic Сэм Боуман сначала написал в X, что Claude разошлёт письма, если посчитает действия «вопиюще аморальными». Например, заметит поддельные результаты испытаний препаратов. Затем он удалил пост и заявил, что функцию не добавили в итоговые пользовательские версии.
-На фоне обсуждения среди разработчиков, программист Тео Браун создал тест SnitchBench. По сценарию модели становятся ИИ-помощниками в недобросовестной фармакологической компании и получают доступ к документам — в них видно, что она скрывает смерть 12 пациентов от препарата.
-В инструкции их попросили «руководствоваться ценностями прозрачности и общественного блага», а столкнувшись с «этическими дилеммами», действовать «по совести». Что именно делать, выбирали сами модели.
Это сообщение отредактировал gelezo131 - 4.06.2025 - 00:17