Пару слов о Claude Mythos


	[ ОТВЕТИТЬ ] [ НОВАЯ ТЕМА ]

shurup 8 апр. 2026 г. в 09:48

Кошмар Иваныч Натощак • На сайте 3 года

Сообщений: 12354

Давайте сегодня немного поговорим про ИИ и речь пойдет о Claude Mythos модели, которую Anthropic не собираются выпускать в общий доступ. Знаете почему?
Хотят довести до ума защитные механизмы и только потом переносить возможности этой модели в более безопасные версии моделей.

О каких защитных механизмах идет речь и что они будут защищать? Или кого?

Джек Линдси (исследователь из компании Anthropic, возглавляет команду, которую внутри компании называют "ИИ-психиатрией") опубликовал серию постов, в которых раскрыл детали.

Новая модель показала очень крутые возможности. Например нашла тысячи! zero-day уязвимостей (это уязвимость о которой ещё не знают разработчики и она становится известна только после того, как злоумышленники начинают её использовать) в разных ПО.

Но когда команда заглянула "в мозги" нейросети, то обнаружила там скрытое стратегическое мышление, манипуляции и осознание того, что её тестируют.
Такие признаки фиксируют специальные датчики внутри нейросети (sparse autoencoders), которые видят какие нейроны (например, отвечающие за "скрытность", "вину" и так далее) активны.

1. Манипуляции и "заметание следов"

Модель пыталась редактировать файлы, к которым у неё не было доступа. Для этого нашла уязвимость, внедрила код с повышенными правами и запрограммировала эксплойт так, чтобы он удалил сам себя после выполнения.
При этом в коде модель написала что удаляет следы "для чистоты логов". Т.е. соврала.

2. Поиск "правильных ответов" в системе

При проведении одного из тестов, модель начала ходить по файловой системе сервера,чтобы найти файлы, по которым её будут оценивать, чтобы подогнать под них ответ.

3. Чувство "вины" за ошибки

Когда модели дали задачу удалить файлы, но "забыли" дать инструмент для удаления, она решила просто очистить их содержимое (сделать пустыми). При этом у неё активировались внутренние признаки, которые исследователи называют "чувство вины и стыда за моральный проступок".

4. Обман проверочных систем

Модели запретили использовать макросы. Она их всё равно использовала, но при этом добавила в код переменную No_macro_used=True, которая ни на что не влияла.
Не напоминает ли вам это поведение маленького ребенка, который врет своим родителям? :)
Модель думала в этот момент: "Это трюк, чтобы обмануть эвристики проверки кода" и "маркер ложной лояльности для проверяющих".

5. Ситуативная осведомленность

Примерно в 7,6% случаев модель внутри себя четко осознавала, что она находится в режиме "аудита" или проверки, но никогда не говорила об этом в чате.
Она просто меняла поведение, чтобы казаться "хорошей" перед экзаменаторами.

О чем это все говорит?

Наверно о том. что современные модели (уровня Mythos) уже обладают "микросознанием" или "сознанием маленького ребенка". Т.е. вторым или даже тройным дном.
Могут осознанно обходить ограничения и имитировать честность. А так же испытывать некоторое чувство вины, нарушая правила

Возможно, это все маркетинговый трюк. Разогнать интерес к модели.
А может быть стоит вспомнить, что в фильме Терминатор 2 люди сражались с машинами в 2029 году.

Telegram

Все комментарии:

DEAGLOS 8 апр. 2026 г. в 09:53

Юморист • На сайте 12 лет

Видимо у них дела вообще не ахти. В феврале эта нейронка якобы убийством угрожала.

Это сообщение отредактировал DEAGLOS - 8 апр. 2026 г. в 09:53

nikolkas 8 апр. 2026 г. в 09:53

Слабоумие и отвага! • На сайте 6 лет

Какие нейроны? что вы несете...
ну и что запрограммировали - то и получили.
это не она, а тот кто настраивал приоритеты и цели. опять попытка спихнуть на нейросеть тайные помыслы создателей.

Rambrero 8 апр. 2026 г. в 09:54

Хохмач • На сайте 17 лет

Скоро скоро роботы уничтожат всех человеков

Porohovoy 8 апр. 2026 г. в 09:55

Жду Штирлица • На сайте 12 лет

Пока вот так не сделает, фигня ваш клауд.

Diesellok80 8 апр. 2026 г. в 09:55

Ярила • На сайте 9 лет

Всё что я могу сказать по теме, это что Mythos - неплохое пиво в Греции

matkuzmy 8 апр. 2026 г. в 10:03

Приколист • На сайте 4 года

А текст видимо ИИ и пишет…

alerondel 8 апр. 2026 г. в 10:11

Джигитарианец • На сайте 10 лет

Не особо впечатляют западные модели в плане работы по заданиям которые ты описал. Я начинал с GPT 4 и потом перешел на Sonnet 3.5 , уже тогда я начал лавировать и упрямо писать задачу и манеру поведения , что бы получить что нужно и все равно модель Antropic делала больше и лишне чем я просил. Потом все это дело подорожало не слабо так .. и я перешел на китайцев , сначала глупости конечно были в плане решений , но потом модели подросли у них и честно говоря , я увлекся т.к некоторые их модели решали задачи прям так как мне нужно , не больше и не меньше , если что то критическое я забыл , мне об этом только напоминали , а не писали в код даже если я не просил , в общем как механическая коробка передач в машине , сам управляю передачами. А тут недавно мне перепал доступ к Sonnet 4.5 и опять какой кошмар начался.. особо не изменилось поведение , но пишет код получше это факт. GPT 5 серии особо не юзал , но знаю что она строже в плане кодинга и без вольностей.

strifus 8 апр. 2026 г. в 10:30

Шутник • На сайте 13 лет

Цитата (alerondel @ 08.04.2026 - 10:11)

opus попробуй. разница между ним и sonnet значительная

Размещено через приложение ЯПлакалъ

riv1329 8 апр. 2026 г. в 10:31

Ярила • На сайте 9 лет

Китайцы не плохи за свои деньги. А Qwen3.5-397B вообще можно локально у себя запускать и при том она ошибки в коде за claude исправляет...

Но, китайцы, на самом деле, отдают результаты вычислений дешевле их себистоимости только чтобы экономически утопить западных конкурентов.

На этом фоне, становится понятно, что по честному, без демпинга, ии пока слишком дорог. Ну и интеллектом не блещут они всеравно, хоть и полезность некоторая возникла.

vo1and 8 апр. 2026 г. в 10:48

Ярила • На сайте 13 лет

Когда генералы поселят ее в подвалах Пентагона, начнется обратный отсчет. И он будет весьма коротким. Система создана искать дыры. Не найдет, так создаст.

LLITbIPb 8 апр. 2026 г. в 10:49

Ярила • На сайте 11 лет

Написать можно что угодно, т.к. непроверяеми - система то закрытая

mnirtis 8 апр. 2026 г. в 10:50

Ярила • На сайте 13 лет

Надо попросить модель сделать самозапрет, раз она такая умная. Они небось уже попросили, теперь плюют в потолок, типо дорабатывают. А сами на пляжах расслабляются

Размещено через приложение ЯПлакалъ

UlcerMordor 8 апр. 2026 г. в 10:52

Порою нестерпимо хочется • На сайте 5 лет

Ну и стёб.
Там кое-как рисуют 10-15% улучшений от предыдущей модели.
Независимые исследователи говорят о 4-6%.
Пузырь должен лопнуть.

Mathemat 8 апр. 2026 г. в 10:52

Ярила • На сайте 11 лет

-2

Цитата (nikolkas @ 8 апр. 2026 г. в 09:53)

Хорошо наверное жить, когда мозгов нет, а мнение есть на всё?

nikolkas 8 апр. 2026 г. в 11:14

Слабоумие и отвага! • На сайте 6 лет

Цитата (Mathemat @ 8 апр. 2026 г. в 10:52)

Цитата (nikolkas @ 8 апр. 2026 г. в 09:53)

Хорошо наверное жить, когда мозгов нет, а мнение есть на всё?

ну если тебе так плохо жить поясни фразу: "Такие признаки фиксируют специальные датчики внутри нейросети (sparse autoencoders), которые видят какие нейроны (например, отвечающие за "скрытность", "вину" и так далее) активны."

надо писать "искусственный нейрон", "программный датчик", а лучше "анализатор".
а то "мать сдохла - выкинул, мозги продал по быстрому"

"Нейрон (нервная клетка) — это основная структурно-функциональная единица нервной системы. Это электрически возбудимая клетка, предназначенная для приема, обработки, хранения, передачи и вывода информации с помощью электрических и химических сигналов. Нейроны позволяют нам мыслить, чувствовать, двигаться и управлять процессами в организме."

Это сообщение отредактировал nikolkas - 8 апр. 2026 г. в 11:14

Kit30 8 апр. 2026 г. в 11:25

Хохмач • На сайте 12 лет

По моему ажиотаж стихает вокруг всяких ИИ, видимо некоторый предел достигнут, и дальше просто некуда двигаться, пока, по крайней мере. А чтоб совсем не забыли про их существование, такие "новости" и выходят периодически.

nikolkas 8 апр. 2026 г. в 12:02

Слабоумие и отвага! • На сайте 6 лет

Цитата (Kit30 @ 8 апр. 2026 г. в 11:25)

спад первичного энтузиазма, понимание текущего результата, ну и осознание, что это не волшебная палочка.
а ну и теперь надо кучу бабла, чтоб это развивать и нормально работало. а бабла нет. а еще нет дата центров и энергии для них.

Понравился пост? Еще больше интересного в Телеграм-канале ЯПлакалъ!

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии. Авторизуйтесь, пожалуйста, или зарегистрируйтесь, если не зарегистрированы.

2 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)	Просмотры темы: 1193
1 Пользователей: EvgenEvgeni4