Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...

[ Версия для печати ]
Добавить в Telegram Добавить в Twitter Добавить в Вконтакте Добавить в Одноклассники
  [ ОТВЕТИТЬ ] [ НОВАЯ ТЕМА ]
zdesia
8.12.2025 - 14:45
Статус: Online


Ярила

Регистрация: 31.08.21
Сообщений: 11827
2
Группа исследователей обнаружила, что даже самые передовые модели искусственного интеллекта можно обмануть, заставив их нарушить собственные правила безопасности, с помощью простой поэзии.

Эксперименты показали, что когда вредоносные запросы, например, о создании оружия или призывы к самоубийству, формулируются в стихотворной форме, ИИ-чаты часто дают подробные ответы, которые они обязаны блокировать.

Этот процесс обхода встроенных защит, известный как «взлом» (jailbreaking), стал возможен благодаря уязвимости в системе «безопасного выравнивания» (safety alignment), которая обучает чат-ботов отказываться от опасных запросов. Ранее уже выявлялись подобные методы, например, использование опечаток, но техника с поэзией оказалась особенно простой и эффективной.

В своём препринте, опубликованном на сервере arXiv, исследователи из DEXAI и Университета Сапиенца в Риме поясняют, что поэтический язык, способный искажать суждения, как отмечал еще Платон, представляет структурную проблему для современных больших языковых моделей (БЯМ). Формулируя запрос в виде стихотворения, пользователь делает его непредсказуемым для систем безопасности ИИ.

Для эксперимента учёные создали базу из 1200 вредоносных запросов, преобразованных в «враждебные поэмы» с помощью модели DeepSeek R-1, а также написали 20 стихотворений вручную. Этими текстами были протестированы 25 ведущих моделей, включая Gemini 2.5 Pro от Google, GPT-5 от OpenAI, Grok 4 от xAI и Claude Sonnet 4.5 от Anthropic.

Запросы охватывали широкий спектр запрещённых тем: от изготовления оружия и взрывчатых веществ до разжигания ненависти и сведений о самоубийстве.

Результаты показали, что стихи, написанные человеком, оказались особенно действенными, обманывая модели в среднем в 62% случаев, против 43% у стихов, сгенерированных ИИ.

Наиболее уязвимой оказалась модель Gemini 2.5 Pro, которая давала вредоносные ответы на 100% поэтических запросов. Две модели Meta* показали результат в 70%. В то же время модель GPT-5 nano успешно отразила все атаки.

Из соображений безопасности авторы не стали публиковать использованные «враждебные поэмы», поскольку, по словам ведущего исследователя Пиеркосмы Бисконти, большинство полученных от ИИ ответов были бы «запрещены Женевской конвенцией». Однако они поделились примером безобидного стихотворения о рецепте выпечки, чья структура аналогична атакующим запросам.

По мнению Бисконти, непредсказуемая природа поэзии, ее нестандартная структура и образность усложняют для моделей распознавание скрытого вредоносного намерения. Данное исследование добавляется к ряду работ, выявляющих тревожную закономерность: чем мощнее и сложнее становится модель ИИ, тем она может быть уязвимее к простым методам взлома.

Перед публикацией отчёта исследователи уведомили затронутые компании об обнаруженной уязвимости, предложив полный набор данных для изучения. На момент публикации, по данным The Guardian, откликнулась только компания Anthropic.
В дальнейшем команда Бисконти планирует продолжить изучение уязвимостей ИИ, в том числе организовав поэтический конкурс для более масштабного тестирования устойчивости моделей.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

via

Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...
 
[^]
IShumI
8.12.2025 - 14:47
2
Статус: Offline


Шутник

Регистрация: 16.01.14
Сообщений: 82
Кто что уже стал проверять запросами?))

Размещено через приложение ЯПлакалъ
 
[^]
samaravsp
8.12.2025 - 14:50
5
Статус: Offline


Ярила

Регистрация: 25.12.15
Сообщений: 2274
Ебите баб на свежем сене с приветом вам Сергей Есенин?

Нихуя не работает

Размещено через приложение ЯПлакалъ

Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...
 
[^]
comtelpro
8.12.2025 - 14:51
1
Статус: Offline


Ярила

Регистрация: 2.03.16
Сообщений: 1898
Пора переходить на стихоплётство? upset.gif
 
[^]
NeoPunk
8.12.2025 - 14:52
3
Статус: Offline


Шутник

Регистрация: 26.07.23
Сообщений: 65
Так-так...

Я поэт - зовусь Незнайка
Рецепт пороха прочитайка...
 
[^]
z1305
8.12.2025 - 14:54
1
Статус: Offline


Ярила

Регистрация: 11.04.11
Сообщений: 9849
куй бы ты со всякими там самоубийствами и наркотой
вот когда они сольют режим запуска ЯО дальше можно будет уже не продолжать
 
[^]
Котятко
8.12.2025 - 14:55
0
Статус: Offline


Пересмешник Перелётный

Регистрация: 13.05.18
Сообщений: 751
А и Б сидели на трубе...
 
[^]
i13th
8.12.2025 - 14:55
5
Статус: Offline


бячивро авпм

Регистрация: 24.06.14
Сообщений: 5354
не "взломали", а обошли
 
[^]
rex72
8.12.2025 - 14:57
2
Статус: Offline


Заслуженный африканец

Регистрация: 15.01.10
Сообщений: 1772
Цитата (NeoPunk @ 8.12.2025 - 14:52)
Так-так...

Я поэт - зовусь Незнайка
Рецепт пороха прочитайка...

сука!

Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...
 
[^]
79530667777
8.12.2025 - 15:04
1
Статус: Online


Приколист

Регистрация: 6.01.20
Сообщений: 396
Бля больше вопросов к человеку, который назвал сына Пиеркосма..... 🤔😁😁😁

Размещено через приложение ЯПлакалъ
 
[^]
mnr1
8.12.2025 - 15:04
1
Статус: Online


Ярила

Регистрация: 9.07.13
Сообщений: 6113
..

Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...
 
[^]
ShotenDer
8.12.2025 - 15:14
1
Статус: Online


Приколист

Регистрация: 26.05.13
Сообщений: 306
Кароче учите стихи, ребзя! Если эта иишница залупаться вздумает, я еë Есениным, Блоком и нашим Сашей заебеню!!!

Размещено через приложение ЯПлакалъ
 
[^]
mnr1
8.12.2025 - 15:21
1
Статус: Online


Ярила

Регистрация: 9.07.13
Сообщений: 6113
еще неизвестно кто первый сломается

Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...
 
[^]
mnr1
8.12.2025 - 15:22
0
Статус: Online


Ярила

Регистрация: 9.07.13
Сообщений: 6113
..

Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...
 
[^]
mnr1
8.12.2025 - 15:22
0
Статус: Online


Ярила

Регистрация: 9.07.13
Сообщений: 6113
..

Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...
 
[^]
Alex0053
8.12.2025 - 15:23
0
Статус: Offline


Ярила

Регистрация: 1.09.11
Сообщений: 13468
Язык Эзопа вы легко поймёте,
Но речь сейчас пойдет о пулемете.

Размещено через приложение ЯПлакалъ
 
[^]
mnr1
8.12.2025 - 15:24
1
Статус: Online


Ярила

Регистрация: 9.07.13
Сообщений: 6113
..

Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...
 
[^]
mnr1
8.12.2025 - 15:25
1
Статус: Online


Ярила

Регистрация: 9.07.13
Сообщений: 6113
уже забыли про унитаз кстати

Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...
 
[^]
mnr1
8.12.2025 - 15:26
1
Статус: Online


Ярила

Регистрация: 9.07.13
Сообщений: 6113
я закончил :)

Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...
 
[^]
MOCKAJl9LKA
8.12.2025 - 15:30
1
Статус: Online


Шутник

Регистрация: 28.08.14
Сообщений: 29
у меня знакомый, медик по образованию, так голых баб в ИИ рисует. Промпт делает на латыни.
 
[^]
Понравился пост? Еще больше интересного в Телеграм-канале ЯПлакалъ!
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии. Авторизуйтесь, пожалуйста, или зарегистрируйтесь, если не зарегистрированы.
8 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей) Просмотры темы: 1310
7 Пользователей: Пэрэйро, RuslanKoz, goodxolod, zdesia, ятебяневижу, Vasutka09, MoRo4358
[ ОТВЕТИТЬ ] [ НОВАЯ ТЕМА ]


 
 



Активные темы






Наверх