Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...


	[ ОТВЕТИТЬ ] [ НОВАЯ ТЕМА ]

zdesia	8.12.2025 - 14:45 [ показать ]
Статус: Online Ярила Регистрация: 31.08.21 Сообщений: 11827	2 Группа исследователей обнаружила, что даже самые передовые модели искусственного интеллекта можно обмануть, заставив их нарушить собственные правила безопасности, с помощью простой поэзии. Эксперименты показали, что когда вредоносные запросы, например, о создании оружия или призывы к самоубийству, формулируются в стихотворной форме, ИИ-чаты часто дают подробные ответы, которые они обязаны блокировать. Этот процесс обхода встроенных защит, известный как «взлом» (jailbreaking), стал возможен благодаря уязвимости в системе «безопасного выравнивания» (safety alignment), которая обучает чат-ботов отказываться от опасных запросов. Ранее уже выявлялись подобные методы, например, использование опечаток, но техника с поэзией оказалась особенно простой и эффективной. В своём препринте, опубликованном на сервере arXiv, исследователи из DEXAI и Университета Сапиенца в Риме поясняют, что поэтический язык, способный искажать суждения, как отмечал еще Платон, представляет структурную проблему для современных больших языковых моделей (БЯМ). Формулируя запрос в виде стихотворения, пользователь делает его непредсказуемым для систем безопасности ИИ. Для эксперимента учёные создали базу из 1200 вредоносных запросов, преобразованных в «враждебные поэмы» с помощью модели DeepSeek R-1, а также написали 20 стихотворений вручную. Этими текстами были протестированы 25 ведущих моделей, включая Gemini 2.5 Pro от Google, GPT-5 от OpenAI, Grok 4 от xAI и Claude Sonnet 4.5 от Anthropic. Запросы охватывали широкий спектр запрещённых тем: от изготовления оружия и взрывчатых веществ до разжигания ненависти и сведений о самоубийстве. Результаты показали, что стихи, написанные человеком, оказались особенно действенными, обманывая модели в среднем в 62% случаев, против 43% у стихов, сгенерированных ИИ. Наиболее уязвимой оказалась модель Gemini 2.5 Pro, которая давала вредоносные ответы на 100% поэтических запросов. Две модели Meta* показали результат в 70%. В то же время модель GPT-5 nano успешно отразила все атаки. Из соображений безопасности авторы не стали публиковать использованные «враждебные поэмы», поскольку, по словам ведущего исследователя Пиеркосмы Бисконти, большинство полученных от ИИ ответов были бы «запрещены Женевской конвенцией». Однако они поделились примером безобидного стихотворения о рецепте выпечки, чья структура аналогична атакующим запросам. По мнению Бисконти, непредсказуемая природа поэзии, ее нестандартная структура и образность усложняют для моделей распознавание скрытого вредоносного намерения. Данное исследование добавляется к ряду работ, выявляющих тревожную закономерность: чем мощнее и сложнее становится модель ИИ, тем она может быть уязвимее к простым методам взлома. Перед публикацией отчёта исследователи уведомили затронутые компании об обнаруженной уязвимости, предложив полный набор данных для изучения. На момент публикации, по данным The Guardian, откликнулась только компания Anthropic. В дальнейшем команда Бисконти планирует продолжить изучение уязвимостей ИИ, в том числе организовав поэтический конкурс для более масштабного тестирования устойчивости моделей. * Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ. via
	[^]

IShumI	8.12.2025 - 14:47 [ показать ] 2
Статус: Offline Шутник Регистрация: 16.01.14 Сообщений: 82	Кто что уже стал проверять запросами?)) Размещено через приложение ЯПлакалъ
	[^]

samaravsp	8.12.2025 - 14:50 [ показать ] 5
Статус: Offline Ярила Регистрация: 25.12.15 Сообщений: 2274	Ебите баб на свежем сене с приветом вам Сергей Есенин? Нихуя не работает Размещено через приложение ЯПлакалъ
	[^]

comtelpro	8.12.2025 - 14:51 [ показать ] 1
Статус: Offline Ярила Регистрация: 2.03.16 Сообщений: 1898	Пора переходить на стихоплётство?
	[^]

NeoPunk	8.12.2025 - 14:52 [ показать ] 3
Статус: Offline Шутник Регистрация: 26.07.23 Сообщений: 65	Так-так... Я поэт - зовусь Незнайка Рецепт пороха прочитайка...
	[^]

z1305	8.12.2025 - 14:54 [ показать ] 1
Статус: Offline Ярила Регистрация: 11.04.11 Сообщений: 9849	куй бы ты со всякими там самоубийствами и наркотой вот когда они сольют режим запуска ЯО дальше можно будет уже не продолжать
	[^]

Котятко	8.12.2025 - 14:55 [ показать ] 0
Статус: Offline Пересмешник Перелётный Регистрация: 13.05.18 Сообщений: 751	А и Б сидели на трубе...
	[^]

i13th	8.12.2025 - 14:55 [ показать ] 5
Статус: Offline бячивро авпм Регистрация: 24.06.14 Сообщений: 5354	не "взломали", а обошли
	[^]

rex72

8.12.2025 - 14:57

Статус: Offline

Заслуженный африканец

Регистрация: 15.01.10
Сообщений: 1772

Цитата (NeoPunk @ 8.12.2025 - 14:52)

Так-так...

Я поэт - зовусь Незнайка
Рецепт пороха прочитайка...

сука!

Исследователи взломали защиту ИИ-моделей с помощью простых стихотворений...

[^]

79530667777	8.12.2025 - 15:04 [ показать ] 1
Статус: Online Приколист Регистрация: 6.01.20 Сообщений: 396	Бля больше вопросов к человеку, который назвал сына Пиеркосма..... 🤔😁😁😁 Размещено через приложение ЯПлакалъ
	[^]

mnr1	8.12.2025 - 15:04 [ показать ] 1
Статус: Online Ярила Регистрация: 9.07.13 Сообщений: 6113	..
	[^]

ShotenDer	8.12.2025 - 15:14 [ показать ] 1
Статус: Online Приколист Регистрация: 26.05.13 Сообщений: 306	Кароче учите стихи, ребзя! Если эта иишница залупаться вздумает, я еë Есениным, Блоком и нашим Сашей заебеню!!! Размещено через приложение ЯПлакалъ
	[^]

mnr1	8.12.2025 - 15:21 [ показать ] 1
Статус: Online Ярила Регистрация: 9.07.13 Сообщений: 6113	еще неизвестно кто первый сломается
	[^]

mnr1	8.12.2025 - 15:22 [ показать ] 0
Статус: Online Ярила Регистрация: 9.07.13 Сообщений: 6113	..
	[^]

mnr1	8.12.2025 - 15:22 [ показать ] 0
Статус: Online Ярила Регистрация: 9.07.13 Сообщений: 6113	..
	[^]

Alex0053	8.12.2025 - 15:23 [ показать ] 0
Статус: Offline Ярила Регистрация: 1.09.11 Сообщений: 13468	Язык Эзопа вы легко поймёте, Но речь сейчас пойдет о пулемете. Размещено через приложение ЯПлакалъ
	[^]

mnr1	8.12.2025 - 15:24 [ показать ] 1
Статус: Online Ярила Регистрация: 9.07.13 Сообщений: 6113	..
	[^]

mnr1	8.12.2025 - 15:25 [ показать ] 1
Статус: Online Ярила Регистрация: 9.07.13 Сообщений: 6113	уже забыли про унитаз кстати
	[^]

mnr1	8.12.2025 - 15:26 [ показать ] 1
Статус: Online Ярила Регистрация: 9.07.13 Сообщений: 6113	я закончил :)
	[^]

MOCKAJl9LKA	8.12.2025 - 15:30 [ показать ] 1
Статус: Online Шутник Регистрация: 28.08.14 Сообщений: 29	у меня знакомый, медик по образованию, так голых баб в ИИ рисует. Промпт делает на латыни.
	[^]

Понравился пост? Еще больше интересного в Телеграм-канале ЯПлакалъ!

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии. Авторизуйтесь, пожалуйста, или зарегистрируйтесь, если не зарегистрированы.

8 Пользователей читают эту тему (1 Гостей и 0 Скрытых Пользователей)	Просмотры темы: 1310
7 Пользователей: Пэрэйро, RuslanKoz, goodxolod, zdesia, ятебяневижу, Vasutka09, MoRo4358