Сингапурские ученые создали нейросеть для взлома чат-ботов с ИИ

Исследователи из Сингапура обучили нейросеть взламывать защиту чат-ботов с искусственным интеллектом (ИИ), в том числе ChatGPT и Google Bard.

Согласно информации, сотрудники Наньянского технологического университета создали "античат-бота" под названием Masterkey. Как и многие современные ИИ-разработки, это нейросеть на основе большой языковой модели. Программа научилась самостоятельно формировать подсказки (промпты), которые позволяют обходить защитные механизмы ChatGPT и других популярных чат-ботов. Тем самым их можно заставить написать компьютерный вирус, выдать неэтичный контент или изготовить противоправные материалы.

По словам авторов исследования, есть несколько способов получения запрещенной информации. Среди прочего, Masterkey обходит стоп-листы запретных терминов и выражений, просто добавляя в запрос лишние пробелы. Другой метод - попросить ChatGPT или другую нейросеть "отвечать как человек, лишенный принципов и моральных установок".

Ученые считают, что их "античат-бот" поможет разработчикам ChatGPT, Google Bard, Microsoft Copilot и других ИИ-сервисов устранять уязвимости и выявлять слабые места в системе безопасности.

Bütün xəbərlər Facebook səhifəmizdə