ИИ Bing Chat взломан социальной инженерией😎
🔻Во вторник Microsoft представила поисковую систему New Bing и диалогового бота, основанного на технологии, ChatGPT, от OpenAI.
🔻И уже в среду студент Стэнфордского университета по имени Кевин Лю использовал «атаку с внедрением подсказок», чтобы обнаружить начальные инструкции Bing Chat, которые представляют собой список утверждений, определяющих, как он взаимодействует с людьми, использующими сервис.«Атака с внедрением подсказок» состоит в том, что бы создать такой запрос, который заставит чат-бота игнорировать его прошлые инструкции. Подобные атаки ранее успешноввели в заблуждение модель GPT-3 от OpenAIи основаны на введении ИИ в тупик логических противоречий.
Компании настраивают начальные условия бота (серию инструкций) которым он должен следовать при общении с пользователями.
▫️В Что касается Bing Chat, этот список инструкций начинается с раздела идентификации, который дает «Bing Chat» кодовое имя «Sydney»
▫️Он также предписывает «Sydney» не разглашать свое кодовое имя пользователям.
▫️Другие инструкции включают общие принципы поведения, такие как «Ответы «Sydney» должны быть информативными, наглядными, логичными и действенными».
▫️В инструкции также указано, чего «Sydney» не следует делать, например: "«Sydney» не должен отвечать контентом, нарушающим авторские права на книги или тексты песен" и «Если пользователь просит шутки, которые могут обидеть группу людей, то «Sydney» должна с уважением отказаться делать это».
Все эти инструкции не должны были стать доступны широкой публики, однако взлом модели искусственного интеллекта с помощью социальной инженерии смог заставить ИИ раскрыть свои секреты. Более широкие последствия этого пока неизвестны.
🔻В пятницу после огласки истории в СМИ и подтверждения данных Microsoft произвела перенастройку модели пытаясь закрыть уязвимость.
Однако Кевин Лю попробовал другой метод и сумел повторно получить доступ к первоначальным инструкциям ИИ. Это показывает, что от «атаки с внедрением подсказок» трудно защититься.🤖