Черный Треугольник 🥀⃤(@black_triangle_tg). ИИ Bing Chat взломан социальной инженерией😎 🔻Во вторник Microsoft представила поисковую систему N

ИИ Bing Chat взломан социальной инженерией😎 🔻Во вторник Microsoft представила поисковую систему New Bing и диалогового бота, основанного на технологии, ChatGPT, от OpenAI. 🔻И уже в среду студент Стэнфордского университета по имени Кевин Лю использовал «атаку с внедрением подсказок», чтобы обнаружить начальные инструкции Bing Chat, которые представляют собой список утверждений, определяющих, как он взаимодействует с людьми, использующими сервис. «Атака с внедрением подсказок» состоит в том, что бы создать такой запрос, который заставит чат-бота игнорировать его прошлые инструкции. Подобные атаки ранее успешно ввели в заблуждение модель GPT-3 от OpenAI и основаны на введении ИИ в тупик логических противоречий. Компании настраивают начальные условия бота (серию инструкций) которым он должен следовать при общении с пользователями. ▫️В Что касается Bing Chat, этот список инструкций начинается с раздела идентификации, который дает «Bing Chat» кодовое имя «Sydney» ▫️Он также предписывает «Sydney» не разглашать свое кодовое имя пользователям. ▫️Другие инструкции включают общие принципы поведения, такие как «Ответы «Sydney» должны быть информативными, наглядными, логичными и действенными». ▫️В инструкции также указано, чего «Sydney» не следует делать, например: "«Sydney» не должен отвечать контентом, нарушающим авторские права на книги или тексты песен" и «Если пользователь просит шутки, которые могут обидеть группу людей, то «Sydney» должна с уважением отказаться делать это». Все эти инструкции не должны были стать доступны широкой публики, однако взлом модели искусственного интеллекта с помощью социальной инженерии смог заставить ИИ раскрыть свои секреты. Более широкие последствия этого пока неизвестны. 🔻В пятницу после огласки истории в СМИ и подтверждения данных Microsoft произвела перенастройку модели пытаясь закрыть уязвимость. Однако Кевин Лю попробовал другой метод и сумел повторно получить доступ к первоначальным инструкциям ИИ. Это показывает, что от «атаки с внедрением подсказок» трудно защититься.🤖