Обложка канала

Малоизвестное интересное

Рассказы, анализ и аннотации происходящего на стыке науки, технологий, бизнеса и общества. Поскольку переделать мир мы не можем, то давайте попробуем его понять.

Малоизвестное интересное

3 года назад
Открыть в
Устрашающий результат эксперимента OpenAI c GPT-4. Теперь можно представить, кем станет «ребенок инопланетян», воспитанный мафией. Роль среды, в которой растет и воспитывается человеческий ребенок, решающим образом влияет на характер и границы его поведения после того, как он вырастет. Близнецы, обладающие от рождения одинаковыми интеллектуальными способностями, в зависимости от среды и воспитания, могут вырасти в кого угодно. Воспитывавшийся в добропорядочной среде, скорее всего, станет достойным гражданином. Выросший в среде мафии, с большой вероятностью, станет преступником. А воспитанный с младенчества волками ребенок – маугли уже никогда не станет человеком. Резонно предположить то же самое и в случае «детей - инопланетян», появившихся недавно на Земле в форме ИИ на основе больших языковых моделей (LLM): GPT, ClaudeAI … Как и человеческие дети, каждый из этих «нечеловеческих разумов» LLM обладает широким спектром заложенных в них способностей. Но человеческие дети приобретают их сразу при рождении. А «дети - инопланетяне» - в результате предварительного обучения. Это дорогостоящий процесс, который для самых больших моделей стоит огромных денег и времени, и поэтому он не повторяется. Говоря об интеллектуальных способностях людей и чат-ботов, важно понимать принципиальное отличие способностей и поведения. • У людей (как сказано выше) характер и границы поведения определяются воспитанием. • У чат-ботов аналогично. Роль воспитания здесь играет т.н. тонкая настройка модели. Она куда дешевле предварительного обучения и потому может проводиться регулярно. Обратите внимание на следующий важнейший момент. • Базовая модель после предварительного обучения функционально представляет собой продвинутый механизм автозаполнения: она не общается с пользователем, а лишь генерирует продолжение фраз, подаваемых ей на вход. • Поведение в диалоге с людьми возникает у чат-бота лишь благодаря тонкой настройке (важнейшая цель которой — предотвратить нежелательное поведение чат-бота. Достигается это тем, что тонкая настройка может как выявить, так и подавить те или иные способности модели. Иными словами, в результате тонкой настройки, модель, имеющая широкий спектр способностей, может, в ответ на конкретный запрос, проявлять какие-то из них или не проявлять. Т.е. способности модели остаются те же, а поведение разное. Следовательно, в результате воспитания (тонкой настройки) модель может проявлять себя кем угодно от ангела до дьявола. И зависеть это будет лишь от ее воспитателей (от высокоморальных исследователей до гнусных бандитов и человеконенавистников). Все вышесказанное было продемонстрировано в течение последних месяцев компанией OpenAI, взявшейся усиленно воспитывать GPT-4. Результаты этого воспитания всполошили Интернет после статьи Линцзяо Чен, Матея Захария и Джеймса Цзоу, которые тестировали GPT-3.5 и GPT-4 на четырех задачах и «моментальных снимках» моделей с марта по июнь. Интернет-общественность трактовала результаты этого исследования, как «деградацию способностей» GPT-4. На самом же деле, авторы вовсе не это имели в виду. Все способности GPT-4 остались при ней. Изменилось лишь (в результате воспитания модели) её поведение (подробное объяснение см. здесь). По сути, этот эксперимент показал колоссальный потенциал воспитания моделей «детей-инопланетян», позволяющий, путем их тонкой настройки превратить в кого-угодно. Этот воистину устрашающий результат ставит важный вопрос: Зачем биться за создание высокоморального ИИ, если тонкой настройкой можно быстро и дешево перевоспитать его в злодея? Ну и вечный вопрос: Оруэлл писал: «Если бы атомная бомба оказалась чем-то дешевым и легко производимым, как велосипед или будильник, возможно, мир снова погрузился бы в варварство …» Не это ли грозит нам нынче с ИИ на базе LLM? #Вызовы21века #РискиИИ #LLM
Is GPT-4 getting worse over time?

A new paper going viral has been widely misinterpreted

Aisnakeoil