Обложка канала

Блуждающий нерв

3230 @dtulinov

Исследования мозга, нейротехнологии, генная инженерия и др. смежные темы -- что происходит в этой области. Ссылки на научные источники.

Блуждающий нерв

3 года назад
Открыть в
Осьминог vs. ворона: строят ли LLMs модель мира? Еще один пример, атакующий стандартное мнение о LLMs, будто они видят лишь «поверхностную статистику». Авторы из Harvard University показывают, как простое предсказание последовательности может привести к формированию “модели мира”. И именно важно, что “модель мира”, открытая у GPT в их эксперименте, причинно связана с тем, как GPT делает свои прогнозы. Работа представлена на ICLR 2023, препринт был еще в 2022, а вчера первый автор выложил пост с объяснением. Любопытно, что он прибегает к образу вороны, которая наблюдает с подоконника за двумя игроками и так постигает суть игры. Два года назад в том же контексте лингвист Эмили Бендер сравнила LLM c осьминогом, подслушивающим телеграфные сообщения, идущие по подводному кабелю. Замечу, что воображаемые ворона и осьминог, находясь в похожих обстоятельствах и достигая аналогичных результатов (успешной имитации), принципиально различны в том, что они понимают. Осьминог не имеет модели мира, видит лишь корреляции. Позже Бендер отождествила LLM c попугаем🦜. Через эти метафоры она подчеркивает полное отсутствие у ИИ познавательных процессов. По иронии, осьминоги и попугаи весьма умны, а попугаев успешно обучают сложным концепциям, сажая рядом с двумя взаимодействующими людьми, точно как в мысленном примере с вороной. Меня же этот живой уголок в мире бездушных нейросетей все чаще наводит на вопрос о том, почему мы так расположены видеть в ИИ животных. Это уже вопрос не о LLMs, а о нас.
Do Large Language Models learn world models or just surface statistics?

A mystery Large Language Models (LLM) are on fire, capturing public attention by their ability to provide seemingly impressive completions to user prompts (NYT coverage). They are a delicate combination of a radically simplistic algorithm with massive amounts of data and computing power. They are trained by playing a guess-the-next-word

The Gradient