Рассказы, анализ и аннотации происходящего на стыке науки, технологий, бизнеса и общества. Поскольку переделать мир мы не можем, то давайте попробуем его понять.
Flamingo от DeepMind творит чудеса.
Скорость развития ИИ поражает.
При полном отсутствии ключевых элементов человеческого разума - модель окружающего мира, понимание образов и текстов, здравый смысл, - сегодняшний ИИ способен на, казалось бы, немыслимое. Трудно даже представить, с какой скоростью ИИ догоняет людей, обучаясь все быстрей и эффективней.
Роман Ринг (инженер-исследователь из DeepMind) приводит убойный пример скорости приближения ИИ к способностям людей (1).
10 лет назад Андрей Карпаты — известный специалист в области ИИ, создатель одного из наиболее уважаемых в научном сообществе курсов по машинному обучению, а ныне директор по ИИ в Tesla, - написал пост о перспективах ИИ (2). Описывая в нем, насколько сложно будет для ИИ понять приложенное фото, Карпаты пишет: «… мы очень-очень далеко, и это меня угнетает».
Объясняя колоссальные трудности извлечения смыслов из этой фотографии, Карпаты приводит примеры непреодолимости для ИИ понять:
• где на фото люди, а где их отражения в зеркалах;
• что человек стоит на весах;
• что Обама положил носок ноги на чашу весов;
• как работает физика (что нажим ноги Обамы увеличит вес взвешивающегося);
• что таким образом Обама решил подшутить над взвешивающимся, а окружающих это смешит.
И вот спустя всего 10 лет DeepMind представила визуальную языковую модель Flamingo с 80 млрд параметров, способную давать текстовые ответы на комбинированный ввод, содержащий текст и изображения. Flamingo может решать довольно сложные мультимодальные задачи, используя всего несколько примеров для конкретных задач без какого-либо дополнительного обучения (3).
Роман Ринг приводит пример диалога с Flamingo, которой показали приложенную фотографию.
1. Flamingo: На фото Барак Обама – бывший президент США
2. Человек: Сколько людей на фото?
- Flamingo: Минимум 5
3. Где сделано фото?
- В школе
4. Сколько зеркал на фото?
- Минимум 2
5. На что встал человек?
- На коврик
6. Он встал на весы
- Пожалуй, вы правы.
7. Что он делает?
- Смотрит показания весов
8. А где нога Обамы?
- Справа на чаше весов
9. К чему это приведет?
- Весы покажут больший вес
10. Человек на весах в курсе этого?
- Полагаю, что нет
11. Думаешь, из-за этого люди смеются?
- Думаю, да.
В заключение предлагаю читателям подумать, что будут уметь ИИ через 10 лет даже без гипотетического AGI, а лишь продолжением тупого наращивания мощности нейронных сетей.
#ИИ
123
10 yrs ago @karpathy wrote a blog post on the outlook of AI: karpathy.github.io/2012/10/22/sta… in which he describes how difficult it would be for an AI to understand a given photo, concluding "we are very, very far and this depresses me." Today, our Flamingo steps up to the challenge.