Рассказы, анализ и аннотации происходящего на стыке науки, технологий, бизнеса и общества. Поскольку переделать мир мы не можем, то давайте попробуем его понять.
Создана энергетическая модель понимания ИИ сложных сцен.
Это еще не человек, но уже и не совсем машина, ибо кое-что понимает.
Современный ИИ водит авто лучше большинства людей. Но при этом не понимает ничего из того что видит. ИИ-автопилот способен аккуратно обогнать грузовик, но не в состоянии по вашей команде «ехать за грузовиком с красной кабиной». Причина в том, что ИИ-автопилот научили ориентироваться среди объектов, встречающихся на дорогах, но он не понимает композитной структуры окружающего мира: их взаиморасположение, взаимосвязь и т.д. Из-за этого он не понимает, что это грузовик, у него есть кабина, она имеет цвет и может быть красной.
Есть два способа проверить понимание ИИ композитной структуры окружающего мира:
• Visual Relation Understanding: предлагать ИИ описать на естественном языке, что он видит;
• Language Guided Scene Generation: предлагать ему сгенерировать изображение сцен по их описанию на естественном языке.
Например, «понимающая» окружающий мир умная колонка со встроенной камерой может, на ваш вопрос «как расставлена мебель в комнате», ответить что-то типа: слева у окна письменный стол, а перед ним стул, справа книжный шкаф, а за ним этажерка, на окне бежевые шторы, а на подоконнике цветок в горшке.
Или, например, она способна сгенерировать верную 3D картинку по вашему описанию: на дворе трава, а на траве дрова.
Умеющему сделать такое ИИ будет еще далеко до человеческого понимания мироустройства. Но и сказать, что он совсем не понимает, как устроен окружающий его мир, уже будет не справедливо.
Новый весьма оригинальный способ обучения ИИ пониманию сложных композитных сцен из многих предметов и их взаимоотношений описан в только что опубликованной работе Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) MIT. Способ основан на «энергетической модели»: описание реляционной сцены отношений объектов, как произведение отдельных распределений вероятностей отношений между ними, причем каждое отдельное отношение определяется на изображении своим распределением вероятностей. Такая композиция позволяет моделировать взаимодействия между несколькими отношениями (популярно, научно).
Новый способ скоро позволит ИИ строить сцены по описаниям типа «на златом крыльце сидели: царь, царевич, король, королевич, сапожник, портной». И совсем не за горами понимание ИИ фраз типа «графиня изменившимся лицом бежит пруду».
Вместе с тем, даже столь обещающие перспективы «энергетической модели» не позволяют надеяться на понимание ИИ фраз типа «на меня наставлен сумрак ночи тысячью биноклей на оси». Ибо здесь, как с аффордансами, - проблема не в неисчислимости вариантов объектов и их отношений, а в неопределенности этих отношений (см. здесь). Это значит, что пока Борис Пастернак не создал этих отношений между объектами: «сумрак ночи», «тысяча биноклей» да еще и «на оси» в контексте «ощущения неотвратимости трагедии», - они просто не существуют в нашем мире.
И даже если они существуют в каком-то из иных миров Метаверса, люди уровня Бориса Пастернака умеют их оттуда извлекать, а алгоритмы ИИ – нет (т.к. преодолеть неопределенность с помощью вычислений нельзя).
#ИИ #МашинноеОбучение
A new machine-learning model could enable robots to understand interactions in the world in the way humans do. When humans look at a scene, they see objects and the relationships between them. On top of your desk, there might be a laptop that is sitting to the left of a phone, which is in front o