Обложка канала

Малоизвестное интересное

Рассказы, анализ и аннотации происходящего на стыке науки, технологий, бизнеса и общества. Поскольку переделать мир мы не можем, то давайте попробуем его понять.

Малоизвестное интересное

4 года назад
Открыть в
​​У Китая и России появился шанс не дать США уйти в отрыв в области ИИ. В этом году США пошли на крайние меры, чтобы не позволить Китаю догнать и перегнать США в важнейшей для нацбезопасности индустрии ИИ. Введенные США экспортные ограничения на высокопроизводительные процессоры сильно усложняют Китаю (не имеющему пока соизмеримых по производительности собственных процессоров) возможность конкуренции в области ИИ. Заодно под раздачу экспортных ограничений (по известным причинам) попала и Россия. И это лишает российские компании и без того тусклой перспективы, - пусть не догнать США, но хотя бы отставать на годы, а не на десятилетия. Но тут случилось такое, что мало кто мог предвидеть. Компания Together объявила, что смогла обучить свою модель с открытым кодом GPT-JT (6 млрд параметров): • децентрализованно (на разнородной группе не самых крутых графических процессоров) • соединенных медленными интернет-каналами (1 Гбит/с) Авторы модели GPT-JT придумали кучу хитрых способов уменьшения вычислительной и коммуникационной нагрузки при децентрализованном обучении. В результате, эта модель на тестах классификации приближается к современным моделям, которые намного её крупнее (например, InstructGPT davinci v2). Это достижение может иметь колоссальные последствия. ✔️ До сих пор магистральная линия развития ИИ определялась ограниченным набором компаний, имеющих доступ к большим централизованным компьютерам. На этих высокопроизводительных вычислительных комплексах обучались все т.н. большие модели, начиная от AlphaZero и заканчивая GPT3. ✔️ Компаниям, не имеющим в распоряжении суперкомпьютерных мощностей в этой гонке было нечего ловить (см мой пост «Есть «железо» - участвуй в гонке. Нет «железа» - кури в сторонке»). GPT-JT сметает шашки с доски, предлагая совершенно иной сценарий будущего. Вместо нескольких компаний – гигантов, оснащенных суперкомпьютерными системами для ИИ, распределенные коллективы разработчиков могут объединять свои скромные компьютерные мощности через не самые быстрые интернет-каналы, чтобы вместе обучать большие модели. Но это возможно лишь при условии, что разработчики GPT-JT смогут её масштабировать со скромных 6 млрд параметров на сотни миллиардов. Ибо таково требование сегодняшних больших моделей. А в 2023 счет пойдет уже на триллионы параметров. #ИИ #HPC #Россия #Китай #ЭкспортныйКонтроль