Phi-1 - языковая модель для генерации кода от Microsoft Research всего с 1,3B параметров, достигшая близкого к state-of-the-art уровня оценок с помощью тщательно собранного авторами датасета
Большинство датасетов с кодом непригодны для обучения моделей: не содержат полной информации, осмысленных комментариев, токены представляют собой конфигурационные файлы или черновые варианты.
Авторы создали собственный близкий по качеству к учебнику по программированию датасет CodeTextBook с кодом на языке Python, содержащим 6B токенов, отобранных из The Stack и StackOverflow, а также 1B токенов, сгенерированных GPT-3.5, при этом последние включали комментарии и описание.
Дообучение модели на датасете CodeExercises, содержащим 180M токенов с синтетически сгенерированными упражнениями с подробными описаниями, неожиданно наделило модель эмергентными свойствами, например, использовать внешние библиотеки Pygame и Tkinter, хотя в датасете библиотеки не упоминались.
#StateoftheArt
@neurohive