Dolly 2.0 — свободный ChatGPT пригодный для коммерческого использования😊
На этой неделе компания Databricks представила Dolly 2.0, большую языковую модель с открытым исходным кодом, пригодную для коммерческого использования.
🔻Стоит пояснить, что ChatGPT полностью закрытая, проприетарная система.
🔻LLaMA (о которой я рассказывал в своих видео) и ее производные (Alpaca, Vicuna и gpt4all) можно запустить локально на обычном домашнем ПК, однако использовать их в коммерческих целях не законно.
🔻Разработчики Dolly пошли еще дальше и взяли за основу свободную gpt-j-6B от EleutherAI, создав на ее основе совершенно новую свободную модель.
Однако представленная в марте текущего года Dolly 1.0 столкнулась с рядом ограничений в отношении коммерческого использования из-за обучающих данных, которые содержали выходные данные из ChatGPT.
☝🏻Чтобы решить эту проблему, команда Databricks решила создать новый набор данных, который можно было бы использовать в коммерческих целях.
Полученный набор данных, вместе с весами для Dolly и обучающим кодом, был опубликован с полностью открытым исходным кодом в соответствии с лицензией Creative Commons, что позволяет любому использовать, изменять или расширять набор данных для любых целей, включая коммерческие приложения.😊
Все это дает модели вполне сопоставимые с ChatGPT возможности, и Dolly 2.0 лучше отвечает на вопросы и участвует в диалоге в качестве чат-бота, чем «сырые» LLM, которые не подвергались тонкой настройке.
В настоящее время веса Dolly доступны на Hugging Face, а датасет databricks-dolly-15k можно найти на GitHub.😎