Ivan Begtin(@begtin). На чём Google обучает свой чат-бот, журналисты Washington Post заглянули внутрь Google C4 [1] набора

На чём Google обучает свой чат-бот, журналисты Washington Post заглянули внутрь Google C4 [1] набора данных для обучения языковой модели. Более всего там базы патентов из patents.google.com которая собрана из открытых баз патентов США и других стран, там же база публичных отчётов компаний sec.gov и ещё многие другие открытые государственные данные, в основном из США. Другой немаловажный источник - Википедия. Просто интересно, вместе с запретом Википедии депутаты в России чат боты обученные на ней тоже запретят? А по факту именно свободные знания и открытые государственные знания создают существенную долю языковых моделей на которых создаются новые ИИ инструменты. Ссылки: [1] www.washingtonpost.com/technol…learning #opendata #ai #datasets #google