Обложка канала

Мы и Жо

8984 @themedia

«Медиа и Журналистика».

Мы и Жо

3 года назад
Открыть в
Как СМИ бесплатно обучают нейросети Нейросети, которые захватывают мир в последние месяцы, принципиально похожи на T9 в телефоне. Вы задаете им контекст, они используют заложенную ранее информацию, чтобы выдать наиболее вероятное расположение слов в ответ. А откуда берется эта информация? Ведь понятно, если в процессе обучения заложить мусор, на выходе тоже получится мусор. Готовятся специальные корпуса текстов и наборы данных. OpenAI не раскрывает состав заложенного в ChatGPT, но кое-что известно, например, об источниках данных для нейросетей Google и Meta. The Washington Post обработал один из таких корпусов — C4 (Colossal Clean Crawled Corpus). Это очищенный — кто-то может сказать «отцензурированный» — набор данных с сайтов, проиндексированных роботами Google. Статья интерактивная — обязательно поищите, какую долю в корпусе занимают ваши любимые сайты. Чтобы сэкономить клик — pornhub есть, но его мало. Роль медиа очень велика. В десятке пять позиций занимают СМИ (The New York Times, The Los Angeles Times, The Guardian, Forbes, HuffPost), остальное в значительной части — справочная и научно-техническая информация (научные статьи. Википедия, патентные архивы). Есть, впрочем, RT (65 место), Breitbart (159), а также маргиналы вроде неонацистского stormfront или трансфобного kiwifarms. Впрочем, популярность последних в корпусе очень мала. Что все это значит и чего ждать? ◆ Если ответы нейросети зависят от ее информации, то можно сформировать идеологически послушную сеть, главное подобрать нужные источники. ◆ СМИ рано или поздно попытаются монетизировать свое присутствие в корпусах для обучения нейросетей. Первые такие заявления уже были, и OpenAI подтвердила, что готова оплачивать эту информацию, как и любую другую (наборы специализированных данных могут быть довольно дорогими). ◆ Следует ожидать «суверенных» нейросетей. Провластные «Известия» пишут, что нечто подобное уже начинается. «Яндекс» собирается обучать свою нейросеть YaLM 2.0 — аналог ChatGPT. Для этого откроют сотни вакансий для гуманитариев — журналистов, педагогов и филологов. Какими будут правила отбора и обучения, неизвестно. ◆ Будут ли они только модераторами или начнут создавать собственный контент — пока не очень ясно. Представитель «Яндекса» называет эти роли «AI-тренер или их руководитель». ◆ Что-то похожее собираются делать в VK и Ростелекоме, но об их проектах еще меньше данных. 📰 Мы и Жо. Подписаться | 👉 Заходите в медиачат
Буквы разные писать: IT-компании набирают гуманитариев для развития нейросетей

Сколько смогут зарабатывать филологи, журналисты и педагоги

Известия