Обложка канала

Красный Сион

119 @redzion

Аналитика, большие тексты и актуальные новости. Пишем о политике, религии, истории, науке и всём, что есть на свете.

Красный Сион

3 года назад
Открыть в
Великий обман ИИ:тени пиратских книг(ч.2) ч. 1 Западная цивилизация сегодня синоним цивилизации вообще, в том числе, благодаря монополии на научные открытия раз в поколение способные менять мир. Вчера это был интернет, сегодня искусственный интеллект(ИИ). В случае полноценного внедрения, нейросети должны трансформировать наше общество: автоматизировать миллионы рабочих мест, заменить человека в целых отраслях и одновременно стать его помощником, а то и конкурентом в создании картин, литературы, фильмов и видеоигр будущего. Есть одно очень серьезное «но» – выдающиеся возможности ИИ могут оказаться обманом. С момента появления с ChatGPT я работаю с этой безусловной выдающейся программой. Однако, ни разу не доверил написать ей пост. Бот безусловно может имитировать некоторые авторские стили, но на дистанции более 2-3 абзацев всего вылезает его собственный стиль – холодный голос робота, равнодушно повторяющий записанные на его карте памяти факты без какого-либо их понимания. Бот словно механический турок прекрасно имитирует человеческую игру в шахматы, но не играет так, как играл бы человек: неровно, с ошибками, но будучи вовлеченным в сам процесс. На этот счет есть самые разные и интересные мнения. Но самое важное для понимания сути ИИ – разобраться откуда он берет свои представления о мире. Этому может помочь громкий процесс начатый юмористкой Сарой Сильверман и еще двумя авторами текстов. Они требуют наказать разработчиков ChatGPT и машинных скриптов корпорации Meta за нарушение копирайта, что помогает взглянуть «под капот» ИИ. В случае чатбота, модель тренируется на двух корпусах текстов известных просто как «книги1» и «книги2». Первый корпус это, скорее всего, «Проект Гутенберг» – около 6000 оцифрованных книг. В основном старых и уже давно ставших доступными для всех. Второй корпус интереснее – он связан с Россией и «нелегальными теневыми библиотеками».Вернее не с современной РФ, в которой усилиями дебилов-депутатов запрещено все что нельзя и можно, а с россиянами. Многие годы выходцы из научных и интеллектуальных нашей страны оставались в авангарде борьбы за просвещение и свободу знания. Ими были созданы многие крупнейшие онлайн-библиотеки сначала запрещенные в России, а потом и во многих других странах. В прошлом октябре ФБР обвинило двух россиян в книжном пиратстве и арестовало сервера одной из таких библиотек. Другой такой библиотекой заведует некогда участница нашего чата Александра Элбакян – Sci-Hub известен как главное место для поиска бесплатных научных работ, официально стоящих десятки или сотни долларов. Вот такие ресурсы, многие из которых сейчас доступны только через ВПН или торренты, числом до 300 тысяч единиц, могут составлять основу «книг2» – базы данных, породившей самую известную нейросеть современности. Тема копирайта и того как владельцы ИИ должны расплачиваться с людьми, замену которым они фактически создают(создателями текстов и изображений) тут вторична. Куда интереснее, что выборка данных для тренировки машинного обучения может быть куда шире и сложнее, чем считалось раньше. Это не только скучная энциклопедическая литература, но и новаторские научные исследования, самые смешные, страшные и смелые книги современности из пиратских библиотек. Но даже лучшие образчики человеческой мысли не вдохнули ее в нейросеть, научившуюся подражать разве что самым скучным и серым людям на свете. А это похоже значит что всеобщая автоматизация и превращение ИИ в действующий актор современной экономики пока откладывается. Чтобы стать подлинно Великим Открытием, модели нейросети надо научиться не только компилировать обрывки текстов, но и анализировать их и затем создавать свои. Возможным это станет только на стадии универсального ИИ известного как AGI и эту нейросеть еще только предстоит создать. Реб Йесод
"Shadow libraries" are at the heart of the mounting copyright lawsuits against OpenAI

ChatGPT could be trained on massive datasets of books that skirt copyright laws

Quartz