Ну, наконец-то! На зумах можно больше не слушать
Думаете мы просто предложим игнорировать статусы, совещания, ретро и прочие митинги? К счастью для многих руководителей — нет.
У нас есть идея куда лучше (и куда менее рисковая)
И это транскрипция встречи в реальном времени. Мы уже рассказывали про похожий сервис Otter.AI, который мог составлять документ с содержанием звонка, однако, только на английском языке. И вот, появился его конкурент Tactiq, который может работать с гораздо бóльшим количеством языков.
Коротко о нем
🔵Работает со встречами в Google Meet, Zoom, MS Teams и Webex,
🔵Устанавливается как расширение для Google Chrome,
🔵Выгружает транскрипцию можно в Google Docs, Slack или Notion,
🔵Поддерживает 15 языков (в том числе, русский!),
🔵В бесплатной версии можно транскрибировать до 10 встреч в месяц, идентифицируя слова каждого спикера, а затем сохранять себе конспект митинга,
🔵В платных версиях (за 8 или 16 долларов в месяц) есть возможности выгрузки транскрипции в PDF, организации записей созвонов команды, общей выгрузки записей и другие.
Это мы все к чему
В потоке радостного шума и анонсов миллиона сервисов на базе ИИ можно легко потеряться. К тому же, далеко не все эти сервисы уже сейчас работают хорошо и правда закрывают боли потребителей. Но вот транскрипция конференций и видеовстреч — очень нужная фича, для тех, у кого стабильных 5-10 звонков в день, каждый из которых слушать внимательно не всегда получается.
Что делать, если у вас очень много источников данных, а хранилище одно?
Можно под каждый источник организовать свой способ доставки данных. Но есть более изящный способ — применить брокер сообщений Apache Kafka. Именно про него и рассказывает в докладе Артем Выборный.
В двух словах подготовим вас к докладу небольшим обзором на саму архитектуру работы Kafka:
🔵 Обычно для работы Kafka под высокой нагрузкой используют не один сервер, а целый кластер серверов, управление которыми происходит посредством Apache Zookeeper.
🔵 Данные, которые Kafka получает из источника и записывает в хранилище, состоят из сообщений (грубо говоря, это одна транзакция). Источники при этом называются продюсерами, а хранилища (их может быть много) — консьюмерами.
🔵 Каждый брокер хранит сообщения по партициям. Физически — это просто очередь сообщений, то есть новые сообщения дописываются в начало, а старые остаются в конце.
🔵 Партиции вместе образуют топик. Можно настроить, какие сообщения, от какого продюсера попадают в какой топик, а также настроить какие консьюмеры будут читать какой топик.
🔵 У Kafka есть возможность обеспечения репликации (именно при помощи Zookeeper), что повышает отказоустойчивость.
А вот обо всех нюансах работы, вызванных такой архитектурой Kafka, вы можете узнать во всех подробностях в самом докладе.
#краткий_пересказ
Визуализация данных — направление роста для аналитиков
Без финального этапа анализа данных — а именно, их визуализации — польза от аналитики становится доступной лишь техническим специалистам. Например, без нее невозможно наглядно презентовать результаты анализа стейкхолдерам или руководителям.
Однако, если на основе всей проделанной работы вы соберете понятный датавиз, бизнес сможет получить ответы на вопросы и принять верное решение. Дело за малым — освоить навык визуализации данных!
Любой специалист по работе с данными после трёх месяцев курса по датавизу от Яндекс Практикума:
🔵научится находить бизнес-инсайты в данных и эффективнее презентовать выводы, основанные на их анализе;
🔵узнает фишки, которые в разы сократят время на создание визуализаций;
🔵сможет карьерно развиваться и расти в должности и зарплате;
🔵добавит в резюме такие инструменты, как Tableau, DataLens и Datawrapper.
На всех этапах вас будет сопровождать команда специалистов — не дадут просесть по учёбе и помогут выкроить время на изучение нового направления. Вы будете практиковаться на реальных кейсах и положите в портфолио работающие проекты.
Уже не терпится погрузиться в новую сферу? Вперед, к знаниям!
#реклама
Это страшное слово — деградация
В Твиттере X (иксе? экс? мы пока не разобрались, как это называть) завирусился тред про деградацию GPT-4. За последние пять дней в сети появилось много комментариев и мнений на тему работы модели, а именно ухудшения качества ответов. Но началось все с одного исследования…
Рассказываем!
Недавно вышла научная статья ученых из Стэнфорда и Беркли в которой показано, что версия GPT-4, выпущенная в июне, работает хуже, чем более ранняя версия, выпущенная в марте.
Команда оценивала модели, используя 500 задач, в которых модели должны были определить, является ли число простым. В марте GPT-4 правильно ответил на 488 вопросов, а в июне правильных ответов было всего 12. То есть качество ответов упало с 97.6% до всего лишь 2.4%!
Однако, исследование было проведено странно
Все дело в том, что в эксперименте проверялись только числа, которые на самом деле были простыми. Составных чисел в выборке не было, а это не может не влиять на результаты. В итоге, команда провела более честный тест с простыми и составными числами. И выяснилось, что обе модели весьма некомпетентны в этом отношении — мартовская чаще говорила, что число простое, а июньская — наоборот.
Очевидный вывод состоит в том, что GPT-4 не умеет определять, является ли число простым. Хуже не стало — никогда не было хорошо.
В любом случае, по-прежнему остаются нерешенные проблемы, связанные с ухудшениям в других направлениях, например, генерации кода.
Почему это вообще происходит?
По слухам, OpenAI перешли на использование подмоделей, которые ведут себя также как основная GPT-4, но дешевле в эксплуатации. Когда пользователь задает вопрос, система решает, к какой модели его направить. Вероятно, перенаправление запроса и влияет на серьезные ухудшения в качестве ответов.
Конечно, это тревожный сигнал для тех, кто создает приложения на основе GPT-4. Потому что мы уже не просто восхищаемся тем, что могут делать языковые модели, но выпускаем на их основе сервисы и продукты, а значит толерантность к ошибкам резко снизилась.
Архитектура: история и будущее на примере Вконтакте
Хоть мы и пишем этот пост в мессенджере Telegram, все таки стоит отдать должное самой популярной социальной сети в России, ВКонтакте. А вы помните, как начинали свое знакомство с социальными сетями, зарегистрировавшись в VK? Может, даже рисовали граффити на стенах друзей или писали признания в анонимных «Мнениях»? Ух, ну и время было!
Но насколько сложной была архитектура ВКонтакте раньше, и как сильно она усложнилась к сегодняшнему дню?
Об этом в своем докладе рассказывает CTO Вконтакте, Александр Тоболь. Вот несколько интересных моментов из его выступления, которое мы советует посмотреть в оригинале и целиком:
🔵 Стоит сказать, что еще в 2006 году, как и многие приложения, VK под капотом базировался на LAMP-стаке.
🔵 С ростом популярности сайта архитектура начала усложняться, начали появляться новые технологии, такие как NGINX (внимание, 2008 год!).
🔵 Затем появилась другая проблема — масштабирование, поскольку MySQL перестал справляться с нагрузкой. Эта проблема подтолкнула VK прибегнуть к микросервисной архитектуре, которая в 2009 году еще была не так популярна.
🔵 Следующий этап уже был направлен на улучшение деталей, а именно на сетевое взаимодействие микросервиса и БД и формат данных.
🔵 В 2013 году основной задачей по улучшению работы приложения было ускорение кода, который, как и раньше, был написан на бессмертном PHP.
#краткий_пересказ
«Размер имеет значение!» или «Как количество токенов в инпуте влияет на модель»
Anthropic недавно объявили о релизе языковой модели, которая может работать с инпутом до 100К токенов. Для сравнения: GPT-4 позволяет до 32К токенов в контексте. А большинство языковых моделей работают с контекстом, не превышающим 2К токенов.
Галина Алперович опубликовала в своем блоге на Medium статью, в которой собрала информацию из различных источников о том, как длина контекста влияет на способы использования языковых моделей и на качество генерируемого ими текста, об ограничениях архитектуры трансформера и возможностях ее оптимизации для повышения планки объема контекста до 100К токенов.
В частности, она отмечает, что модели, которые смогут работать с таким большим контекстом, будут актуальны при решении задач, связанных с обработкой большого объема текста. Ведь, по сути, 100К – это почти целый роман! Учитывая, что модели тренируются на текстах из интернета, имея возможность «прокачать» модель на своем материале, вы получаете всезнающего ассистента, который будет шарить в вашей теме почти наравне с вами!
Вежливость – не порок. Или все-таки он? 🤷
Бенн Стансил, сооснователь Mode и автор популярного блога о науке о данных benn.substack.com, опубликовал новую статью, в которой рассуждает о том, стоит ли нам быть вежливыми с ChatGPT и какие последствия могут быть, если мы таковыми не будем. Без шуток про непредсказуемую глупость ИИ и референсов к «Матрице», конечно, не обошлось.
Но статья не является чисто развлекательной. Бенн, будучи ученым, а не простым популяризатором науки о данных, проводит эксперимент, в котором прогоняет ChatGPT через 61 задачу с 3 вариациями промптов: вежливой, нейтральной и недоброжелательной. Каждый из этих вариантов имел, в свою очередь, по 15 подвидов в зависимости от температуры – параметра, который отвечает за степень случайности в выборе следующего токена во время генерации текста, своего рода фактор «креативности» текста. Получив в итоге почти 3К ответов, Бенн изучил их, и вот к каким выводам он пришел:
1️⃣ Нейтральные по коннотации промпты чаще вежливых и недоброжелательных выдавали правильно сгенерированные ответы.
2️⃣ Используя вежливые формы обращения к ChatGPT вроде «пожалуйста» и «спасибо», вы провоцируете его быть более многословным при ответах.
3️⃣ Вежливые промпты не гарантируют, что ответы ChatGPT будут более исчерпывающими.
4️⃣ При наличии четких указаний, что ChatGPT должен был сделать в ответе, например, вывести только код, если промпт включал вежливые слова, ChatGPT был склонен не соблюдать инструкции.
5️⃣ При решении математических задач наиболее эффективны нейтральные промпты.
Изучить полный отчет и ознакомиться с другими выводами Бенна вы можете в его блоге. Почитать сексистcкие анекдотики авторства ChatGPT – там же.
Chat Notebooks: ноутбуки Wolfram со встроенной языковой моделью 🧠
Идея ноутбуков, появившаяся на свет в 1987 (нет, мы сейчас не про те, что лэптопы!), за 36 лет своего существования оказала существенное влияние на рабочие процессы в науке о данных, став их неотъемлемой частью. И вот на днях взята новая веха: отныне, ноутбуки Wolfram дополняются функционалом для работы с языковой моделью.
В интерфейсе ноутбуков Wolfram появились «окошки» для общения с ИИ. В статье рассказывается о двух типах новых ноутбуков: ноутбуки с правами на чат (chat-enabled) и ноутбуки, управляемые с помощью чата (chat-driven). Вторые отличаются от первых тем, что для работы с ними не требуется прибегать к языку программирования Wolfram. Также любопытен тот факт, что ячейки чата в ноутбуке считываются ИИ последовательно, то есть, каждая последующая учитывает информацию из предыдущей, но не знает о последующей.
Другой особенностью Chat Notebooks является то, что искусственный образ, роль которого вы бы хотели, чтобы ИИ играл в общении с вами, может настраиваться на разных уровнях: вы можете указать роль ИИ для всей переписки в ноутбуке, а также задать отдельные образы внутри каждого отдельного чата.
В целом, Chat Notebooks похож на интеграцию ChatGPT в интерфейс ноутбуков Wolfram. Подробное руководство по работе с новшеством вы найдете в статье. А в комментариях мы приглашаем вас обсудить, какие другие сервисы нуждаются в интеграциии языковых моделей!
Корреляция, ковариация и книги ужасов
Несмотря на то что количество реакций к прошлому посту рубрики #основы_статистики не смогло достичь нужного числа, мы все равно продолжаем, делиться с вами знаниями и напоминать о важных концепциях статистики. Все-таки, не в реакциях счастье!
Итак, мы уже познакомились с одним из самых важных инструментов статистического анализа, — T-критерием Стьюдента. Надеюсь, теперь вы и в ночи, и с похмелья без запинки расскажете, что он позволяет сравнивать две разные выборки и как им пользоваться. Однако, T-критерий не поможет, если нужно оценить влияние определенного фактора на целевой показатель.
Давайте сегодня погрузимся в вечерние традиции жителей нашего воображаемого города N и познакомимся с другим инструментом для анализа данных, а именно с коэффициентом корреляции.
По традиции (но без лишнего давления!) просим поддержать этот пост реакцией, если он вам понравился и показался полезным ⚡
P.S. И помните, что «поделиться этим постом с другом такая же здоровская идея, как поделиться с ним хорошим мемом»!
Ищем новых героев для заключительного выпуска 3 сезона Data Heroes 👾🚀
Хотите принять участие в записи нашего подкаста? Есть предложение!
Если вы работаете аналитиком данных в российской компании (не удаленно!), то будем рады пригласить вас на подкаст и пообщаться. Также будем очень рады и руководителям отделов аналитики!
Пишите моей коллеге @Milanchezaa с кратким резюме: кем работаете, что входит в ваши обязанности и деятельность компании.
P.S. Если у вас есть знакомые, которые могут нам подойти, то буду благодарен за репост!
P.P.S. Ставьте ❤️, если ждете новый эпизод Data Heroes, чтобы поддержать нашу креативную команду!
Voicebox: генеративная модель от Meta AI, которая «говорит»🗣️
Разработчики Meta AI опубликовали исследование, в котором представили свое новое детище: модель для генерации речи Voicebox. В отличие от многих уже существующих аналогичных продуктов, Voicebox построена на новом подходе – «сопоставления потоков» (*flow matching*). Суть этого метода в том, что модель может обучаться на речевых данных без необходимости их маркировки, что дает возможность использовать более разнообразный набор данных, а в итоге – получать более качественные результаты генерации.
Какие же функции может выполнять Voicebox?
1️⃣ Генерация текста (как с референсом голоса или стиля речи, так и без),
2️⃣ Воспроизведение аудио отрывка на другом языке (доступно для английского, французского, немецкого, испанского, португальского, польского),
3️⃣ Редактирование аудио, включая удаление фоновых шумов и замену слов.
Впечатляет!
Но и настораживает – и это одна из причин почему разработчики Meta AI пока не готовы выложить модель и ее код в открытый доступ. Нам остается только слушать демочки и читать многостраничный научно-исследовательский отчет разработчиков.
А как вы считаете: пользы от моделей для генерации речи больше (помощь неговорящим, озвучивание), чем риск угроз (фальсификация высказываний, мошенничество)? И как стоить регулировать распространение таких продуктов?
HouseWatch: open source инструмент для работы с кластерами ClickHouse🕵️♀️
GitHub в очередной раз порадовал находками. На этот раз повезло инженерам, работающим с ClickHouse!
HouseWatch — это инструмент, который дает возможность:
1️⃣ посмотреть нагрузку и производительность кластера,
2️⃣ подробно изучать запросы,
3️⃣ находить ошибки,
4️⃣ получать статистику использования диска на узел и многое другое.
Разработчик HouseWatch — мультинациональная компания PostHog. Инструмент, появившийся на свет 2 недели назад, уже привлек к себе внимание энтузиастов ClickHouse. Некоторые функции еще в разработке, но все они, на мой взгляд, только придадут продукту солидности и укрепят позицию инструмента в арсенале инженеров: вкладка с системными ошибками, визуализатор EXPLAIN, поддержка нескольких инстансов и больше возможностей управления операциями: просмотр, удаление, редактирование, повторный запуск, отображение ошибок.
HouseWatch выглядит многообещающим помощником в решении многих рутинных задач при работе с ClickHouse. А какие инструменты для этой СУБД используете вы?
Исследование: может ли GPT-4 заменить аналитика данных? 👀
Мой друг и коллега @hello_klimmy прислал любопытный научный доклад о том, может ли GPT4 быть хорошим аналитиком. Трое ученых из Наньянского технологического университета, главного технологического учебного заведения Сингапура, провели исследование, в котором попытались ответить на этот мучающий многих вопрос.
Они провели ряд экспериментов, по результатам которых выяснилось, что GPT-4 вполне в состоянии решать определенные задачи на уровне профессиональных аналитиков. Конечно же, очень многое зависит от промптов и данных, с которыми ИИ пришлось работать, и авторы работы подчеркивают, что их исследование – всего лишь предварительное и требует более обстоятельного подхода.
Ознакомиться с проведенными экспериментами и метриками, примененными для оценки результатов исследования, можно в этом документе, а пофантазировать о будущем профессии аналитика или попытаться построить прогнозы – в комментариях под постом!
LastMile AI Workbook: интерфейс для работы с разными моделями ИИ 💬➕🖼
Американская компания LastMile AI предлагает ценителям ИИ продукт, который позволяет взаимодействовать с разными генеративными моделями – и языковыми, и графическими, и аудио – в одном интерфейсе.
С помощью этого онлайн сервиса, вы можете переключаться между ChatGPT, PaLM, Stable Diffusion, Bark, Whisper и DALL-E2 в рамках одной страницы. Например, придумать вместе с ChatGPT детальный промпт для DALL-E2, чтобы сгенерировать картинку или дать Whisper задание на создание закадровой озвучки для Instagram рилса.
Интерфейс минималистичен и интуитивно понятен. Подробное руководство можно прочитать в несложном how-to, а ознакомиться с возможностями применения продукта и компанией, его создавшей, – на главной странице проекта.
На сайте разработчика сказано, что сервис изначально бесплатный (что это означает более конкретно, мы так и не нашли), но нужна регистрация – достаточно почты или аккаунта GitHub.
«Все познается в сравнении» — T-статистика
Т-статистика — эксперт по сравнению разных групп между собой и оценке значимости разницы в их распределениях. Думаю, вы это и раньше знали, но повторить это — никогда не лишнее, не так ли?
Итак, в предыдущих примерах исследований мы не сталкивались ни с какими трудностями или ограничениями, которых в реальной жизни на самом деле полным-полно.
Сегодня мы столкнемся с такой классической трудностью, как невозможность собрать большую выборку для исследования и решим, что в этом случае делать. А также, вспомним критерий, который позволяет сравнивать две генеральные совокупности, имея на руках только выборки из них.
P.S. В прошлый раз вы оставили больше 200 реакций — это было супер, мы даже не ожидали! Пришла пора повышать ставки: собираем 250⚡и продлеваем сериал #основы_статистики на следующий эпизод!
@leftjoin
Autolabel: библиотека Python для маркировки данных
GitHub – кладезь полезных инструментов для любителей технологии NLP (natural language processing – обработка естественного языка) и не только.
Вот еще одна находка: библиотека Python под названием Autolabel, которая позволяет автоматизировать маркировку, очистку и обогащение текстовых данных с помощью языковых моделей.
Autolabel поддерживает широкий спектр задач NLP, тем самым экономя ваши время и затраты по сравнению с ручной маркировкой. Используя модели с открытым исходным кодом от OpenAI, Anthropic, HuggingFace и Google, с помощью этой библиотеки теперь можно маркировать данные с высокой точностью.
А какие находки c GitHub вы используете в работе?
Простой способ визаулизировать аналитику приложения
В AppMetrica — сервис «Яндекса» для трекинга и продуктовой аналитики мобильных приложений — добавили решение Workspaces для быстрой настройки визуализации данных о показателях работы мобильного приложения. Теперь в сервисе можно создавать автономные дашборды с наглядным представлением финансовых, продуктовых или маркетинговых метрик.
Есть несколько сценариев использования:
– Следить за работой конкретной фичи в приложении.
– Кросс-чекать общепродуктовые метрики.
– Отслеживать выполнение KPIs по отдельной задаче/проекту.
Всего можно настроить до 100 автономных дашбордов, в каждом — до 20 виждетов. Функция доступна пользователям на тарифах Pro и Custom.