tldr_tany, страница 3, все посты канала

tldr_tany

Где почитать про новости из web3 Или я завожу твиттер Web3 плотно входит в нашу жизнь. На прошлый пост было очень много отклика — рада, что получилось быть полезной. Но осознала, что формат лонгридов не покрывает всех запросов - очень быстро все меняется. Поэтому сделала твиттер. Надеюсь, что будет интересно и полезно - область горячая, важно быть на острие событий) подписывайтесь, буду рада всех видеть Прошлый пост в виде треда Кстати на аватарку поставила прям NFT. Рассказать как выбирала?

tldr_tany

Добавила реакции в канал, интересно, как вам контент, полезно или нет 💪 Ну и в комментариях как обычно рада пообщаться

tldr_tany

Экспресс-crypto гайд, часть 2, практика Запилила гайд по мотивам 5 созвонов с друзьями, на которых рассказывала, как быть с криптой. Вдохновлено последними событиями, пользуйтесь 💛, присылайте друзьям и ставьте лайки 💪Практика - задачи и вопросы Теперь про то, что делать с этими знаниями обычному обывателю. Привела решения 4 основных задач, стоящих перед простым обывателем, для биржи Binance - если ее заблокируют, идите в список бирж и проверяйте, что не заблорировано. ✏️Задача 1 - ввести деньги с карты в криптовалюту ✔️Регистрируйтесь на бинансе, идите в секцию P2P. Там выбираете криптовалюту, которую хотите купить за рубли-доллары, например usdt, и продавца с более чем 500 отзывов и хорошой статистикой сделок (проценты сверху). Вам выдают реквизиты карточки продавца. Идете в Тинькофф-Сбер, переводите, через пару минут деньги приходят вам в виде крипты на бинанс. Если деньги не приходят - читайте. Таких кейсов мало, но лучше не переводить сразу большие суммы - переводите либо небольшими порциями, либо делайте первую порцию у продавца небольшой. ✔️Все, деньги лежат у вас на кошельке биржи. Теперь нужно перевести на криптокошелек, например Trustwallet, который принадлежит только вам, чтобы избежать рисков блокировки аккаунта на бирже. ✔️Региструемся в криптокошельке, например trustwallet. Вход в в кошелек происходит по специальной фразе - ее важно запомнить. В отличие от регистрации на бинансе, тут для входа не потребуется телефон и почта - только фраза. Если вы ее забудете - деньги потеряются. Важно не сохранять фразу у себя на компьютере - могут найти злоумышленники. Придумайте хитрый способ. ✔️Затем идете в криптокошелек, нажимаете кнопку “Получить”, выбираете криптовалюту в той цепи, в которую хотите перевести крипту в бинансе, копируете адрес. Очень важно - если у вас валюта на бинансе, например usdt, например в цепи эфира (ERC20), то нельзя ее переводить в цепь tron на криптокошелек - деньги просто исчезнут. ✏️Задача 2 - вывести криптовалюту на карту Идем в свой криптокошелек, переводим деньги на бинанс, обращаем внимание на цепь, как в задаче 1. На бинансе идем в секцию p2p и выбираем перевод крипты в валюту. Хоп - и деньги у вас на карте. ✏️Задача 3 - положить валюту в криптовалюту и/или вывести криптовалюту в наличные Если вы заграницей и у вас заблокирована карта есть 2 варианта. В некоторых станах есть криптообменники - обменять валютуу на крипту и наоборот. Например в Турции такие обменники есть и легальны, комиссия там составляет в среднем 3-6% ❓Вопрос 1 - Какую криптовалюту лучше покупать? Зависит от цели, плюс везде есть свои риски. Можно покупать традиционные валюты - эфир и биткоин. Минус - их курс сильно колеблется. Плюс - их не могут заблокировать. Есть стейблкоины - USDT, USDC, DAI. Везде есть плюсы и риски. USDC издается Coinbase - это аудируемая компания, есть гарантии что курс всегда будет 1 доллар. С другой стороны, поскольку эта валюта аудируемая, а значит, очень белая, ваши деньги можно гипотетически заблочить. Например недавно Coinbase написали, что заблокировали 25 тысяч российских аккаунтов под санкциями. USDT технически возможно заблочить, но трудно. DAI - децентрализованный стейблкоин невозможно заблокировать, но есть риски, что DAI рухнет по сравнению с долларом вышею, чем у USDC и USDT ❓Вопрос 2 - В какой цепи лучше держать криптовалюту? Есть криптовалюты, у которых нет своей цепи, которые как бы надстройки над уже существующими блокчейнами. Например usdt может переводится на эфире, solana, tron. Минусы цепи эфира (ERC20) - дорогая транзакция (15-50$) плюс - надёжность. Переводы на tron (TRC) дешёвые, но менее надёжные - с очень маленькой вероятностью tron, как сущность может умереть. ❓Вопрос 3 - Как юридически это все регулируется? В России сейчас разрабатывают регулирование, в котором криптовалюта может рассматриваться как способ инвестирования, до 600 тысяч рублей в год, P2P переводы запрещены, можно покупать крипту только с самой биржи. Но его пока не приняли. Внимательно следите за объявлениями и оставайтесь в легальном поле 🧗🏼‍♀️By @tldr_arxiv

tldr_tany

Экспресс-crypto гайд, часть 1, теория Запилила гайд по мотивам 5 созвонов с друзьями, на которых рассказывала, как быть с криптой. Вдохновлено последними событиями, пользуйтесь 💛, присылайте друзьям и ставьте лайки 🔎Теория 💸Фиат - обычные деньги, которые мы используем. Они выпускаются центробанками, печатаются и из-за этого обесцениваются со временем. Все переводы отслеживаются и проводятся банками. 🥷Криптовалюта - валюта, при проверке транзакций в которой не участвуют банки, платежи отправляют и получают пользователи. То, что транзакцию со своего кошелька перевела именно я, а не мошенник с моего кошелька, верифицируется по моему приватному ключу, он же кодовая фраза, которая выдается при мне при регистрации в моем криптокошельке. То, что я не перевела со своего кошелька 100 долларов на два другие свои кошелька дважды, заработав на этом 100 долларов, верифицируется майнерами, которые подтверждают транзакции криптовалюты (собирают их в блоки блокчейна). 👛Криптокошелек - место, где хранится криптовалюта. При создании кошелька вам дается кодовая фраза, она же по сути приватный ключ - она используется для того, чтобы проверять, что деньги с кошелька перевоите именно вы. Примеры кошельков - Trustwallet, Metamask 🔗Блокчейн - это непрерывная цепочка блоков. В ней содержатся список транзакций, то, с какого адреса и на какой, сколько криптовалюты было переведено. Пока транзакция не входит в подтвержденный (синоним смайненный) блок, то денег по факту на кошельке нет. Потому эти деньги дальше еще кому-то перевести не получится, если по научному, то от этой транзакции нельзя строить следующий блок, а соответсвенно делать транзакцию. ⛏Майнинг - процесс построения блока (подтверждения транзакций). После того, как много пользователей, как я, решили перевести свои деньги другим пользователям, а именно сделали много транзакций, эти транзакции пытаются обьединить в блок майнеры - люди, которые зарабатывают криптовалюту за каждый замайненный блок. Обычно это происходит с помощью больших вычислительных мощностей - например характеристики транзакции объединяются и майнеры перебирают такое число, чтобы при применении к нему и к обьединенной транзакции заданной функции (эта функция у каждой криптовалюты своя) получился хэш, который заканчивается например на 4 нуля. Кто первый подобрал такое число - тот молодец, и получает комиссию за транзакцию. Так и создается новая крипта - в процессе майнинга, никто не печатает деньги по своему желанию в удобных ему количествах. В этом большая прелесть криптовалют. 🧘‍♂️🧘‍♀️Стейблкоины - криптовалюты, которые, жестко привязаны к курсу фиата, например, гарантируется что 1 криптодоллар будет равен 1 обычному доллару. Три популярных - USDT, DAI, USDC. 🎉Криптобиржа - место, где можно превратить фиат в крипту, конвертировать крипту в другую крипту. Есть 2 способа покупки крипты - непосредственно с биржи и у независимого продавца - peer2peer (вы переводите деньги со своего Тинькофф на Тинькофф продавца, а потом он кидает вам валюту на бинанс). Не держите деньги на бирже, пока они на бирже, они принадлежат бирже. Ваш аккаунт по российскому паспорту могут заблокировать. Переводите деньги с биржи в криптокошельки, их не могут заблокировать. Популярные биржи Binance, okx, ftx, kraken. Coinbase - крупная биржа, которая выпускает свой стейблкоин USDC, недавно обьявила о том, что закрывает аккаунты российских пользователей. Так что нужно держать руку на пульсе и хранить деньге не на бирже, а в криптокошельке, на бирже только менять. 🧗🏼‍♀️By @tldr_arxiv

tldr_tany

🦕Кто и почему делает стартап на свои деньги? Почти каждый день читаю новость о том, как кто-то привлек много денег в свой стартап. Инвестируют в продукты с готовым mvp, а иногда просто в идею. Недавно видела, как стартап, делающий яйцеклетки из клеток кожи, привлек инвестиции. Звучит космически. При более внимательном прочтении можно заметить, что у стартапа единственный сотрудник — PhD студент, а продукт представляет собой простенький сайт, на котором вместе с идеей стартапа хранятся домашки по коду на python. Какое-то время назад мне, как корпоративному предпринимателю, стало очень интересно — бывает ли такое что люди делают что-то за свои деньги? И если да, то зачем, если можно взять инвестиции под сайт с описанием выдуманной прорывной технологии? Ниже расскажу аггрегированную мотивацию не привлекать инвестиции, и приведу примеры успешных компаний. Что-то на основе статей, что-то из личных разговоров со знакомыми основателями. *Кстати, у стартапа, который делается на свои деньги, даже есть специальное название — bootstraping, дальше буду использовать его. 💶 Стартап на свои деньги — мотивация, плюсы и минусы Так зачем люди делают компанию за свои деньги, когда инвестиции можно получить за идею? Во-первых, даже несмотря на кейсы привлечения денег студентами за идею, инвестиции дают не всем. Во-вторых, вместе с инвестициями приходят третьи люди, которые контролируют деятельность компании - перед ними надо отчитываться и согласовывать решения. В-третьих, если дела у компании пойдут хорошо, то вероятность, что изначальные фаундеры продолжат руководить компанией на горизонте 10 лет в сллучае привлечения инвестиций на начальной стадии, равна примерно нулю. Плюс, создание такой компании - очень крутой опыт, который учит делать только то, что действительно нужно (потому что денег нет). Плюс всегда можно привлечь большие инвестиции с лучшими условиями на более поздней стадии. Минусы - нет денег на масштабный маркетинг, прибыль стоит показывать за год-два. Нет денег на найм дорогих специалистов, их нужно завлекать как-нибудь еще или выполнять их функции самостоятельно. К этому списку добавляются постоянные нервы, потраченные на проект, риск потерять все вложенные деньги. 🎉 Примеры успешных bootstrap компаний К успешным компаниям, которые долгое время не привлекали инвестиции, относятся такие ребята, как например Apple и Microsoft. Нельзя делать вывод, что корпорации делаются только бутстрепом. Есть связь со временем - раньше конкуренции за информационное пространство было меньше, без инвестиций сделать бизнес было проще, а чтобы стать корпорацией нужно время. Есть примеры и менее больших, но очень влиятельных компаний: - GoPro была сделана 26-летним предпринимателем, который пошел серфить и не нашел удобнуую камеру, чтобы это запечатлеть. В 2014 году GoPro вышла на IPO со стоимостью 2,96 миллиарда долларов - Github изначально был придуман тремя программистами как petproject, запускался и развивался без внешних вложений. По состоянию на ноябрь 2021 года более 73 миллионов разработчиков по всему миру используют платформу. В октябре 2018 года Microsoft заплатила за приобретение GitHub 7,5 миллиарда долларов. - Игровая студия, которая придумала Minecraft - еще один пример такой компании. Они были основаны в 2010 году и базируются в Стокгольме. В 2014 году они были приобретены Microsoft за 2,1 миллиарда евро. До того, как их приобрели, они не привлекали инвестиций. - Mailchimp - сервис, с которого вам вероятно отсылают письма разные компании, сделал выручку $700 M на 100% принадлежит основателю. 🥂 Что в итоге Сделать компании за свои деньги - надежный вариант, чтобы в случае успеха через 10 лет сохранить контроль над происходящим с компанией, и заработать много денег. Мои знакомые и предприниматели и люди из интернета говорят, что о такие вещи нервно изматывают и требуют большего числа времени и скиллов. В то же время, жестче прокачивают эти скиллы. Круто что в обоих вариантах есть успешные примеры.

tldr_tany

💻Зачем покупать цифровую недвижимость за 5 млн долларов, и причем тут фейсбук Вчера утром инвесторы купили кусок виртуальной земли на платформе метавселленной Axie Infinity за 550 эфиров (2.3 млн долларов). Чуть раньше на этой неделе был куплен цифровой участок земли в другой вселенной Decentralized за 2.4 миллиона долларов. Сделки побили прошлые рекорды по покупке цифровой недвижимости в 2 раза. Ниже расскажу, что люди делают на платформе Axie Infinity, почему кому-то нужно покупать цифровую землю, почему это важно, что за метавселенная Axie и причем тут фейсбук. 🦄Что люди делют на платформах метавселенных на примере Axie Infinity? Axie Infinity от вьетнамской студии Sky Mavis — одна из самых популярных блокчейн-игр. В cентябре 2021 года объём торговых операций в ней превысил $2 млрд. В этой игре люди покупают и управляют персонажами, похожими на покемонов. Игровые предметы и персонажи - это NFT, покупаются за криптовалюту. Их можно перепродавать. Они являются уникальными. Люди покупают не просто предметы - они покупают токены игры, и таким образом права владения на часть игры. В игре Axie Infinity можно сражаться с другими игроками, проходить задания и получать за это валюту игры - SLP (Sweet Love Potion), которую можно обменивать на реальные деньги. Многие люди в развивающихся странах зарабатывают в этой игре себе на жизнь и бросают работу. На Филиппинах валюту SLP уже принимают в магазинах. Власти задумываются о регулировании. 🌎Зачем покупать там цифровую землю? Очень просто - ее можно сдавать в аренду, строить на ней обьекты, с помощью которых можн зарабатывать валюту. Если мы верим в рост игры и оборотов в ней - вложиться в недвижимсть там очень логично, и с большой вероятность помогает заработать денег. 💶 Причем тут фейсбук В публичном поле понятие метавселенная сейчас ассоциируется с ребрендингом Фейсбук от Цукерберга - хотя метавселенные Decentralized и Axie Infinity появились заметно раньше. (Примерно месяц назад Марк Цукерберг заанонсировал новый вектор компании — на метавселенную и ребрендинг — теперь группа компаний Facebook (+ Инстаграмм+ ещё куча стартапов) называется Meta.) Facebook технологическими фантазиями пошел дальше Axie Infinity - подразумевается, что в действительно продвинутую метавселенную, которая создасться Facebook, люди будут заходить в VR и AR очках. Уже сейчас в подразделит Фейсбука Real labs, которое занимается vr и метавселенными, работе 10 тысяч человек и ближайшее время планирует нанять в 2 раза больше. Мета хочет проинвестировать 10 млрд долларов в развитие VR и AR технологий, сделать вселенную, где люди смогут получать образвание, строить бизнес и общаться, не покидая квартиру. Многие думают, что Цукерберг делает ребрендинг, чтобы привлечь молодую аудиторию и хайпа к компании, которая все меньше воcпринимает стареющий Фейсбук и Инстаграмм, отвязаться от сторов гугла и апла, отойти от пристального внимания регуляторов, которые пока не смотрят в сторону vr. Есть сомнения, что компания, основная сильная сторона которой заключается в копировании чужих фич и поглощении других компаний, может построить метавселенную, продуктово более крутую, чем текущие Axie и Deceentralized, в которой все захотят сидеть. И несмотря на то, что вокруг мотивов Марка и способностей компании сделать заявленное, много оправданного скепсиса, это значит что инвестиции в компании, которые занимаются метавселенными, вырастут. А значит новостей про покупку недвижимости в виртуальном мире должно становиться больше. 🖤Что в итоге Метавселенные и инвестиции туда - горячая и интересная тема, которая дальше будет только подогреваться. А что бы купил ты - реальную квартиру или кусок земли в игре?

tldr_tany

NFT, музеи и стартапы В последнее время часто слышу про NFT в новостях о селебрити, искусстве и сфере IT. А еще прошлой неделе 2 спорт-стартапа в области NFT подняли 900 млн $ Пришло время поделиться. Для скептиков, которые говорят, что хайп на всю эту вашу крипту уже прошел, прикладываю картинку. В 2021 году в крипту вложили больше в три раза, чем в 2020, и в 2.5 раза больше, чем в хайповом 2018. Так что тема актуальней актуальности. 🧐Что такое NFT NFT - non fungible token. Его, в отличие от биткоина нельзя просто обменять на другой такой же биткоин, поэтому это не валюта. Когда ты вы закупате NFT на картинку с пингвином, информация о том, что вы — владелец пингвина, записывается в блокчейн Ethereum. По сути это права на цифровой обьект. Можно продать или купить картинку-видео-музыку за миллионы долларов. Например, в марте 2021 фаундер Твиттера продал свой первый твит за 3 миллиона баксов. Продать и купить NFT можно в маркетплейсах: OpenSea, Rarible или Nifty Gateway, который любит my favorite artist Grimes. 🎮NFT как билет или собственность в игре Кроме этого можно использовать картинку с NFT в своих продутках без нарушения авторских прав. Есть и еще более прикольные механики. Например использовать NFT в качестве билета: просмотр серивла Stoned cats можно купить за NFT картинки котика. Сам сериал удивляет киберпанком, который мы заслужили: сюжет рассказывает о бабушке, которая уронила марихуанну в камин, в итоге ее накуренные кошки разговаривают о жизни друг с другом. Кошек озвучивают Виталик Бутерин (создатель крипты Ethereum), Мила Кунис, Эштон Катчер и Джейн Фонда. Еще можно использовать NFT в играх - покупать и продавать шлемы, медальки, одежду для персонажей. А в игре CryptoKitties перепродают котят. 🖼NFT и Британский музей Тренд на NFT поддерживают не только гики, но и музейные сотрудники - буквально вчера вышла новость о том, что Британский музей запускает продажи NFT-открыток Хокусая. NFT в таком случае можно назвать акциями художника - если вы верите, что популярность художника будет только расти, разумно вложить в цифровые права на его произведения. По сути это это способ заработать на своих знаниях об искусстве. 🏀Спорт и NFT NFT проникает даже в спорт - на прошлой неделе 2 спорт-стартапа в области NFT: Dapper Labs и Sorare подняли 900 млн $. Платформа NBA Top Shot от Dapper Labs позволяет пользователям торговать и собирать основные моменты баскетбольных матчей в форме NFT. Моменты лицензированы NBA, которая получает гонорары за каждую транзакцию. В Sorare - игре с виртульными командами футболистов, теперь можно покупать NFT-карточки игроков. Карточки можно перепродавать, а также результаты реальных матчей могут влиять на виртуальную команду и игроков. 👌NFT - интересно

tldr_tany

Всем привет!) Это Таня, автор канала Наверное подписчики заметили, что последние полгода посты выходят реже. Дело в том, что мы с командой в Яндексе в поте лица поднимаем российские клиентские сервисы с помощью ИИ. Чтобы любая ваша проблема решалась быстро, чтобы Такси заказывалось даже в новый год, в Лавке все приезжало вовремя, а водителей и курьеров нанимали еще активней. За последние полгода доделали платформу для оптимизации сервиса. Делаем автоматические коммуникаций для банков, телекомов, ритейлов и образования. Вышли за границы Яндекса. Собрались и написали об этом пост, даже не верится. За лайк - отдельное сердечко. https://vc.ru/280385

«Яндекс» улучшил качество письменной поддержки пользователей и сократил расходы более чем на 45% — Яндекс Go — статьи, вакансии на vc.ru

С помощью технологий машинного обучения.

vc.ru

tldr_tany

Infermedica https://infermedica.com/ Меня очень вдохновляет связка технологий и медицины. Особенно решения, которые с помощью технологий могут оказывать помощь здесь и сейчас. 🧑‍⚕Проблема Сейчас 18 млрд долларов тратится на визиты к врачу, которые были не нужны. Плюс многие люди не получают помощь достаточно быстро. Это я сильно прочувствовала на этой неделе, когда заказывала скорую, мне 5 минут задавали странные вопросы и время ожидания было непонятное и потенциально долгое. Так что стало удобней вызвать такси в клинику рядом, а после оказания первой помощи уже из нее вызвать скорую в другую клинику. К тому же, мои жалобы врачу никак не систематизируются. От того, что человек с симптомами, как у меня, вчера умер от того, что не получил быструю помощь, скорая сегодня ко мне быстрее не приедет. 💊Понт Хочу вам рассказать о компании, которая делает софт для решения этих проблем. Это помощники для коллцентра и предварительных консультаций, которые помогают понять, нужна ли пациенту онлайн-помощь, вообще не нужна консульация, что им надо записаться к врачу или уехать на скорой. Плюс дают операторам контакт-центров подсказки, какие вопросы задавать пациентам. Все это основано на 44000 часовом анализе медицинских статей и дообучении на данных прошлых пациентов. Компании для которых Intermedica делает решения - страховые и медицинские. В компании работает 50-100 человек, у нее 3.5 млн пользователей и 10 млн$ инвестиций. Они делают 3 продукта - первый это помощник для человека, который записывается к врачу, ранжировщик пациентов в контакт-центре и апи к системе. Помощник для записи к врачу Я почувствовала недомогание и хочу записаться к врачу. Я открываю сайт-приложение, система задает мне вопросы про мое состояние. Я на них отвечаю, система подбирает следующие релевантные вопросы с помощью ml-алгоритмов. Дальше дает рекомендации по тому, к кому обратится, а введеные мною данные пересылает в клинику. Помощник операторам контакт-центра Плюс есть помощник для контакт центров. Человек звонит за помощью, ему отвечает оператор. У оператора есть рабочее место, на котором он смотрит подсказки, которые ему дает алгоритм, на тему того, какие вопросы задать. Оператор записывает ответы пациента на вопросы, а затем задает новые. Алгоритм подсказывает ему следующий вопрос. Дальше алгоритм ранжирует срочность обращения пациента, насколько быстро ему нужна помощь относительно других пациентов Открытое апи У страховой компании может быть своя специфика и правила. Или изменения в мире, которые требуют быстрого внесения правил. Например, компания хочет всегда отправлять скорую за пациентами с потерей запаха, потому что случился ковид. Для этого придумали открытое апи к системе - можно менять текущие сценарии обработки жалобы пациента и дописывать свои. 💉Почему это круто, и что хочется еще Healthtech - это важнейшая тема. А если есть решения, которые рещают боль сейчас, а не через 20 лет (что то же нужно) - это вообще суперкруто. В области есть сложности с внедрением ML решений - ответсвенность должна быть на враче. Intermedica интересно обходит этот момент - они всего лишь делают софт, но выбор остается за специалистом. Здорово, что знания про заболевания и фидбек собирается в одном месте и используется, чтобы будущие пациенты получали более хорошее лечение. Было бы круто, если бы апи системы развилось, и стали появляться, например, kaggle соревнования по тому, чтобы предсказывать диагноз еще лучше. В общем, не хватает движения к open-source.

tldr_tany

AI в Финтехе - какими будут банки будущего В последнее время у меня разыгрался интерес к тому, какие тренды AI задает в нашей настоящей и будущей жизни. Это очень затягивает, потому что определяет, к каким исследованиям будет приковано внимание в дальнейшем, и как вообще наша с вами жизнь поменяется. Например, большое количество статей по NLP и CV появилось во многом благодаря распознаванию лиц на камерах, поисковым движкам и рекомендательным системам социальных сетей. Одна из областей, которая очень сильно влияет на мир - это финтех. Банки будущего: какими они будут? Откуда мы будем брать деньги? Как искусственный интллект будет влиять на то, как мы расплачиваемся, тратим деньги, на финансовые потоки в целом? Достаточно обьективный показатель трендов будущего - это обьем инвестиций в конкретные стартапы. Я посмотрела топ-компаний по количеству инвестированных в них денег на CB Insights в AI-Финтехе. Ниже короткий обзор 4 характерных представителей AI-финтех, сколько в них вложили, почему и как они могут изменить нашу жизнь. 🤑 Affirm (1.78 млрд $): бери сейчас, плати потом https://affirm.com/ Сервис продает товары в бесплатную рассрочку - сначала платишь одну часть, потом другую. При бесплатной рассрочке, продавец переводит Affirm 3-5% своего дохода. Еще есть возможность купить в персонализированный с помощью AI кредит - в таком случае деньги берут не с продавца, а с покупателя. Сервис вышел на IPO, капитализация составила 23,6 млрд $ 🧍 Avant (1.73 млрд $): у каждого сои персонализированные кредиты и ипотеки https://avant.com/ Аvant применяет ML-алгоритмы для определения индивидуальной ставки, суммы и продолжительности займа, чтобы снизить риск дефолта и мошенничества. Это онлайн-сервис, он устраняет необходимость в физических филиалах и сильно ускоряет взятие кредита, поскольку основная часть проверки занятости и финансирования осуществляется черезсеть. 🌐 Dataminr (1.04 млрд $): соцсети - наша визитка, каждый твит и история влияет на персонализированный процент по ипотеке https://dataminr.com/ Dataminr - это компания по анализу данных, которая разрабатывает технологию для выявление скрытой ценности в общедоступных данных соц сетей в режиме реального времени. Компания обслуживает финансовые фирмы на стороне покупки и на стороне продажи и госкомпании. Главная ценность — компания выделяет из аккаунта в соцсети максимум полезной для финтеха информации в онлайне и продает компаниям для скорингов. 🤖 Datarobot (0.57 млрд $): экономика будеет белой, отмывать деньги — трудно, возникнут унифицированные для всех платформенные ML-решения https://www.datarobot.com/ Сейчас развиваются универсальные ML-платформы, на которые можно регулярно подгружать данные из разных баз, настраивать и обучать модели. Datarobot - одна из таких платформ. С помощью нее 4 из 5 крупных северных американских банков поднимают свой compliance - процесс выявления подозрительных транзакций, чтобы бороться с отмывом денег. Там есть готовые туториалы по тому, как выбирать таргет, какие фичи жгут в этой задаче, плюсс по результату обучения и обновления моделей формируется comliance отчет по тому, как именно обучена модель. Такие отчеты убирают вопросы от государственных служб по неинтерпретируемости моделей. 🥂 Что в итоге? Если подводить итоги - финтех должен стать более гибким и белым, плюс, так как отодвинется момент от приобритения товара до платежа, фактических средств у нас станет больше. Разумеется, если эти технологии применять этично 🙂

tldr_tany

Scaling down Deep Learning
https://arxiv.org/pdf/2011.14439v2.pdf
Когда - 1 декабря 2020
🎄В чем понт
В любых исследованиях решающее значение играют усилия и сроки, за которые можно сделать открытие и выявить закономерность. Именно по этой причине в генетике огромное количество исследований проводится на Дрозофилле - мухе, которая быстро размножается. Исследования можно производить быстро и дешево, а найденные закономерности затем переносить на человека.
В своей статье автор предлагает такой модельный датасет для изучения глубоких моделей - MNIST-1d, и демонстрирует на нем проверку трудоемких гипотез за считанные часы и даже минуты. Кроме этого он делает ряд новых, фундаментально полезных наблюдений. Код исследований доступен для проверки.

🥂 Описание датасета
Как утверждают авторы, MNIST хорошо бы подошел нам для исследований, но он имеет три заметных недостатка, которые устранены в MNIST-1d:
1) MNIST плохо различает линейные, нелинейные и трансляционно-инвариантные модели. Например, тесты logistic, MLP и CNN дают точность 94, 99+ и 99+%. Это затрудняет измерение вклада пространственных приоров CNN или оценку относительной эффективности различных схем регуляризации.
2) MNIST сслишком большой для модельного набора данных. Каждый входной пример представляет собой 784-мерный вектор, и поэтому требуется нетривиальное количество вычислений для выполнения поиска гиперпараметров или отладки цикла metalearning.
3) MNIST трудно модифицировать. Идеальный набор модельных данных должен быть процедурно сгенерирован, чтобы исследователи могли плавно менять такие параметры, как например фоновый шум и разрешение.
Набор данных MNIST-1d решает эти проблемы: он генерируется процедурно, но все же допускает аналогии с классификацией цифр реального мира. Как и MNIST, цель классификатора состоит в том, чтобы определить, какая цифра присутствует во входных данных. В отличие от MNIST, каждый пример представляет собой одномерную последовательность точек. Чтобы создать пример, автор заполняет, переводит и преобразует набор шаблонных цифр, чтобы получить одномерные последовательности.

🎁 Примеры исследований
С помощью датасета авторы исследуют различные эффекты. Например, deep double descent - когда с увеличением параметров сети лосс сначала падает, затем растет, затем снова падает. Этот эффект сильно влияет на способы и стратегию обучения сетей. Автор пронаблюдал этот эффект, а также вывел новую интересную закономерность - количество параметров модели, на котором лосс после роста начинает падать, в случае использования mse выражается, как K*n, где K- количество выходов сети, а n - количество примеров, а если использовать negative log likelihood, то количество параметров модели, на котором лосс после роста начинает падать, выражается как n. Это демонстрирует преимущество negative log likelihood loss перед mse loss.
На примере MNIST-1d в статье рассматривается, насколько пулинг эффективно работает в зависимости от обьемов выборки. Можно пронаблюдать, как эффект от добавления пулинга снижается с ростом данных.
Также авторы наблюдают на своем датасете “поиск лотерейного билета” и влияние индуктивного байеса в этом процессе - внутри большой сети можно найти такую оптимальную подсеть, которая при обучении даст качество выше оригинальной. Еще в статье можно прочитать о gradient-based metalearning и metalearning an activation function и воспроизвести все эксперименты автора в браузере за несколько часов или даже минут.

🎅Что в итоге
Чем дальше, тем важнее искать новые закономерности и особенности поведения сетей в краевых случаях. Очень важно делать это в сжатые сроки. В своей статье авторы исследоуют около 5 эффектов с помощью своеего датасета и приходят к очень интересным результатам.
Я уверена, что применение подобных модельных датасетов и глубокое изучение сетей станет common practice очень скоро и разнообразит интенсивный фон инженерных статей.

tldr_tany

Neural Databases
https://arxiv.org/pdf/2010.06973v1.pdf
Когда - 14 октября 2020

🍭️️️ В чем понт
Залог и фундамент любой успешной работы с данными - уметь их хранить и извлекать. Традиционные базы данных имеют заранее заданную структуру, и для работы с ними нужно знать языки по типу SQL. Таким образом и хранение и извлечение данных требует экпертизы, часто недешевой. Авторы из FacebookAI предлагают базу данных, которую можно наполнять обычным текстом и обращаться к ней предложениями на естественном языке.

📄 Постановка задачи
Для задачи авторы сгенерировали базу предложений из обьекта, субьекта и отношения между ними. Например: “Джон женат на Мэри”. Джон это субьект, женат - отношение, Мэри - объект. Такими предложениями можно заполнять предложенную базу. Допустимые операции - это select (извлечение строки) project (извлечени столбца) и join (слияние). Например вопрос “Кто женат на Мери?” будет соответствовать операции select. А если добавить к предложению “Джон женат на Мэри” предложение “Мэри работает программистом”, то вопрос “Кто женат на программисте?” уже потребует операции join. Таким образом наша задача по набору фактов-предложений и вопроса сгенерировать ответ.

🔥 Подробности
Первый подход - сконкатенировать все факты и вопрос и научить transformer предсказывать ответ. Авторы пробовали смотреть, как сеть учится предсказывать ответ, если давать ей минимальный необходимый набор фактов и более широкий набор фактов. И в первом и во втором случае сеть может выучить представление. Однако агрегировать все факты до того, как отдать их в Transformer - вычислительно дорого. А если производить агрегацию уже после выхода из энкодера, то качество сети получается крайне низким.
Поэтому авторы предложили следующий вариант: сначала сеть подбирает различные варианты кандидатов предложений, которые могут оказаться полезными при ответе на вопрос, а затем по признакам этих кандидатов предсказывает ответ на вопрос. Плюс такого подхода также в том, что он параллелится.

🔎 Что в итоге
В результате авторы получили алгоритм, который может работать с базами данных на естественных языках и не требует специализированных аналитических навыков. При этом он может работать с большим текстом, в отличие от суммаризации текста. Интересно распространить этот алгоритм например на изображения, или даже на смешанные данные “изображения + тексты”. Например, у вас есть набор фотографий с конференции и описание спикеров, к такой базе можно будет задать вопрос “Что было на слайдах у спикера из МФТИ?”
Ждем когда статьи начнут превращаться в аналитические инструменты будущего!

tldr_tany

BUSTLE: Bottom-up program-Synthesis Through Learning-guided Exploration
https://arxiv.org/pdf/2007.14381v1.pdf
🍭️️️ В чем понт
Человечество давно находится в поисках универсального джина-программиста, которому можно показать ртуть и золото и попросить выработать универсальный способ получать из первого второе, не вникая в детали реализации. Исследователи из Google Brain предложили новый способ генерировать программы по набору входов и выходов. Основная идея — последовательно искать подпрограммы, приводящие к валидным промежуточным результатам. Способ превосходит предыдущие решения.

💻 Подробности
🏋️️ Алгоритм
Генерировать программы нужно итеративно — наша задача постепенно получать небольшие подпрограммы, из промежуточных результатов которых строить следующие подпрограммы, и так далее до финального результата. В самом простом и невозможно долгом варианте мы перебираем все комбинации подпрограмм. Однако, хочется отранжировать промежуточные результаты по вероятности того, что они входят в финальную истинную программу. Итак, наша задача — по паре вход-выход и паре промежуточное значение-выход давать оценку на вероятность того, что взятое промежуточное значение — это часть итогового решения задачи.
Сначала определим набор преобразований над входами и выходами. Пример команд — взять строку, прибавить число, перемножить переменные, обьединить результат других операций с помощью оператора ”ИЛИ”. Затем из этих команд предлагается составить свойства — набор-комбинацию команд, которые берут на вход набор входов и выходов и выдают значения True или False. Пример свойств можно найти на картинке под постом.
Далее для всех промежуточных результатов-выходов и свойств мы выписываем вектор истинности свойства для пары. Аналогично делаем для пары вход-выход и всех заданных свойств. Соединяем эти вектора, получаем единые вектор значений True-False. Обучаем модель по этому вектору предсказывать, принадлежит ли промежуточное решение истинной программе. Таким образом, мы нашли способ по паре вход-выход и паре промежуточное значение-выход оценивать вероятность того, что взятое промежуточное значение — это часть итогового решения задачи. Это позволит нам качественно улучшить перебор.

🔎 Эксперименты
Авторы сравнивали число операций и время, которое надо затратить для успешной генерации программ с помощью разных способов ранжирования промежуточных результатов. Один из способов — алгоритм машинного обучения, другой — эвристики, написанные человеком, еще один — эвристическое ранжирование промежуточных результатов по длине программы, в результате исполнения которой они получены. Сравнение производилось на написанном людьми датасете из программ. Например, для успешной генерации 70% программ из датасета способу с алгоритмом машинного обучения потребовалось в 10 раз меньше времени, чем алгоритмам с эвристиками, а 100% успешных генераций программ с помощью эвристического перебора за сколь нибудь разумное время достичь не представляется возможным.

🧐 Что в итоге
Авторы интересным образом скрестили алгоритмический перебор с машинным обучением, значительно ускорив и качественно улучшив финальный алгоритм. Также при ранжировании кандидатов учитывается контекст и семантические свойства прошлых подпрограмм. Такой способ напоминает декомпозицию задачи и дальнейшее копирование подпрограмм со StackOverflow программистом) Надеемся, что и дальше будут появляться такие же интересные и успешные примеры соединения ML с алгоритмами поиска.

tldr_tany

Multi-agent Communication meets Natural Language: Synergies between Functional and Structural Language Learning
https://arxiv.org/abs/2005.07064
⏰ Когда - 14 мая 2020
🍭️️️ В чем понт
В нашем мире есть много умных систем. Логично, что им нужно взаимодействовать друг с другом, чтобы передавать информацию, и в будущем эта потребность будет только расти. Представьте себе два беспилотника, которые могут передавать друг другу сообщения о ситуации на дороге, чтобы сделать вождение более безопасным. Важно, чтобы эти сигналы были интерпретируемыми, а еще лучше — на естественном языке, чтобы в случае неприятностей, мы могли понимать, что произошло.
Авторы предлагают модельную задачу, на которой агенты передают друг другу информацию с дополнительной целью формулировать ее максимально понятным человеку способом, а также структурируют и предоставляют анализ случаев, когда язык модели начинает отличаться от человеческого.

🏋️️ Поставновка задачи: угадай картинку по подписи
Есть два агента: говорящий и слушающий. Говорящему агенту дают набор картинок и показывают на одну из них — картинку-таргет. Задача говорящего — сгенерировать предложение, хорошо отделяющее картинку-таргет от других приведенных. Задача слушающего — получив на вход предложение, понять какая из картинок была загадана говорящим. Задача слушающего и говорящего - сделать так, что описания картинок были даны на максимально человечном языке — понять не только ЧТО сказать, но и КАК это сделать
Модель учиться на датасете Abstract Scenes с картинками и возможными описаниями к ним. Пример картинки и подходящей к ней подписи — на картинке под постом

💃 Модель
Говорящий агент берет картинку-таргет и генерит к ней текстовое описание: с помощью предобученного ResNet делает из картинки вектор, дальше подает вектор на вход LSTM, которая генерит текст, описывающий картинку.
Слушающий агент берет на вход все картинки, генерит к каждой тексовое описание аналогично говорящему (только веса его модели не зависят от весов говорящего). Далее слушающий пытается угадать, какая их всех картинок была таргетом - сравнивает описание картинки-таргета от говорящего со всеми описаниями своих картинок и выбирает ближайшую с помощью скалярного произведения.
К лоссу на функциональность коммуникаци добавлен лосс модели image captioning на датасете Abstract Scenes, - регуляризация на “человечность”.
Обучать агентов можно совсестно, либо фиксировать слушающего и учить только говорящего (замораживать слушающего).

🔦 Человечен ли язык агентов и как это измерить?
Авторы разделили причины “нечеловечности” языка на три категории: структурную, семантическую и прагматическую.
Структурная “нечеловечность” — агенты продуктивно общаются и достигают своих целей, но язык грамматически неверен. Такая ситуация возникает, когда недостаточно сильно регуляризуем на image captioning. Мерить ее можно как вероятность для языковой модели сгенерировать текст.
Семантическая “нечеловечность” — предложение построено грамматически верно, но значения слов могут быть перепутаны. Например в тексте “мальчик стоит на дерево” слово “дерево” перепутано со словом “земля”. Мерить ее можно как вероятность сгенерировать текст при условии картинки.
И наконец, самая нетривиальная и интересная разновидность ”нечеловечности” языка — прагматическая. Она возникает, когда модель дает корректные предложения, но имеет под ними ввиду что-то другое, не то, что человек. Пример: есть 2 картинки с нарисованным солнцем, сетка-слушатель выдает предложение "Светит солнце”, а сетка слушатель угадывает, про какую картинку шла речь, хотя для человека это невозможно — такое описание подходит под обе картинки. Способ измерить такое расхождение — сравнить результаты человека-слушателя и сети-слушателя.
Такое расхождения по результатам эксперимента получается особенно сильным у сети, где слушатель обучается вместе с говорящим, то есть где параметры слушателя не заморожены.

💎 Что в итоге
Машины будут становится только умнее и уметь понимать их - вопрос безопасности. Ждем дальнейших крутых исследований на различных прикладных задачах)

tldr_tany

Uplift моделирование или как раздать скидки на шашлык

🍭 Зачем это нужно
Одна из самых популярных задач для ML в индустрии — определить, кому лучше всего раздать деньги-разослать коммуникацию-позвонить, чтобы максимально увеличить выручку-лояльность-активность. Допустим у нас есть задача — понять, кому в интернет-магазине показать скидку на шашлык. Можно взять тех, кому уже показывали скидку, и предсказывать факт покупки. Однако при этом подходе мы не делаем разницы
между людьми, которые купили бы шашлык независимо от нашей скидки, и людьми, для которых сбавление цены решило. Uplift моделирование — это способ выделить именно тех покупателей, которым нужно дать скидку, чтобы они совершили покупку.
Примерно с тем же постоянством, с которым uplift используется в индустрии и в продакшене, он игнорируется в курсах по ML.

🏋️️Как построить модель
Сначала проведем эксперимент: случайной части людей дадим скидку 10%, а другим покажем прежнюю цену. Далее, как обычно, обучим модель на признаках пользователя предсказывать, купит ли он наш шашлык, но к фичам добавляем еще и наличие скидки. Далее для каждого пользователя предсказываем вероятность купить товар, добавляя фичу, соотвествующую наличию скидки. Также считаем вероятность купить товар, добавив фичу, показывающую, что скиду этот пользователь не получил. Из первой вероятности (купить товар при наличии скидки) вычитаем вторую вероятность (купить товар без скидки). Это и есть наше значение uplift, чем оно больше, тем выгодней давать клиенту скидку.

Наверное многих заинтересовал вопрос, почему скидка на шашлык именно 10%? Чтобы для каждого пользователя опредлить оптимальный размер скидки, мы можем раздавать в эксперименте разные значения скидок, обучать модель с фичой, соотвествующей не наличию, а размеру скидки, а далее считать вероятность купить товар для каждого размера скидки.

💃 Как раздать скидки по предсказанию модели
Допустим, пачка масок стоит 2000 рублей, мы провели эксперимент, в котором раздавали клиентам скидки 10%, 20% и 50%. Наша финальная задача: для каждого клиента сказать, какую скидку ему давать, и давать ли вообще. Также нужно сказать компании, сколько дополнительных денег наша скидочная кампания принесет в бюджет.
С помощью нашей модели посчитаем вероятности, купить товар для пользователя со скидкой и без.
Вероятности купить товар со скидкой 0%, 10%, 20% и 50% — p0, p10, p20 и p50 соответсвенно.
Цена товара без скидки, со скидкой 0%, 10%, 20% и 50% — 2000р, 1800р, 1600р и 1000р соответсвенно.
Нужно выбрать ту скидку, для которой итоговая цена минус себестоимость товара S, умноженная на вероятность купить товар максимальна: max_value = max((2000-S)*p0, (1800-S)*p10, (1600-S)*p20, (1000-S)*p50). Наш выигрыш с пользователя — это max_value - (2000-S)*p0.
Могут складываться ситуации, когда давать скидку не выгодно никогда, а также ситуации, когда всегда стоит давать максимальную скидку.

📚 Что почитать
Более подробное описание разных вариантов моделей
Пример кода для построения uplift модели

tldr_tany

Как мы учили искусственный интеллект отвечать на вопросы в поддержку. Опыт Яндекс.Такси
https://habr.com/ru/company/yandex/blog/493666/
⏰ Когда: 24 марта, 2020
✌️ Кто: автор канала и ко
🍒 В чем понт: Как сделать так, чтобы на 60% автоматизировать ответы в поддержке огромного сервиса и не просадить, а даже улучшить метрики в онлайне
🔎 Подробности: Одни best practices по DL в реалиях улучшения жизни пользователей и экономии денег для компании ничего не стоят (хотя без хороших NLP алгоритмов задачу тоже не решить). Авторы не только применили sota, но и сделали мини-толоку для сотрудников поддержки, чтобы они обновляли часто меняющиеся логики на более чем 1500 шаблонных ответов, подружили это с ML и бэкендом в онлайне, сделали так, чтобы эти сервисы самостоятельно обновлялись, валидировались по качеству и переносились на любую поддержку(Яндекс.Еда, Яндекс.Лавка и тд) без написания кода вообще.
🚕 Что в итоге: сэкономили время пользователей и денег. Счастье в дружбе ML, экcпертов и бэкенда, а также в правильном склеивании этого всего прозрачный и обновляемый процесс

tldr_tany

Building a COVID-19 Vulnerability Index
https://arxiv.org/pdf/2003.07347v1.pdf
⏰Когда - 17 марта 2020
🦠 В чем понт
Рисечеры из data science - healthcare компании построили индекс, который показывает степень опасности короновируса для человека, и выделили признаки, которые коррелируют с тем, пройдет ли короновирус мимо вас незаметно, или же наоборот вызовет осложнения.

🔎 Подробности
Поскольку для короновируса еще нет большого доступного набора данных, модель учили предсказывать риск респираторных инфекций (пневмонии, гриппа) — осложнений короновируса, которые и представляют самую большую угрозу для зараженных. Предсказания строились по данным Medicare (страховая программа в США) за 2015-2016, предсказывалось придет ли в больницу пациент с этими заболеваниями. Были построены 3 модели. Первая модель — логистическая регрессия, чтобы получить интерпретируемый вклад признаков, плюс, чтобы люди без знания ML могли легко применить и адаптировать модель. Вторая модель — модель с бустингом, обученная на части доступных Medicare признаков: медицинская история + пол + возраст — такие признаки доступны для большого количества людей. Третья модель, лучшая по предсказательной силе, обучена на всех доступных признаках, включая географическую и социологическию информацию из баз Medicare.
Модели обучалась на данных 1,5 млн пациентов. ROC-AUC сильной модели получился не слишком большим - 0.81, впрочем что для медицины вполне неплохой результат.

👨‍⚕️ Инсайты
При построении модели логистической регрессии, были выделены признаки, которые вносят наибольший вклад в предсказания. Это возраст, сердечные заболевания, диабет, болезни легких. У мужчин риск тоже оказался выше — возможно дело в кросс-корреляциях с таргетом через болезни сердца и диабет.

💉 Что в итоге
Кроме инсайтов по признакам, рисечеры выложили свои модели по ссылке https://github.com/closedloop-ai/cv19index. Это может быть полезно на практике.
Например, если выделить второй моделью топ-5% людей с самым высоким индексом, то среди них окажется 33% людей, у которых в выборке были респираторные инфекции, то есть модель в 6 раз лучше рандома. Кажется, таким людям с большим индексом из зоны риска в первую очередь стоит давать тесты и не выпускать на работу. In data we trust.

tldr_tany

What Changed Your Mind: The Roles of Dynamic Topics and Discourse in Argumentation Process
https://arxiv.org/pdf/2002.03536v1.pdf
⏰ Когда - 10 февраля 2020
🍭 В чем понт
Авторы обучили сеть определять победителя спора, и сделали аналитику полученных результатов. Набор данных был взят с subreddit с дискуссиями пользователей, и очень интересен по своей сути: с одной стороны, он бесплатный и постоянно пополняется, с другой - достаточно структурированный и строгий, посколько в subreddit есть правила оформления дискуссий и модерация.

💎 На чем учились
Авторы учили свою модель на данных subreddit "ChangeMyView". В нем действуют следующие правила: человек решает завести дискуссию, и публикует свою точку зрения по какой-нибудь проблеме вместе с аргументами. Другие пользователи reddit приводят аргументы, оспаривающие эту точку зрения. Цель заводящего дискуссию - выслушать аргументы, ответить на них, и либо изменить свою точку зрения, либо остаться при своем, но уже более осознанно. Авторы брали набор пар дискуссий, где автор изменил и не изменил свое мнение, и затем учили модели на pairwise loss: модель предсказывает вероятность, что автор поменяет мнение, для первой и второй дискуссии. Успехом считается случай, когда эта вероятность для спора, закончившегося сменой мнения, больше, чем вероятность для спора, в котором автор не изменяет свою позицию.

🏋️‍♀️ Как строили модель
Сначала авторы разделили входные слова в предложение на компоненты дискурса и темы. Дискурс - это не меняющаяся составляющая аргументации, определяющая стиль предложения. Тема - это динамические паттерны, вокруг которых строится дискуссия. После разделения входных слов в аргументе, тема, дискурс и входное слово подаются в сеть с памятью(GRU) и предсказывается вероятность "убедительности" аргументов. Итоговый лосс считался, как разница вероятности "убедительности" для дискуссии, в которой автора переубедили и где автора не переубедили, за вычетом скора того, насколько хорошо слова в аргументации разделились на тему и дискурс.

📄 Аналитика
После того, как была построена модель, которая предсказывает с качеством 70%, кто победит в споре, авторы выделили кластеры тем и дискурсов для разных слов и проанализировали, от чего зависит успех дискуссии в большей степени. Оказалось, что аргументы, использующие меньший набор тем, больше статистики и персональных местоимений более успешны. Также для аргументов были выделены кластеры тем и дискурсов и их средние веса в сети с динамической памятью. Например, для спора на тему "Нужно ли учить второй язык", сильнее всего на "успешность" аргументации влияет кластер дискурсов, который включает в себя цифры и ссылки, а для тем - кластер "познание".

🔦 Что в итоге
Новая идея, по модели и аналитике местами спорная, но очень интересная по способу выбора набора данных (а данные как известно решают). Не первая статья, где авторы в качестве обучающей выборки используют данные с специфических subreddit, кажется хорошо присмотреться к reddit как серьезному источнику новых данных.

tldr_tany. Страница 3

tldr_tany

tldr_tany

tldr_tany

Реклама

tldr_tany

tldr_tany

tldr_tany

tldr_tany

tldr_tany

tldr_tany

tldr_tany

tldr_tany

tldr_tany

tldr_tany

tldr_tany

tldr_tany

Реклама

tldr_tany

tldr_tany

tldr_tany