Ivan Begtin, страница 16, все посты канала

Ivan Begtin

В рубрике открытых продуктов для работы с данными, в первую очередь с открытыми данными. Datalad [1] - библиотека и утилита командной строки с открытым кодом для управления данными по аналогии с управлением кодом, через git и git подобные системы. Использует внутри git и git-anned и позволяет։ - отслеживать изменения в данных - возвращаться к предыдущим версиям - сохранять прослеживаемость данных - обеспечивать полную воспроизводимость Кроме того умеет создавать статистические html сайты с каталогами данных [2] и сами данные можно скачивать с помощью командной строки и клонировать, по аналогии с клонированием репозиториев кода. Как можно догадаться, изначально создавался этот движок для работы с научными данными и в примерах его использования чаще фигурируют именно такие наборы данных. Делают его активно с 2015 года, уже 8 лет. Всё это время он развивался на гранты Германского министерства образования и науки и Национального научного фонда США. Проект полезный для тех кто работает с исследовательскими данными и публикует данные собственных исследований. И, в качестве напоминания, аналогичный подход Git для данных также реализуется в таких проектах как DVC (Data version control) [3], Dolt [4] и lakeFS [5]. Ссылки։ [1] https://www.datalad.org/ [2] https://datalad.github.io/datalad-catalog/ [3] https://dvc.org/ [4] https://github.com/dolthub/dolt [5] https://lakefs.io/ #datatools #opensource #opendata

DataLad – DataLad

www.datalad.org

Ivan Begtin

В прошлом году я сильно сократил всю активность связанную с общением с госорганами и вот только ходил на круглый стол в Мосгордуму посвящённую системам слежки.

Ivan Begtin

👁 Как за нами следят? Видео на 10 мин со слушаний в Мосгордуме https://youtu.be/v3mrR7YfMwU Москва занимает 13-е место в мире по количеству камер видеонаблюдения. Но кто именно регулирует систему распознавания лиц? Как происходит обработка полученной информации? И давали ли москвичи свое согласие на сбор их персональных данных? Об этом и многом другом мы говорили 15 декабря 2022 года на круглом столе в Мосгордуме. Экспертами выступили депутаты, социологи, специалисты в области компьютерного зрения, вендоры и сотрудники исследовательских институтов. Спасибо депутату Максиму Круглову и фракции Яблоко в Мосгордуме за инициативу и организацию слушаний по этому важному вопросу на стыке новых технологий, безопасности и демократии. Главные тезисы с нашего круглого стола — в видео по ссылке.

Система распознавания лиц в Москве: как защитить свои биометрические данные?

15 декабря 2022 года в Мосгордуме прошел круглый стол, посвященный эксперименту правительства Москвы в области систем распознавания лиц. По утверждениям властей, новые технологии призваны снизить число уличных преступлений. Но до сих пор ещё не проводилось оценки эффекта новой политики с анализом данных за 2 года эксперимента. Многие москвичи даже не в курсе, что это за эксперимент, что происходит с их персональными и биометрическими данными, как они хранятся и как обеспечивается их безопасность. Эта встреча – большой итог годичной работы нашей команды «Коллективное действие» и первая комплексная дискуссия с законодателями с привлечением широкого спектра профессионалов: от социологов до специалистов в области компьютерного зрения, от представителей вендоров до сотрудников исследовательских институтов. В круглом столе приняли участие Иван Бегтин, Дмитрий Серебренников, Андрей Шадриков, Никита Истомин, Саркис Дарбинян, Сергей Росс, Владимир Валеев и другие. Наша признательность депутату Максиму Круглову и фракции Яблоко за возможность организации этой важной законотворческой дискуссии. Полная запись трансляции:

YouTube

Ivan Begtin

Разные интересные свежие проекты с открытым кодом про данные и ИИ։ - gpt_index [1] библиотека для Python. На вход принимает коллекцию документов и на их основе даёт возможность делать к ним запросы естественным языком. Требует ключ для доступа к API OpenAI, использует модель text-davinci-003 - OpenAI Cookbook [2] коллекция рецептов по работе с продуктами/API OpenAI. Много примеров в формате Jupyter Notebook - Papers we love [3] довольно давний открытый репозиторий научных статей про данные, ML, ИИ и всё что вокруг и рядом - Lama Cleaner [4] довольно необычная штука позволяющая убирать закрашенные части с изображения. Например, если в паинтере нарисовать линии поверх фотографии то с помощью Lama Cleaner можно исходное изображение восстановить. Или не совсем исходное если было закрашено что-то целиком. - AFFiNE [5] обещают альтернативу Miro и Notion с открытым кодом. Делает какая-то большая китайская команда, непонятно откуда инвестиции, но делают как-то очень бодро. Хотя и не видно пока возможностей аналогичных Miro, только неполная альтернатива Notion. Ссылки։ [1] https://github.com/jerryjliu/gpt_index [2] https://github.com/openai/openai-cookbook [3] https://github.com/papers-we-love/papers-we-love [4] https://github.com/Sanster/lama-cleaner [5] https://affine.pro/ #opensource #ai #datatools

GitHub - jerryjliu/gpt_index: An index created by GPT to organize external information and answer queries!

An index created by GPT to organize external information and answer queries! - GitHub - jerryjliu/gpt_index: An index created by GPT to organize external information and answer queries!

GitHub

Ivan Begtin

В Новая Газета Европа подробный текст про исследование отъезда российских разработчиков из РФ на основе изменений в локации в аккаунтах на Github [1]. Метод неидеальный, поскольку многие меняют локацию не уезжая, а многие уехавшие не меняют, но вполне достойный внимания в контексте сравнения с другими странами. И тут я не могу не прокомментировать что мотивировать ИТ специалистов возвратом в Россию оплатой перелёта и тд. это довольно сомнительная затея. На самом деле у Минцифры нет инструментов удержания профессионалов позитивной или негативной мотивацией. Для позитивной мотивации доверие к российскому гос-ву, скажу мягко, на очень невысоком уровне. Даже обсуждаемая "бронь для ИТшников" не имеет нормативного статуса, а если бы и имело, то все прекрасно знают что законы могут поменять очень быстро. А негативная мотивация через повышение НДФЛ, будет либо обходится, либо разработчики и другие ИТ люди активно поувольняются из российских компаний. Я обо всём этом уже много раз писал и лично я считаю что если Минцифры и все остальные захотят реально сохранить ИТ рынок в России, то надо не привозить ИТ специалистов обратно и не повышать налоги, а снижать и ещё раз снижать налоги. 1. Снизить налоговую ставку для ИТшников нерезидентов, сейчас 30%, до текущей ставки в 13% внутри страны. Почему? Чтобы российские ИТ компании чьи специалисты уехали сохранили бы своих сотрудников. 2. Привязать налоговую ставку к квалификации и местонахождению. Продумать механизм подтверждения квалификации. С джуниоров 13%, с миддлов 10% и сеньёров 7% например. Для тех кто остаётся российскими резидентами. Привязать к сдаче квалификационных экзаменов и тд. В общем хорошенько продумать как именно. 3. Снизить до 0% налоги для ИТ компаний работающих только не на российским рынке (только на экспорт) и с сотрудниками. Почему? Чтобы дать удобную юрисдикцию тем кто работает на зарубежные рынки. Работа таких компаний сейчас сильно ограничена, они, в основном, уже почти все убежали Этого всего тоже недостаточно, но хоть что-то. Ссылки։ [1] novayagazeta.eu/article…-iskhode #policies #itmarket

Код на исходе

Россию мог покинуть каждый четвертый активный IT-разработчик, показывают открытые данные

Новая газета Европа

Ivan Begtin

В рубрике полезных инструментов с открытым кодом для работы с данными Memphis [1], продукт по обработке очередей сообщений по аналогии с RabbitMQ и, частично, Kafka. Продукту как продукту всего год, при этом у него весьма обстоятельная документация, много пользователей и активная команда разработки с детальной дорожной картой. Судя по качеству и скорости проработки, явно уже нашли или ищут инвестиции под облачный сервис [2]. Я бы сказал что для опенсорс проекта они очень хорошо себя подают(продают), посмотреть точно стоит, даже при то что не все функции уже реализованы. Ссылки: [1] https://memphis.dev [2] www.crunchbase.com/organiz…phis-dev #opensource #datatools #dataengineering

Ivan Begtin

Многие считают что слежка компаний за пользователями не имеет значения. "За всеми следят, ничего не случится если последят ещё и за мной" (с). Это очень распространённый аргумент среди тех кто не понимает как развиваются технологии. Тем временем компанию Adobe поймали на том что они следят за артистами чтобы обучать свой ИИ [1]. Причём сделано это так что включено по умолчанию и чтобы запретить это надо зайти в свой профиль и отключить эту галочку. Будем ждать новых подобных конфликтов в этом году. Главное помнить что если за вами ещё не следят это не значит что вас ещё не хотят заменить роботом. Ссылки։ [1] www.fastcompany.com/9083138…esign-ai #ai #privacy

Ivan Begtin

Для тех кто ищет бесплатные и открытые инструменты для работы с данными, любопытный инструмент VDK (Versatile Data Kit) от Vmware [1]. Это малоизвестная альтернатива Meltano или Dagster для извлечения и обработки данных. Чем-то похоже на dbt, но не такое проработанное. Построено вокруг обработки данных в SQL источниках, ИМХО, достоинством может быть только большая простота чем у dbt в связке с одним из дата оркестраторов. Написано всё на Python. Не могу сказать что я до конца понимаю в чём магия именно этого инструмента, но команда у него активная, код активно разрабатывается, документацию пишут, может быть и вырастет что-то неожиданно полезное. P.S. Я стараюсь не лениться и когда нахожу какой-то инструмент который имеет открытый код на Github то вношу его в один из личных списков таких как: Data catalogs, Data pipelines, Data transformation, Data tools и так далее. Если хотите их видеть то они собраны на странице [2] и можно подписаться на то чтобы видеть их обновления зафолловив меня на Github Ссылки: [1] https://github.com/vmware/versatile-data-kit [2] https://github.com/ivbeg?tab=stars #opensource #datatools #datengineering

Ivan Begtin

В конце декабря прошлого года Белый дом (США) опубликовал пятый план по открытости государства Fifth U.S. Open Government National Action Plan [1]. На что стоит обратить внимание։ - открытые данные составляют больше половины части этого плана - важный акцент на безусловной общедоступности данных финансируемых государством исследований - акцент на доказательной политике и доступе исследователей к конфиденциальным государственным данным - повышение доступности информации из государственных архивов, включая полную оцифровку всех каталогов - расширение объёма раскрываемых данных о получателях госконтрактов и грантов - расширение раскрытие данных об окружающей среде и создание инструментов оценки окружающей среды (звучит как - environmental justice) - развитие гражданской науки и участия граждан в научных проектах - расширение действия закона о свободе доступа к информации (FOIA) Там ещё довольно много всего, я выбрал только те пункты что относятся к доступу к данным и информации. Ссылки: [1] https://open.usa.gov/national-action-plan/5/ #opendata #usa #policies

Ivan Begtin

В прошлом году мы командой Инфокультуры не проводили ежегодно проводившийся ранее День открытых данных в Москве (opendataday.ru) поскольку проводить его в марте 2022 года было совершенно неуместно. В течение всего этого года были большие сомнения проводить ли его в 2023 году, потому что значительная часть тех кто с кем ранее мы его организовывали теперь признаны инагентами, многие не признанные уехали и теперь формируют русскоязычную диаспору за пределами РФ, а госорганы в России сильно отходят от тематики открытости. Иначе говоря сомнений было и есть много. Но День открытых данных не всегда был большой конференцией, в мире он проходит в разных форматах, от митапов и отдельных встреч и семинаров до недельных конференций. Главное - тематика открытости, открытых данных и открытости гос-ва/корпораций. Поэтому, возможно и никогда не поздно провести его хотя бы в сокращённом формате и по тем темам которые остаются актуальными. Для того чтобы понять проводить ли мероприятие в этом году и если проводить то как мы сделали опрос https://forms.gle/p1EH8fSNTH6LsVEf7 Цель опроса понять актуален ли ещё День открытых данных, о чём хочется на нем услышать и есть ли достаточное число докладчиков. Чем больше заинтересованных в открытых данных его заполнит, тем больше вероятность проведения. Так что заполняйте и распространяйте;) #opendata #opendataday

Ivan Begtin

В рубрике как это работает у них, данные о переписи населения в Великобритании в 2021 году․ В процессе переписи единицей географического измерения был переписной участок, или участок статистического наблюдения с весьма высокой степенью гранулярности, причём по каждому из них были выложены данные. Например, таблица TS001 в данных переписи [1] содержит данные по числу жителей в привязке к такому кварталу. Это более 181 тысячи записи включающей код квартала, дату измерения и число резидентов. По объёму эти данные - это всего несколько мегабайт, по полезности же они весьма важны поскольку такие данные можно относить к ключевым, многие показатели на территориях рассчитываются в соотношении к числу жителей. На основе этих данных можно довольно многое делать, и для бизнеса, и для государственных органов, например, инструмент определения численности населения по точке и радиусу [2] который скорее демонстрация возможностей, чем что-то востребованное, но на его примере можно увидеть что подумать о том востребованное можно создать։ инструменты планирования для ритейл компаний, системы измерения транспортной доступности на весьма гранулярном уровне и так далее. Всё это происходит поскольку ONS (статистический орган Великобритании) раскрывает огромные объёмы данных и геоданных на портале геоданных [3] и на портале связанных данных [4] в интегрированном виде. А также через систему раскрытия данных о переписи Nomis [5]. Ссылки։ [1] www.nomisweb.co.uk/sources…021_bulk [2] https://www.datadaptive.com/pop/ [3] https://geoportal.statistics.gov.uk/ [4] https://statistics.data.gov.uk [5] https://www.nomisweb.co.uk/ #opendata #datasets #uk #census

Census 2021 Bulk - Nomis - Official Census and Labour Market Statistics

nomis - official labour market statistics

www.nomisweb.co.uk

Ivan Begtin

Интересные продукты, проекты и не только декларирующие использование AI, ChatGPT или схожие инструменты։ - Buildt [1] поисковик по исходному коду умеющий находить нужный сниппет кода через запрос естественным языком - Nostalgia.photo [2] восстанавливает старые фотографии с высокой степенью фотореалистичности - The Jam Machine [3] музыкальный композитор на базе ИИ и множества midi файлов - Fact GPT [4] генератор персонализированного контента с цитатами. Может создавать обзоры продуктов, новостей, мнения на события, сравнения продуктов и многое другое. Разное для чтения։ - Top AI conference bans use of ChatGPT and AI language tools to write academic papers [5] заголовок в точности отражает смысл. Ведущие научные конференции по ИИ запретили использовать инструменты ИИ для написания академических статей. - Open Source Highlights 2022 for Machine Learning & AI [6] обзор интересного произошедшего в открытом коде по ML за 2022 год - Predictions for 2023 [7] набор любопытных предсказаний на этот год. Ключевое, ИМХО, в том что Тик Ток "сожрёт интернет"․ Не конкретно компания, а как медиа жанр. Ссылки։ [1] https://www.buildt.ai/ [2] https://www.nostalgia.photo/ [3] huggingface.co/spaces/…hine-app [4] www.longshot.ai/feature…fact-gpt [5] www.theverge.com/2023/1/…ml-paper [6] sebastianraschka.com/blog/20…022.html [7] latecheckout.substack.com/p/my-pr…for-2023 #ai #data #readings #startups

Buildt - Codebase Super Search

Buildt AI is an AI developer at your fingertips. Find, generate & replace anything in your code.

www.buildt.ai

Ivan Begtin

В рубрике как это работает у них, о том что не все форматы файлов для работы с данными сводятся к CSV, SQL, JSON и другим наиболее распространённым. На порталах открытых данных часто встречаются файлы в непривычных форматах, например PX [1], этот формат ещё называют PX-Axis потому что он используется в одноимённом программном продукте который позже переименовали в серию продуктов PxWeb, PxWin и PxEdit. PxWeb и PxWin были разработаны статистическим ведомством Швеции [2] и переведены, по большей части, в открытый код. А PxEdit сделали в статистическом ведомстве Финляндии [3]. Во многих странах и организациях собирающих статистику этот программный пакет весьма популярен. Например, в Испании на портале открытых данных страны в формате PX-Axis опубликовано 24 169 наборов данных [4]. Все эти файлы это индикаторы из национальных и региональных статистических систем. У многих регионов Испании они свои и практически все дают возможность получения данных показателей в разных форматах. Аналогично публикуются 7 131 статистический индикатор в Ирландии в виде наборов открытых данных на официальном портале [5] и, конечно же, непосредственно в Швеции, Финляндии и во многих других странах. Столкнуться с этим форматом в России практически невозможно, российская статистика преимущественно использует свои внутренние форматы + некую версию SDMX. В других постсоветских странах, большая часть статистики публикуется только в Excel или самостоятельно разработанных информационных системах, вроде Талдау в Казахстане. Но если Вам доведётся поработать с данными в других странах, то с PX файлами можно столкнуться. Ссылки։ [1] www.scb.se/en/serv…e-format [2] www.scb.se/en/serv…px-files [3] www.stat.fi/tup/til…_en.html [4] datos.gob.es/es/cata…catalogo [5] https://data.gov.ie/dataset?res_format=PX #opendata #datasets #fileformats #data

Px file format

Px files can contain information in more than one language. Keywords that are language dependent are repeated for each language. For example CONTENTS=“Population”; CONTENTS[sv]=“Befolkning”Complete description of the px file format 2013 (pdf)Mandatory ...

Statistiska Centralbyrån

Ivan Begtin

В блоге Clickhouse хороший разбор того как локальная версия clickhouse-local может использоваться для аналитики [1]. Фактически это про то что Clickhouse в локальной версии - это прекрасная альтернатива DuckDB. В общем-то и раньше не было сомнений, но тут ещё и хороший текст. Это же, кстати, делает Clickhouse хорошей СУБД для обучения студентов работе с данными. Впрочем корректнее всего сравнивать DuckDB, Clickhouse и другие подобные базы даже не с СУБД, а с инструментами вроде csvkit, textql и тд. поскольку они заменяют именно их при работе с локальными CSV, JSON и другими файлами. Но и тут clickhouse интересен поддержкой очень большого числа форматов и типов файлов прямо из коробки [2]. Хороший продукт, главное чтобы его бесплатные возможности не "растерялись" при его коммерческом развитии. Ссылки: [1] clickhouse.com/blog/ex…se-local [2] clickhouse.com/docs/en…/formats #data #datatools #analytics

Extracting, converting, and querying data in local files using clickhouse-local

Learn how you can use clickhouse-local to analyze and transform your local and remote files using just the power of SQL on your laptop

ClickHouse

Ivan Begtin

Полезное чтение про данные, технологии и не только։ - Data science has a tool obsession [1] о том что в data science все слишком много обсуждают инструменты и что не всё сводится к инструментам. - What if we rewrite everything ? [2] рассуждения о техническом долге и мыслях многих разработчиков о том что "всё надо переписать!". Кстати о техническом долге, главное отличие миддлов от сеньёров в осознании что не всегда и не всё можно и нужно переписывать, а вот документировать надо всегда. - HTTPIE AI [3] изначально httpie была очень удобной, я бы даже сказал элегантной утилитой командной строки чтобы делать запросы к API, а теперь анонсируют AI Assistant превращающий человеческий текст в запросы. В прошлом году они подняли $6.5M инвестиций [4] и активно делают облачный сервис. Я ещё удивлялся в чём их бизнес модель, а они нацеливаются на вот такие фишки. ИМХО, в таком виде бизнес преимуществ немного. - Recap: A Data Catalog for People Who Hate Data Catalogs [5] автор сделал то о чём я лично давно думал, каталог данных не для людей, а я для машин. Вернее, сделал некий хороший прототип с поддержкой кучи СУБД, но без документации и тд. Посмотрю как будет развиваться. - Introducing ADBC: Database Access for Apache Arrow [6] проект по универсализации доступа к СУБД без привязки к вендорам, альтернатива JDBC и ODBC и с поддержкой стандарта/формата Arrow по умолчанию. Выглядит логично и полезно․ Расшифровывается как Arrow Database Connectivity. - Salesforce Guts Tableau After Spending $15.7 Billion in 2019 Deal [7] в Salesforce увольняют 10% сотрудников, включая тех кто работает в приобретённым ими ранее Tableau. Интересно как это отразится на продукте в итоге. Ссылки։ [1] counting.substack.com/p/data-…bsession [2] blog.malt.engineering/what-if…2e86da41 [3] https://httpie.io/blog/ai [4] https://t.me/begtin/3871 [5] cnr.sh/essays/…catalogs [6] arrow.apache.org/blog/20…row-adbc #data #datatools #readings #technology

Data science has a tool obsession

That we need to balance out

Counting Stuff

Ivan Begtin

Исследователь безопасности Matt Kunze опубликовал большой текст [1] о том как он нашёл в колонке Google Home Mini уязвимость позволяющую превращать её в шпионское устройство и дающее возможность записывать всё что человек рядом с колонкой произносит. Автор нашёл эту уязвимость ещё в 2021 году, участвовал в программе баг баунти от Google и в итоге получил от них $107 500 наградой за обнаружение этой уязвимости. Можно предположить что условием получение этого приза было то что он не мог публиковать подробности какое-то время и вот только уже в декабре 2022 года он разместил очень подробное и хорошо проработанное описание. Почему это важно? Потому что даже если предположить что корпорации создающие подобные устройства не являются безусловным злом и сами не следят за Вами, это не значит что такая возможность отсутствует принципиально. Умными колонками могут использоваться для слежки хакерами, полицией, правительственными службами, кибервойсками противоборствующих стран, конкурентами и многими другими. Это, конечно же, при том вольном предположении что корпорации не являются этим самым безусловным злом. При этом важное отличие колонок и других "домашних умных вещей" в том что их, в том что их меняют реже чем телефоны. Их трафик ещё сложнее контролировать чем трафик настольных компьютеров или телефонов. Уязвимости в таких устройствах могут существовать достаточно долгое время, и неизвестно сколь многие могут их использовать. Не говоря уже о том что спецслужбы могут иметь прямое влияние на устанавливающие их компании и иметь возможность дистанционного подключения в нужных им случаях. Как бы то ни было каждый для себя сам подбирает комфортный уровень паранойи, а подобные находки можно просто принимать для сведения. Ссылки։ [1] downrightnifty.me/blog/20…ome.html #privacy #security #iot #google

Turning Google smart speakers into wiretaps for $100k

I was recently rewarded a total of $107,500 by Google for responsibly disclosing security issues in the Google Home smart speaker that allowed an attacker within wireless proximity to install a “backdoor” account on the device, enabling them to send commands to it remotely over the Internet, access its microphone feed, and make arbitrary HTTP requests within the victim’s LAN (which could potentially expose the Wi-Fi password or provide the attacker direct access to the victim’s other devices). These issues have since been fixed.

Matt’s internet home

Ivan Begtin

Особый жанр в рынке данных - это стартапы-дискаунтеры, расширяющие доступность данных переводя премиум-продукты в разряд общедоступных меняя модель ценообразования. У Александра Горного интересный пост [1] про стартап Databento [2]. Данные те же что и у других провайдеров высокочастотных биржевых данных, но покупать можно небольшими порциями и иметь возможность обучать свои алгоритмы без очень дорогих коммерческих подписок. Получили $63M инвестиций за 3 года, последний раунд в $31.8M был анонсирован 19 декабря 2022 года. [3] Другой пример стартапа Rejustify [4], это стартап по обогащению данных общедоступной статистикой. Можно сказать полноценно стартап на открытых данных. Они используют данные из проекта DB Nomics о котором я ранее писал [5] и помогают обогащать таблицы данными этих показателей. Сумма привлеченных инвестиций не раскрывается и, лично по мне, так у них всё плохо с маркетингом, но сама задумка более чем интересная. Ещё один любопытный испанский стартап Citibeats [6] отслеживающий общественное мнение по публикациям в социальных сетях. От других подобных продуктов отличаются автоматическим построением отчетов и отслеживанием тем, в основном, связанных с международной повесткой. А то есть ориентированы они на международный бизнес и межгосударственные структуры. Привлекли $4M инвестиций, что немного и поэтому интересно где они берут данные и как их собирают. Потому что $4M будет достаточно только для интерфейса и обработки данных, а сбор тут самое дорогое. Ссылки։ [1] https://t.me/startupoftheday/2752 [2] https://databento.com [3] www.crunchbase.com/organiz…atabento [4] https://rejustify.com [5] https://t.me/begtin/4512 [6] https://www.citibeats.com [7] www.crunchbase.com/organiz…itibeats #startups #data #opendata

Стартап дня. Александр Горный.

БИРЖЕВЫЕ ДАННЫЕ ПО ОДНОМУ Если на рынке доминирует оплата за каждую транзакцию, то клиента легко привлечь подпиской – “всего 100 долларов за безлимит”. Если на рынке доминирует подписка, то привлекательное предложение клиенту может звучать как “оплачивайте только ваши действия, у нас нет никакой абонентки”. Американский #стартапдня Databento продает погигабайтно биржевые котировки. Как пишут дружественные стартапу журналисты, сейчас типичное предложение на рынке начинается с 25 тысяч долларов в год – и это кусается для даже довольно крупных компаний. Для любителей дома написать торгового робота барьер и вовсе непреодолим. А цены Databento начинаются с 45 центов за гигабайт, вполне можно и дома поиграться, и на небольшом проекте заметные деньги сэкономить. Концепция стартапа вызывает энтузиазм у инвесторов, они вложили в проект уже больше 60 миллионов долларов. Разработка при этом идет достаточно медленно, с момента первого финансирования прошло 4 года, а компания только-только открыла доступ к продукту для…

Telegram

Ivan Begtin

В рубрике интересных проектов на открытых данных и создающих открытые данные база DB Nomics [1]. Это общедоступная база открытых данных показателей собранных из 65 источников таких как UN Data, портал открытых данных Всемирного банка, данные центральных банков многих стран, Евростата и так далее. Даже с сайта российского Росстата собирается несколько показателей [2]. Все содержимое сайта доступно через через открытое API [3] и в репозиториях на Git вместе с его кодом, который также полностью открыт [4]. Кроме того существуют клиенты для доступа к данным для языков программирования Python, R, Julia и для продуктов Mathlab, Stata и многих других. В общей сложности там собрано 24862 показателя, многие из которых обновляются ежедневно. DB Nomics можно отнести к проектам для исследователей экономистов. Его команда работает во французском мозговом центре CEPREMAP и данные индикаторов, собираемых в проекте, используются для формирования макроэкномических моделей и прогнозов․ Таких как Macroeconomic outlook [5] от 23 декабря 2022 года. Проектов собирающих данные показателей по странам довольно много, но важное отличие именно DB Nomics в открытости данных и кода и при этом довольно высоком качестве реализации. Ссылки։ [1] https://db.nomics.world/ [2] https://db.nomics.world/ROSSTAT [3] https://api.db.nomics.world/v22/apidocs [4] https://git.nomics.world/dbnomics [5] www.cepremap.fr/depot/2…look.pdf #opendata #dataset #economy #france #indicators

Ivan Begtin. Страница 16

Ivan Begtin

Ivan Begtin

Ivan Begtin

Реклама

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Реклама

Ivan Begtin

Ivan Begtin

Ivan Begtin