Ivan Begtin, страница 3, все посты канала

Ivan Begtin

Eusko Jaurlaritzaren datu irekiak В рубрике как это устроено у них портал открытых данных Страны басков (провинция Испании) [1]. Можно сказать что является типичным европейским регионалом порталом открытых данных с акцентом на статистике и на геоданных, кроме двух интересных особенностей. Во первых на нём размещено около 10 тысяч наборов данных, при том что население провинции составляет всего около 2 миллионов человек. Это довольно много, даже если предположить что они тоже дробят статистические показатели. И, во вторых, портал построен на тематической классификации по 16 Objetivos de Desarrollo Sostenible (Целям устойчивого развития, ЦУР), что для порталов открытых данных довольно необычно, обычно темы используют другие, в Европе это или геотемы из ISO 19115 или Data Themes применяемые в Европейском портале открытых данных. Плюс у портала есть множество API, поддержка SPARQL и тд. Ссылки: [1] https://opendata.euskadi.eus/hasiera/ #opendata #spain #basque #euskadi #datasets

Ivan Begtin

В продолжение новости о возобновлении публикации отчетности банков: Стал доступен перечень сведений, которые компании-эмитенты вправе не раскрывать. К таким сведениям относится информация: – о лицах, входящих в состав органов управления и органов контроля за финансово-хозяйственной детяельность; - о сделках эмитента, его контролирующих лиц, подконтрольных ему лиц; - о банковских группах, банковских холдингах и ассоциациях; - о лицах, являющихся или являвшихся акционерами эмитента и подконтрольной эмитенту организации; - о дочерних организациях эмитента; - о финансовых вложениях эмитента; - об операциях и объеме средств в иностранной валюте; - об остатках и обеме средств на счетах; - о контрагентах; - о реаорганизации эмитента и подконтрольных эмитенту организаций; - и др. Полный перечень можно найти в Постановлении Правительства РФ от 4 июля 2023 года (static.government.ru/media/f…oKnN.pdf)

Ivan Begtin

Из любопытного, в Meilisearch, одном из самых быстрых опенсорсных движков для поиска структурированного контента, добавили векторный поиск [1], а их CTO интересно и с примерами рассказывает про применение Meilisearch для семантического поиска и построения чат-ботов [2]. Там есть технические подробности для интересующихся, лично я планирую посмотреть пристально на эту новую возможность. А из другого бросившегося в глаза в их анонсе, это ссылка на бот дающего ответы на основе их же документации [3], чат боты для технической документации это хорошая идея, да и для любой другой документации больших текстов тоже. Ссылки: [1] blog.meilisearch.com/vector-…uncement [2] github.com/meilise…ues/3838 [3] https://blazy-chat.vercel.app/ #opensource #search

Vector storage is coming to Meilisearch to empower search through AI

We're thrilled to release vector storage for Meilisearch to bring fast, relevant search to AI-powered applications.

Meilisearch Blog

Ivan Begtin

Свежий доклад ОЭСР по применению ИИ в науке [1], вернее это даже не доклад, а сборник статей объединённых одной темой. Много примеров того как ИИ уже сейчас применяется в научной работе и о том как может применяться в ближайшем будущем. В целом документ ИИ-оптимистичен, практически все тексты о том как ИИ хорош и полезен во всём: автоматизации лабораторий, поиске лекарств, удобных инструментах управления знаниями и так далее. Важная часть текстов посвящена вопросу Is science getting harder? (Становится ли тяжелее заниматься наукой?) и ответ на этот вопрос - да, а ИИ рассматривается как важный усилитель работы учёных. Почитать полезно, поскольку это та область которая как раз должна вызывать наименьшие опасения этики работы с ИИ. Возможно. Ссылки: [1] www.oecd.org/publica…d-en.htm #openscience #ai #readings

Artificial Intelligence in Science: Challenges, Opportunities and the Future of Research | en | OECD

The rapid advances of artificial intelligence (AI) in recent years have led to numerous creative applications in science. Accelerating the productivity of science could be the most economically and socially valuable of all the uses of AI.

www.oecd.org

Ivan Begtin

В рубрике как это работает у них, корейский негосударственный агрегатор поисковик по открытым данным Kimi Nine [1] 149 тысяч наборов данных, 11 тысяч API, 39 тысяч слоёв карт и 451 набор больших данных из 54 источников, большая часть источников - это государственные и научные каталоги данных. Агрегатор заодно даёт картину того как устроена публикация данных в Южной Корее. Ссылки: [1] https://gimi9.com #opendata #korea #datasets

Ivan Begtin

В рубрике как это работает у них, портал открытых данных Абу Даби (ОАЭ) [1] На портале 3329 наборов данных, внутри используется движок DKAN, поверх него работает фронтэнд который взаимодействует с этим движком через API. Из плюсов: несколько API реального времени, симпатичный дизайн, регулярное обновление, данные доступны файлами и через API Из минусов: не поддерживает стандарты экспорта метаданных вроде DCAT, лукавят с цифрами наборов данных потому что разрезали некоторые наборы данных помесячно. Ссылки: [1] https://data.abudhabi #opendata #opengov #uae

Ivan Begtin

К вопросу о цифровой архивации данных, единственный известный мне портал открытых данных Афганистана Afghanistan Disaster Risk Information Portal [1] на базе Geonode, был доступен до декабря 2022 г. [2], а потом просто исчез. Особенность как его, так и очень многих других порталов с данными в том что поисковые системы и интернет-архив их почти не индексируют, потому что интерфейсы построены поверх вызовов API и сами данные доступны не всегда файлами, часто через точки подключения. Один лишь пример из многих Ссылки: [1] https://disasterrisk.af [2] web.archive.org/web/202…rrisk.af #opendata #digitalpreservation #afganistan #geodata

Ivan Begtin

Тут буквально недавно Миннауки РФ разродилось контрактом на 344 млн. руб. с на создание сервисов в рамках "домена наука" на базе ЕГИСУ НИОКР. Контракт, ожидаемо, с ед. исполнителем, их подведом ЦИТИСом. Отдельная история про смысл этой работы, о ней как-то в другой раз. А отдельно про "нюансы" с Гостехом. Так вот упоминание Гостеха там в документе щедро раскидано, но... как опытный чтец ТЗ на госсистемы отмечу следующее: 1. В документе акцент не на создание на базе Гостеха, а на "готовности перевода сервисов", а значит Минобрнауки сможет принять работы и без переноса. 2. Технические мероприятия не включают перевод в промышленную эксплуатацию (впрочем это касается всего что делает ЦИТИС, а не только ГосТех, можно сказать что это такая "особенность") 3. Гостех описывается исключительно как платформа для хостинга. Требования к оборудованию нет, всё что касается сервисной инфраструктуры отсутствует. 4. Про взаимодействие через витрины данных описывается в модели "если они будут". 5. Стоит обратить внимание что размещение гостайны на Гостехе не предусмотрено, поэтому ЕГИСУ НИОКТР разделяют на две части: на инфраструктуре ЦИТИСа и на инфраструктуре ГосТеха. В итоге, что и требовалось доказать. Гостех ничем не отличается от того чтобы вместо него использовался бы ЦОД Госзнака или Ростелекома или ГЕОП и ещё много чего. Учитывая насколько представители Сбера стали реже упоминать себя в контексте ГосТеха, в банке то понимают насколько они портят себе этим репутацию. Собственно и мне инсайдеры в Сбере периодически честно говорят, что из всего технологического что банк делает, именно Гостех - это самый неаппетитный результат жизнедеятельности. Ссылки: [1] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1971006293923000063&contractInfoId=83142106 #government #govtech #spending

Ivan Begtin

Свежий текст в рассылку на Substack, текстов я туда не писал давно, поэтому перезапускаю с вопроса. О чём же написать в первую очередь? Опрос прямо там же, на Substack [1] Ссылки: [1] https://begtin.substack.com/p/fde #blogging #data #substack

Ivan Begtin

Я уже несколько раз писал о том что государства по всему миру продолжают создавать каталоги API, по аналогии с сайтами для разработчиков предлагаемыми в коммерческом секторе. Новые каталоги API в тот же список: - Каталог административных API Японии http://api-catalog.e-gov.go.jp/ открыт 31 марта 2023 г., 39 API - Государственные API в Малайзии www.mygdx.gov.my/en/land…itecture 130 API - Портал API налоговой службы Австралии https://apiportal.ato.gov.au, 6 API - Портал госAPI ОАЭ https://api.government.ae 29 API - Портал API налоговой службы Новой Зеландии https://portal.api.business.govt.nz 30 API - Каталог API Литвы https://api.gov.lt около 40 API А также предыдущий список из 6 каталогов API. Таких порталов становится всё больше и, надо отметить, что появляются они в странах где порталы открытых данных уже стали нормой и такие каталоги API их дополняют для задач где сложно или неудобно выгружать весь набор данных целиком или органы власти требуют авторизации. #openapi #opendata #api #government

Home

Discover MBIE APIs, learn how to use them, try them out interactively, and sign up to acquire keys.

api.business.govt.nz

Ivan Begtin

В рубрике как это устроено у них, экспериментальный австралийский проект их департамента финансов (аналог Министерства финансов в РФ и постсоветских странах) по созданию так называемого финансового графа по органам власти Австралии. С атрибутами, свойствами и характеристиками органов власти с точки зрения их участия в бюджетном процессе. Можно посмотреть вживую на structure.gov.au [1] В России похожий проект был в виде реестра участников и неучастников бюджетного процесса, но только связанных данных там не было, но информации значительно больше публиковалось и частично публикуется. В мире такие проекты редкость, сложные формальные реестры - это одна из областей где применение связанных данных оправданно и логично, хотя и от конечного неквалицированного пользователяь оторвано. Для тех кто любит оперировать смыслами понятий в госуправлении и управлении бюджетными процессами - это сложная и интересная штука. Ссылки: [1] https://structure.gov.au/body/department-finance #opendata #linkedata #govfinances #government #australia

Ivan Begtin

Архивы интернета Все знают главный архив интернета – web.archive.org. Цель сервиса – сохранить вид всей мировой сети в каждый момент времени. Идеально эту задачу решить невозможно, но web.archive к этому стремится. Главную страницу Гугла он сохранил 13 миллионов раз, главную страницу моего блога – 126 раз. Чего многие не знают, у интернета есть и второй архив – #стартапдня archive.today с меньшей, но сопоставимой посещаемостью. Его модель гораздо практичнее и, видимо, на много порядков дешевле, чем модель web.archive. Он сохраняет не всё подряд постоянно, а только то, что пользователь просит и только в тот момент, когда он просит. Понравился мне именно сегодняшний вид того же Google – иду на сайт, нажимаю кнопку, – всё, страница ушла в вечность, каждый сможет в будущем её посмотреть. Любопытный побочный эффект: archive.today иногда работает, как средство халявного просмотра платного контента. Мне этот фокус показали на Business Insider, я проверил случайную статью на Financial Times – да, стартап отлично показал полный текст. Сервера газет думали, что общаются с поисковым роботом, а для них секретов нет, СМИ хотят индексироваться по максимуму. Хочется сказать, что в этом и есть секрет популярности стартапа, но похоже, что нет. С того же Financial Times он индексировал всего 2000 статей за всю историю, это совсем немного на фоне десятков миллионов визитов на archive.today каждый месяц. Не знаю, что обычные посетители там делают. Личные сайты сохраняют? Зачем?... Archive.today делается одним энтузиастом. Зарабатывает он донатами и, видимо, не окупает хостинг, но уверенно пишет – деньги есть, работать будем, убыток есть кому закрыть. И больше десяти лет действительно уже работает. https://archive.ph/ #контент #насвои —— http://t.me/startupoftheday — рассказ о новом стартапе каждый день. Кратко и без воды.

Ivan Begtin

Александр Горный напомнил про проекты по архивации Интернета, а я напомню что кроме Archive.org и Archive.today существует множество цифровых сервисов сохранения исходного кода, данных, цифровых объектов и тд. Проект которым я занимаюсь, Common Data Index, тоже может рассматриваться как архив данных, на стадии когда уже получится запустить краулер данных, а не только метаданных. Но важно что почти все ключевые публичные проекты по архивации живут на донаты или дополнительные небольшие коммерческие сервисы. Человечество в целом до сих пор не очень то научилось ценить открытые знания и их долгосрочную доступность, к счастью есть критическая масса людей понимающих что именно это позволяет сохранять цивилизацию и что наши потому тоже имеют право изучать историю творимую в наши дни. #opendata #digitalpreservation #webarchives

Ivan Begtin

Я тут задумался о KPI которые должны/могут быть у поисковика по данным, если рассматривать его как глобальный, причём эти критерии могут существенно как пересекаться так и давать разные направления усилий. Например, критерий разнообразности. То что данные данные должны быть разных типов: госданные, открытые геоданные, научные данные, микроданные, данные для ML, точки подключения API и тд. Максимально широкий охват данных по типам. Требует поиска каталогов с разными типами данных и их индексации Или критерий географической полноты, так чтобы поиск позволял найти данные по условно любой страны из условно любой страны, даже маленьких тихоокеанских государств. Здесь надо обыскать порталы всех стран на предмет каталогов данных и уметь извлекать страновую принадлежность у датасетов из общемировых каталогов. Или критерий масштаба, когда чем больше данных тем лучше. Тогда надо не гоняться за наибольшим числом порталов данных, где может быть даже по 3-5 датасетов, а целенаправленно индексировать вначале крупнейшие. Чем больше каталог тем приоритетнее он должен быть. Или критерий количественный, когда важно не то сколько наборов данных, а то сколько источников данных. Обогнать все имеющиеся каталоги порталов данных и быть наиболее полным из них, с поиском не только по датасетам, но и просто по метаданным каталога каталогов. Или критерий полноты возможностей, когда важно то сколько фасетов можно задать в поиске, так чтобы не только по типу каталога или лицензии, но и по стране, территории, научным дисциплинам, темам, макрорегионам, форматам, и так далее. Или критерий глубины, когда поиск идёт не только по ключевым полям, но и создаются индексы поиска по организациям публикующим данные, по полям данных. Здесь же находится интеграция с другими источниками, например, базами научного цитирования. Или критерий скорости, так чтобы средний поисковый запрос шёл не более 100 миллисекунд или меньшее или чуть большее время. И таких критериев ещё немало. Эти, пожалуй, главные. Чем больше делаешь фокус на один, тем меньше времени и возможности уделить остальным. Но какие-то акценты на развитии необходимы, ключевое тут в том кто пользователи и что им нужно. Я регулярно буду рассказывать про проект Common Data Index, реестр каталогов данных и открытый поисковик по всем доступным открытым данным в мире. #opendata #datasets #commondataindex

Ivan Begtin

Для тех кто ~~ненавидит~~ любит придумывать пароли совершенно смешная игра https://neal.fun/password-game/ Для полноты счастья ещё бы автор добавил написание пароля на время. Я остановился на 11м правиле;) P.S. Хорошо что в реальной жизни я использую несколько паролей от 25 до 35 символов, а не вот это вот всё:) #security #privacy #fun

Ivan Begtin

Mosaic [1] симпатичный опенсорсный фреймворк визуализации данных. Визуализации можно настраивать через JS, JSON или YAML, что даёт удобное разнообразие того как с этим работать. А то что это фреймворк даёт возможность удобно встраивать в свои продукты. Выглядит как минимум неплохо, стоит попробовать на реальных данных. Кроме всего прочего обещают прозрачную интеграцию с DuckDB и поддержку больших датасетов, до миллиардов записей. Ссылки: [1] https://uwdata.github.io/mosaic/ #dataviz #opensource #datatools

Ivan Begtin

Любопытный исследовательский проект ORKG [1] дословно The Open Research Knowledge Graph (ORKG) aims to describe research papers in a structured manner. With the ORKG, papers are easier to find and compare. А в переводе на русский язык посвящённый структуризации научных публикаций. Обратите внимание, не упрощённое понятное понимание, а именно структуризация. Фактически - это перевод научной статьи в данные/граф знаний с привязкой к Wikidata. Делает его команда TIB – Leibniz Information Centre for Science and Technology которые под руководством Сорена Ауэра, команда которого когда-то создавала DbPedia. Фактически проект создаёт структурированную базу научных статей, задача эта очень непростая, но реалистичная и наукоёмкая. Да, у них открытое API, точки подключения к SPARQL и много чего открытого. Ссылки: [1] https://orkg.org #opendata #openapi #openscience #knowledge #science

Ivan Begtin

Я регулярно рассказываю о том над чем я лично работаю над глобальным поисковиком по данным Common Data Index и могу уже показать демо поиска по датасетам. Пока без дизайна, без карточек датасетов, без ещё многого. Зато очень быстро, с более чем 3.3 миллионами наборов данных. Причём добавление большего числа наборов данных не проблема. Общий объём метаданных в поиске 7.5Gb, а сам поисковый индекс занимает 65Gb. Много работы уходит на стандартизацию данных из разных источников, но это интересная гибридно аналитическая и инженерная работа. Пока по плану ближе к концу августа будет публичный сервис поиска. #opendata #datacatalogs #datasearch

Ivan Begtin. Страница 3

Ivan Begtin

Ivan Begtin

Ivan Begtin

Реклама

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Реклама

Ivan Begtin

Ivan Begtin

Ivan Begtin