Обложка канала

Ivan Begtin

3903 @begtin

I am focused on Open Data, Procurement, e-Government, Open Government and other tech stuff

Ivan Begtin

3 года назад
Открыть в
Полезное чтение про данные, технологии и не только։ - Apache Arrow nanoarrow [1] библиотека на С от создателей Apache Arrow для работы с форматом Arrow, звучит как масло-масляное, а реально нужная библиотека для создания надстроек для других языков. Напомню, Apache Arrow теперь используют во второй версии Pandas для значительно ускорения работы с датафреймами - How fast is DuckDB really? [2] обзор производительности DuckDB от одного из ангельских инвесторов в MotherDuck и CEO Fivetran. Результаты ожидаемые - DuckDB работает быстрее многого, а ещё интересный вывод что MacBook Pro существенно обгоняет даже производительные сервера. - Unified Streaming And Batch Pipelines At LinkedIn: Reducing Processing time by 94% with Apache Beam [3] о том как команда LinkedIn существенно ускорила производительность в обработке данных используя Apache Beam. Признаюсь я Apache Beam нигде ещё не применял и не знаю живых примеров рядом, но продукт интересный, может и надо присмотреться подробнее - DragonflyDB reels in $21M for its speedy in-memory database [4] DragonflyDB - это эдакая замена Redis, с тем что обещают лучшую скорость для задач для key-value баз данных. В мае они же выпустили версию 1.0 [5] и декларировали 25-кратное ускорение по сравнению с Redis. Продукт с открытым кодом, а инвестиции они получают под развитие облачной версии DragonflyDB cloud - The Right To Be Free From Automation [6] статья в Noema с рассуждениями о том обладают ли люди правом отказа от автоматизации работы, там упоминается история компании Pick n Pay которая попыталась в Южной Африке внедрить терминалы самооплаты и столкнулась с бойкотом профсоюзов и была вынуждена эти терминалы демонтировать. Ссылки: [1] arrow.apache.org/blog/20…-release [2] www.fivetran.com/blog/ho…b-really [3] engineering.linkedin.com/blog/20…ing-proc [4] siliconangle.com/2023/03…database [5] dragonflydb.io/blog/dr…on-ready [6] www.noemamag.com/the-rig…tomation #opensource #data #readings
Apache Arrow nanoarrow 0.1 Release

The Apache Arrow team is pleased to announce the 0.1.0 release of Apache Arrow nanoarrow. This initial release covers 31 resolved issues from 6 contributors. Release Highlights This initial release includes the following: A C library bundled as two files (nanoarrow.c and nanoarrow.h). An R package providing bindings for users of the R programming language. See the Changelog for a detailed list of contributions leading up to the initial release. Why nanoarrow? The adoption of the Arrow C Data Interface and the Arrow C Stream Interface since their introduction have been impressive and enthusiastic: not only have Arrow language bindings adopted the standard to pass data among themselves, a growing number of high-profile libraries like GDAL and DuckDB use the standard to improve performance and provide an ABI-stable interface to tabular input and output. GDAL and DuckDB are fortunate to have hard-working and forward-thinking maintainers that were motivated to provide support for the Arrow C Data and Stream interfaces…

Apache Arrow