Ещё одна любопытная альтернатива формату файлов parquet - это lance [1]. Обещают 100-кратное ускорение при произвольном доступе, совместимость с Apache Arrow и DuckDB. Создатели позиционируют это как альтернативу Parquet, Iceberg и Delta.
По формату есть дизайн гайд [2], презентация [3]. В общем и целом посмотреть на него будет любопытно, как минимум.
Остаётся, правда, вопрос с объёмом хранения, потому что опций сжатия нет, а если данные не сжаты, то хранение их будет дороже чем parquet.
Ссылки։
[1] https://github.com/eto-ai/lance
[2] https://eto-ai.github.io/lance/format.html
[3] docs.google.com/present…2rE/edit
#datatools #opensource
Alternative to Parquet. 100x faster for random access, automatic versioning, optimized for computer vision, bioinformatics, spatial and ML data. Apache Arrow and DuckDB compatible. - GitHub - eto-a...