Загрузка данных SQL в Pandas без потери памяти
У вас есть некоторые данные в реляционной базе данных, и вы хотите обработать их с помощью Pandas. Поэтому вы используете удобный API Pandas read_sql() для получения DataFrame и быстро расходуете память.
Проблема: вы загружаете в память сразу все данные. Если у вас достаточно строк в результатах SQL-запроса, они просто не поместятся в оперативной памяти.
В Pandas есть опция пакетной обработки для read_sql(), которая может уменьшить использование памяти, но она все же не идеальна: она также загружает все данные в память сразу!
Так как же обрабатывать запросы, объем которых превышает объем памяти, с помощью Pandas? Давайте разбираться.
@BookPython