Меня продолжает не отпускать от локальных больших языковых моделей:
Запустил для теста модель на 13 миллиардов параметров, весом ~7 Гб, которая работает на GPU мака с простеньким ARM-процессором M1, 16 Гб RAM и 256 Гб жесткого диска.
Просто посмотрите на скорость этой «ChatGPT» дома которая работает без интернета. Это становится каким-то странным хобби, потому что мне просто приятно иметь у себя на переносном девайсе многие знания мира в виде одного файла, и я постоянно тестирую новые модели что выходят.
И самое главное, что уже через месяц, это будет работать еще быстрее, а с таким прогрессом, к моменту когда очки от Apple выйдут, уже можно будет себе построить полноценный переносной SciFi-в-шлеме, где мультимодальная нейронная модель работающая прямо на устройстве, будет и описывать текстом, что перед пользователем видит, и если нужно, давать советы. Все как в играх короче.
Для техногиков:
– Модель WizardLM-13B q4_0
– llama.cpp скомпилированная для поддержки Metal (LLAMA_METAL=1 make -j и -ngl 1 во время запуска).
– Cool-retro-term для красивого терминала в ретро-стиле.