Работаем с большими моделями бесплатно в облаке ollama

Ollama это инструмент для запуска LLM как на обычном компьютере, так и на серверах. В отличие от LM Studio, обладающей удобным графическим интерфейсом и встроенным браузером для загрузки и управления моделями, ollama ориентирована на более подготовленного пользователя и лучше адаптирована для использования на серверной инфраструктуре. Помимо этих отличий, ollama имеет два крутейших отличия от LM Studio, ради которых я и решил рассказать про эти инструменты: 1. Continuous batching (непрерывный батчинг) Это возможность использовать запущенную модель несколькими пользователями асинхронно. И под пользователями подразумеваются не люди, но и приложения, агенты. Т.е каждый из них может передать модели свой запрос в любой момент времени не дожидаясь окончания работы модели над предыдущим запросом и модель сразу же примется за исполнение этого нового запроса, не прекращая работы над предыдущим запросом. При этом на скорости исполнения запросов эта настройка влияет весьма слабо, если у вас достаточно памяти. А вот расход памяти будет расти линейно (читайте документациюhttps://docs.ollama.com/faq#how-does-ollama-handle-concurrent-requests). За включение этой функции отвечает настройка сервера OLLAMA_NUM_PARALLEL указывающая, сколько одновременных запросов может обрабатывать ваш сервер 2. Ollama cloud (облако LLM ollama) Несмотря на то, что на сайте ollama эта функция преподносится как "вы запускаете модель в облаке", по факту они просто предоставляют вам бесплатный доступ к собственной платформе облачного инференса. Т.е вы можете использовать запущенные на их серверах полноразмерные модели вроде GLM-5.1, Qwen-3.6 и даже Kimi-K2.6, расчитанные на запуск на самых дорогих серверных ускорителях и содержащие до 1 трлн параметров. Хоть эта функция и платная, но для пользователей предоставляется неплохой бесплатный лимит, которого вполне может хватить для ознакомления с моделями и даже для создания небольшого полноценного приложения. Главное, разумно подходить к постановке задач, менедменду контекста и не скатываться в вайбкодинг =) Тайм коды: 0:00 Интро 2:08 Параллелизм (continuous batching) 3:32 Облачные модели (ollama cloud) Сайт ollama: https://ollama.com/ Скачать ollama: https://ollama.com/download Каталог доступных моделей: https://ollama.com/search Документация по OLLAMA_NUM_PARALLEL: https://docs.ollama.com/faq#how-does-ollama-handle-concurrent-requests Настройка кодинг тулов: https://docs.ollama.com/integrations/claude-code Запросы без установки ollama: https://docs.ollama.com/cloud#curl-2 Посмотреть остаток лимитов (для зарегистрированых): https://ollama.com/settings Поддержать проект ➡ На кофеёк автору https://pay.cloudtips.ru/p/ddefc8df ➡ Sponsr https://sponsr.ru/letscode/ ➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖ ➡ Второй канал: https://www.youtube.com/geekChatDru ➡ Канал в Telegram: https://t.me/letsCode_dru

Иконка канала letsCode
50 подписчиков
12+
59 просмотров
2 месяца назад
12+
59 просмотров
2 месяца назад

Ollama это инструмент для запуска LLM как на обычном компьютере, так и на серверах. В отличие от LM Studio, обладающей удобным графическим интерфейсом и встроенным браузером для загрузки и управления моделями, ollama ориентирована на более подготовленного пользователя и лучше адаптирована для использования на серверной инфраструктуре. Помимо этих отличий, ollama имеет два крутейших отличия от LM Studio, ради которых я и решил рассказать про эти инструменты: 1. Continuous batching (непрерывный батчинг) Это возможность использовать запущенную модель несколькими пользователями асинхронно. И под пользователями подразумеваются не люди, но и приложения, агенты. Т.е каждый из них может передать модели свой запрос в любой момент времени не дожидаясь окончания работы модели над предыдущим запросом и модель сразу же примется за исполнение этого нового запроса, не прекращая работы над предыдущим запросом. При этом на скорости исполнения запросов эта настройка влияет весьма слабо, если у вас достаточно памяти. А вот расход памяти будет расти линейно (читайте документациюhttps://docs.ollama.com/faq#how-does-ollama-handle-concurrent-requests). За включение этой функции отвечает настройка сервера OLLAMA_NUM_PARALLEL указывающая, сколько одновременных запросов может обрабатывать ваш сервер 2. Ollama cloud (облако LLM ollama) Несмотря на то, что на сайте ollama эта функция преподносится как "вы запускаете модель в облаке", по факту они просто предоставляют вам бесплатный доступ к собственной платформе облачного инференса. Т.е вы можете использовать запущенные на их серверах полноразмерные модели вроде GLM-5.1, Qwen-3.6 и даже Kimi-K2.6, расчитанные на запуск на самых дорогих серверных ускорителях и содержащие до 1 трлн параметров. Хоть эта функция и платная, но для пользователей предоставляется неплохой бесплатный лимит, которого вполне может хватить для ознакомления с моделями и даже для создания небольшого полноценного приложения. Главное, разумно подходить к постановке задач, менедменду контекста и не скатываться в вайбкодинг =) Тайм коды: 0:00 Интро 2:08 Параллелизм (continuous batching) 3:32 Облачные модели (ollama cloud) Сайт ollama: https://ollama.com/ Скачать ollama: https://ollama.com/download Каталог доступных моделей: https://ollama.com/search Документация по OLLAMA_NUM_PARALLEL: https://docs.ollama.com/faq#how-does-ollama-handle-concurrent-requests Настройка кодинг тулов: https://docs.ollama.com/integrations/claude-code Запросы без установки ollama: https://docs.ollama.com/cloud#curl-2 Посмотреть остаток лимитов (для зарегистрированых): https://ollama.com/settings Поддержать проект ➡ На кофеёк автору https://pay.cloudtips.ru/p/ddefc8df ➡ Sponsr https://sponsr.ru/letscode/ ➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖➖ ➡ Второй канал: https://www.youtube.com/geekChatDru ➡ Канал в Telegram: https://t.me/letsCode_dru

, чтобы оставлять комментарии