Запуск Qwen3.6 на разных видеокартах – результаты
Мой Telegram-канал: https://t.me/gmoreva Мой бусти: https://boosty.to/amorev Ссылки из ролика: Репозиторий со скриптами https://github.com/amorev/rent-gpu-scripts Страница результатов: https://amorev.ru/misc/qwen36start/result.html Спонсор ролика: Регистрируйтесь по моей реферальной ссылке в облаке immers.cloud и получите +20% к пополнению https://immers.cloud/signup/r/20260401-5031129-367/ Реклама. ООО «ДТЛ». ИНН 9717073792. erid: 2W5zFH1qSzM В этом видео мы запускаем Qwen3.6 на различных видеокартах и проводим честный бенчмарк производительности! 🚀 Вы увидите реальные результаты TPS и скорость обработки на: - NVIDIA V100 (1 и 2 GPU) - NVIDIA RTX 3090 (1 и 2 GPU) - NVIDIA RTX 4090 (1 и 2 GPU) - NVIDIA H100 и H100 NVL Я покажу, как запускать квантованные модели Qwen3.6‑27B и Qwen3.6‑35B через llama-server, делюсь практическими лайфхаками по оптимизации VRAM и настройке контекста, чтобы вы могли запускать модель локально или на арендованных GPU без проблем. 📊 Что вы узнаете из видео: - Сравнение скорости генерации токенов на разных GPU - Особенности запуска плотных и неплотных квантов - Реальные ограничения по памяти и контексту - Как выбирать GPU для локального запуска или облачных серверов - Практическая демонстрация работы Qwen3.6 с OpenCode (без тестирования интеллекта) 💡 Кому будет полезно: - Разработчикам и AI‑энтузиастам - Тем, кто хочет запускать Qwen3.6 локально - Людям, которые подбирают GPU для работы с крупными моделями Таймкоды: 00:00 Введение 01:43 Спонсор ролика 03:05 Что такое Qwen 3.6? 06:54 Про запуск на видеокарте 09:34 Запускаем на Windows 11:20 Запускаем через Llama-server 11:56 Добавляем в opencode 14:23 Результаты кодинга с qwen 3.6 27b 15:45 Запускаем 35b-a3b 20:01 Разбираем параметры запуска 23:11 Переходим к запуску на арендованных GPU 25:52 Как пользоваться конструктором запуска 34:22 Драйвера установлены. Качаем и запускаем модель 35:53 Вайбкодим на видеокарте v100 37:22 Зачем вообще запускать на v100? 39:31 Запускаем 35b-a3b на V100 44:56 35b-a3b на 2х V100 50:14 Добавляем метрику в результаты 52:10 Итоги про две v100 53:00 27b на 2*V100 59:43 3090, 4090, h100, h100nvl 01:01:09 27b-q4_k_m 01:05:53 35b-a3b-q_4_k_m 01:10:40 8-битные кванты. Удвоенные 3090, 4090 и h100, h100nvl 01:15:39 27b модель на той же конфигурации 01:20:26 Подводим итоги
Мой Telegram-канал: https://t.me/gmoreva Мой бусти: https://boosty.to/amorev Ссылки из ролика: Репозиторий со скриптами https://github.com/amorev/rent-gpu-scripts Страница результатов: https://amorev.ru/misc/qwen36start/result.html Спонсор ролика: Регистрируйтесь по моей реферальной ссылке в облаке immers.cloud и получите +20% к пополнению https://immers.cloud/signup/r/20260401-5031129-367/ Реклама. ООО «ДТЛ». ИНН 9717073792. erid: 2W5zFH1qSzM В этом видео мы запускаем Qwen3.6 на различных видеокартах и проводим честный бенчмарк производительности! 🚀 Вы увидите реальные результаты TPS и скорость обработки на: - NVIDIA V100 (1 и 2 GPU) - NVIDIA RTX 3090 (1 и 2 GPU) - NVIDIA RTX 4090 (1 и 2 GPU) - NVIDIA H100 и H100 NVL Я покажу, как запускать квантованные модели Qwen3.6‑27B и Qwen3.6‑35B через llama-server, делюсь практическими лайфхаками по оптимизации VRAM и настройке контекста, чтобы вы могли запускать модель локально или на арендованных GPU без проблем. 📊 Что вы узнаете из видео: - Сравнение скорости генерации токенов на разных GPU - Особенности запуска плотных и неплотных квантов - Реальные ограничения по памяти и контексту - Как выбирать GPU для локального запуска или облачных серверов - Практическая демонстрация работы Qwen3.6 с OpenCode (без тестирования интеллекта) 💡 Кому будет полезно: - Разработчикам и AI‑энтузиастам - Тем, кто хочет запускать Qwen3.6 локально - Людям, которые подбирают GPU для работы с крупными моделями Таймкоды: 00:00 Введение 01:43 Спонсор ролика 03:05 Что такое Qwen 3.6? 06:54 Про запуск на видеокарте 09:34 Запускаем на Windows 11:20 Запускаем через Llama-server 11:56 Добавляем в opencode 14:23 Результаты кодинга с qwen 3.6 27b 15:45 Запускаем 35b-a3b 20:01 Разбираем параметры запуска 23:11 Переходим к запуску на арендованных GPU 25:52 Как пользоваться конструктором запуска 34:22 Драйвера установлены. Качаем и запускаем модель 35:53 Вайбкодим на видеокарте v100 37:22 Зачем вообще запускать на v100? 39:31 Запускаем 35b-a3b на V100 44:56 35b-a3b на 2х V100 50:14 Добавляем метрику в результаты 52:10 Итоги про две v100 53:00 27b на 2*V100 59:43 3090, 4090, h100, h100nvl 01:01:09 27b-q4_k_m 01:05:53 35b-a3b-q_4_k_m 01:10:40 8-битные кванты. Удвоенные 3090, 4090 и h100, h100nvl 01:15:39 27b модель на той же конфигурации 01:20:26 Подводим итоги




