Клонирование голоса, RAG и цифровые портреты — реальный эксперимент

В этом видео я экспериментирую с клонированием голоса и пробую понять, можно ли: — создать цифрового заместителя — генерировать ответы HR-у моим голосом — и вообще понять, где проходит граница этики — привожу пример с моей переозвучкой World of Warcraft Код со стрима в закрепе Разбираем: — концепцию цифровых портретов — многовекторные модели и RAG — Qwen3-TTS vs Coqui — LoRA, Flash Attention и ускорение генерации — что дешевле: кеш или загрузка модели в RAM — практические ограничения и MVP Это не туториал, а живой инженерный эксперимент со стрима — с ошибками, мемами и странными результатами (Starcoder, привет). Внутри: • короткий vs длинный семпл для клонирования • генерация текста под голос • эксперимент с ответом HR • размышления об этике • идеи применения Видео сделано на основе стрима — без вырезания контекста и с объяснениями по ходу. Если вы: — хотите глубже понимать программирование — чувствуете, что «код — это не всё» — или просто интересно, как всё связано Залетайте на стримы, подписывайтесь на канал и блог в телеграме 00:00:00 – Нарезка забавных моментов 00:01:00 – Постановка задачи 00:01:27 – Как переозвучить World Of Warcraft на русский язык с помощью AI? 00:03:10 – Концепция цифровых портретов и замещений, многовекторные модели и RAG 00:12:45 – Формулировка проблем, роадмапа и MVP 00:15:00 – Атрибуты цифрового портрета 00:15:59 – Разбираемся с Voice Memos и делаем короткого семпл для клонирования 00:17:23 – Повторяю постановку задачи и цели проекта 00:20:42 – Про Qwen3-TTS относительно coqui-ai/TTS 00:21:55 – Запускаем и подготавливаем Python код 00:23:59 – Слушаем клонирование голоса на основе короткого семпла 00:24:59 – Про Flash Attention, LoRA, Mac Studio M1 Max и ускорение клонирования голоса 00:26:45 – Записываем семпл на основе текста книги "Хоббит" 00:29:28 – Записываем генерируемый кусок для сопоставления с образцом и сравнения 00:30:15 – Клонируем голос для длинного семпла 00:33:20 – Слушаем клонирование голоса на основе длинного семпла 00:34:47 – Анализируем результаты 00:36:40 – Уточняем цели проекта 00:38:00 – Как это может работать с видео 00:38:45 – Мем про цифровых заместителей 00:39:00 – Про применимость RCTF, тональность, Юнга и Толкина в подходе к генерации текста под клонирование голоса 00:42:20 – Рандом спрашивает "что происходит?" 00:43:00 – Эксперимент для генерации текста ответа HR-у для технического вопроса 00:44:15 – Извиняемся перед нейросетью 00:44:20 – Про DDD ненависть 00:45:51 – Starcoder сошел с ума и сгенерировал пасту про балкон, но про elixir с матом 00:47:10 – Генерируем аудиоклон для ответа HR-а про elixir 00:48:30 – Иногда полная загрузка модели в RAM при каждой генерации дешевле, чем кеш 00:49:20 – Слушаем клонирование голоса для ответа HR-у про elixir 00:50:00 – Слушаем все клоны голоса 00:50:45 – Спрос клонирования для World Of Warcraft 00:51:30 – Идеи применения клонирования голоса 00:52:48 – Зачем я вообще про это рассказываю и стримлю 00:53:30 – Про этические вопросы клонирования голоса 00:54:00 – Применимость проекта Где меня найти ▶ Twitch (стримы): https://www.twitch.tv/marat_zimnurov ▶ Telegram — про программирование и дайджесты: https://t.me/digitable_blog ▶ Пост про цветовую теорию, который упоминаю в видео: https://t.me/digitable_blog/30 ▶ Проекты и услуги: https://digitable.ru/ ▶ GitHub: https://github.com/the-homeless-god Остальные контакты — в шапке канала. Поддержать канал можно подписавшись сюда и на телегу https://t.me/digitable_blog или на Twitch через кнопку донатов. Если будет смысл и спрос — со временем заведу Boosty, но пока без фанатизма

12+
3 просмотра
4 месяца назад
12+
3 просмотра
4 месяца назад

В этом видео я экспериментирую с клонированием голоса и пробую понять, можно ли: — создать цифрового заместителя — генерировать ответы HR-у моим голосом — и вообще понять, где проходит граница этики — привожу пример с моей переозвучкой World of Warcraft Код со стрима в закрепе Разбираем: — концепцию цифровых портретов — многовекторные модели и RAG — Qwen3-TTS vs Coqui — LoRA, Flash Attention и ускорение генерации — что дешевле: кеш или загрузка модели в RAM — практические ограничения и MVP Это не туториал, а живой инженерный эксперимент со стрима — с ошибками, мемами и странными результатами (Starcoder, привет). Внутри: • короткий vs длинный семпл для клонирования • генерация текста под голос • эксперимент с ответом HR • размышления об этике • идеи применения Видео сделано на основе стрима — без вырезания контекста и с объяснениями по ходу. Если вы: — хотите глубже понимать программирование — чувствуете, что «код — это не всё» — или просто интересно, как всё связано Залетайте на стримы, подписывайтесь на канал и блог в телеграме 00:00:00 – Нарезка забавных моментов 00:01:00 – Постановка задачи 00:01:27 – Как переозвучить World Of Warcraft на русский язык с помощью AI? 00:03:10 – Концепция цифровых портретов и замещений, многовекторные модели и RAG 00:12:45 – Формулировка проблем, роадмапа и MVP 00:15:00 – Атрибуты цифрового портрета 00:15:59 – Разбираемся с Voice Memos и делаем короткого семпл для клонирования 00:17:23 – Повторяю постановку задачи и цели проекта 00:20:42 – Про Qwen3-TTS относительно coqui-ai/TTS 00:21:55 – Запускаем и подготавливаем Python код 00:23:59 – Слушаем клонирование голоса на основе короткого семпла 00:24:59 – Про Flash Attention, LoRA, Mac Studio M1 Max и ускорение клонирования голоса 00:26:45 – Записываем семпл на основе текста книги "Хоббит" 00:29:28 – Записываем генерируемый кусок для сопоставления с образцом и сравнения 00:30:15 – Клонируем голос для длинного семпла 00:33:20 – Слушаем клонирование голоса на основе длинного семпла 00:34:47 – Анализируем результаты 00:36:40 – Уточняем цели проекта 00:38:00 – Как это может работать с видео 00:38:45 – Мем про цифровых заместителей 00:39:00 – Про применимость RCTF, тональность, Юнга и Толкина в подходе к генерации текста под клонирование голоса 00:42:20 – Рандом спрашивает "что происходит?" 00:43:00 – Эксперимент для генерации текста ответа HR-у для технического вопроса 00:44:15 – Извиняемся перед нейросетью 00:44:20 – Про DDD ненависть 00:45:51 – Starcoder сошел с ума и сгенерировал пасту про балкон, но про elixir с матом 00:47:10 – Генерируем аудиоклон для ответа HR-а про elixir 00:48:30 – Иногда полная загрузка модели в RAM при каждой генерации дешевле, чем кеш 00:49:20 – Слушаем клонирование голоса для ответа HR-у про elixir 00:50:00 – Слушаем все клоны голоса 00:50:45 – Спрос клонирования для World Of Warcraft 00:51:30 – Идеи применения клонирования голоса 00:52:48 – Зачем я вообще про это рассказываю и стримлю 00:53:30 – Про этические вопросы клонирования голоса 00:54:00 – Применимость проекта Где меня найти ▶ Twitch (стримы): https://www.twitch.tv/marat_zimnurov ▶ Telegram — про программирование и дайджесты: https://t.me/digitable_blog ▶ Пост про цветовую теорию, который упоминаю в видео: https://t.me/digitable_blog/30 ▶ Проекты и услуги: https://digitable.ru/ ▶ GitHub: https://github.com/the-homeless-god Остальные контакты — в шапке канала. Поддержать канал можно подписавшись сюда и на телегу https://t.me/digitable_blog или на Twitch через кнопку донатов. Если будет смысл и спрос — со временем заведу Boosty, но пока без фанатизма

, чтобы оставлять комментарии