Setup workflow voice cloning profesional dengan VibeVoice settings | Alpha | PandaiTech

Setup workflow voice cloning profesional dengan VibeVoice settings

Cara configure workflow ComfyUI untuk VibeVoice termasuk upload sample suara, format skrip dialog, dan pelarasan parameter penting seperti 'temperature' dan 'steps' untuk hasil audio terbaik.

Learning Timeline
Key Insights

Tip 'Sweet Spot' Diffusion Steps

Nilai 20 steps adalah 'sweet spot' untuk VibeVoice. Melebihi 40 atau 50 steps biasanya tidak memberikan peningkatan kualiti yang ketara (diminishing returns) dan hanya akan membazirkan kuasa pemprosesan GPU.

Pengurusan VRAM GPU

Jika anda mempunyai VRAM yang terhad, pastikan 'free memory after generate' di-set kepada 'True'. Ini penting supaya ComfyUI tidak 'crash' apabila anda cuba menjalankan workflow lain selepas menjana audio.

Kualiti vs Kelajuan

Model 7B memberikan kualiti klon suara yang sangat realistik (seperti Sam Altman) tetapi memerlukan VRAM besar dan masa 'loading' yang lama. Jika anda perlukan hasil pantas untuk draf, gunakan model yang lebih kecil.
Prompts

Format Skrip Dialog VibeVoice

Target: VibeVoice Transcript Node
[Speaker 1] Hello, this is the first speaker. [Speaker 2] Hi there. I'm the second speaker. [Speaker 1] Nice to meet you. [Speaker 2] Nice to meet you, too.
Step by Step

Konfigurasi Workflow VibeVoice di ComfyUI

  1. Muat turun dan 'drag and drop' fail workflow VibeVoice ke dalam interface ComfyUI.
  2. Pada node 'Speaker 1', klik butang 'upload' untuk memasukkan klip audio pendek suara yang ingin di-clone.
  3. Ulangi langkah yang sama pada node 'Speaker 2' jika anda memerlukan suara kedua dalam dialog yang sama.
  4. Masukkan teks skrip ke dalam kotak input 'transcript'. Gunakan format [Speaker 1] dan [Speaker 2] dalam kurungan petak untuk membezakan siapa yang bercakap.
  5. Pilih model pada bahagian 'model selection'. Pilih versi '7B' untuk kualiti audio terbaik jika anda mempunyai VRAM yang mencukupi (saiz sekitar 17GB).
  6. Setkan 'Attention Type' kepada 'auto' untuk membolehkan sistem mengesan kaedah pecutan (acceleration) terbaik secara automatik.
  7. Laraskan 'free memory after generate'. Set kepada 'True' untuk membuang model dari VRAM selepas selesai, atau 'False' jika anda ingin melakukan penjanaan berulang kali dengan lebih pantas.
  8. Tetapkan 'Diffusion Steps' pada nilai 20 untuk keseimbangan antara kualiti dan kelajuan.
  9. Pilih 'Seed' dan tetapkan kepada 'randomize' jika ingin hasil yang berbeza setiap kali, atau 'fixed' untuk mengekalkan konsistensi suara yang sama.
  10. Laraskan 'Temperature' (nilai rendah untuk hasil konsisten, nilai tinggi untuk lebih kreativiti) dan 'CFG' (kawalan sejauh mana AI mengikut prompt teks).
  11. Klik 'Queue Prompt' untuk memulakan proses inference dan penjanaan audio.

Menggunakan Fail Teks Luaran untuk Transcript

  1. Sediakan fail teks (.txt) yang mengandungi skrip dialog lengkap.
  2. Simpan fail tersebut ke dalam folder 'input' di dalam direktori ComfyUI anda.
  3. Cari node input teks dalam workflow, klik kanan dan pilih 'Bypass' (atau tekan Ctrl+B) untuk mengaktifkan node tersebut (pastikan highlight ungu hilang).
  4. Klik menu dropdown pada node tersebut dan pilih nama fail teks yang telah anda simpan (contoh: transcript.txt).
  5. Sambungkan (drag) output dari node fail teks ini ke input transcript pada node utama VibeVoice.

More from Hasilkan Suara & Muzik AI

View All