Learning Timeline
Key Insights
Tip 'Sweet Spot' Diffusion Steps
Nilai 20 steps adalah 'sweet spot' untuk VibeVoice. Melebihi 40 atau 50 steps biasanya tidak memberikan peningkatan kualiti yang ketara (diminishing returns) dan hanya akan membazirkan kuasa pemprosesan GPU.
Pengurusan VRAM GPU
Jika anda mempunyai VRAM yang terhad, pastikan 'free memory after generate' di-set kepada 'True'. Ini penting supaya ComfyUI tidak 'crash' apabila anda cuba menjalankan workflow lain selepas menjana audio.
Kualiti vs Kelajuan
Model 7B memberikan kualiti klon suara yang sangat realistik (seperti Sam Altman) tetapi memerlukan VRAM besar dan masa 'loading' yang lama. Jika anda perlukan hasil pantas untuk draf, gunakan model yang lebih kecil.
Prompts
Format Skrip Dialog VibeVoice
Target:
VibeVoice Transcript Node
[Speaker 1] Hello, this is the first speaker. [Speaker 2] Hi there. I'm the second speaker. [Speaker 1] Nice to meet you. [Speaker 2] Nice to meet you, too.
Step by Step
Konfigurasi Workflow VibeVoice di ComfyUI
- Muat turun dan 'drag and drop' fail workflow VibeVoice ke dalam interface ComfyUI.
- Pada node 'Speaker 1', klik butang 'upload' untuk memasukkan klip audio pendek suara yang ingin di-clone.
- Ulangi langkah yang sama pada node 'Speaker 2' jika anda memerlukan suara kedua dalam dialog yang sama.
- Masukkan teks skrip ke dalam kotak input 'transcript'. Gunakan format [Speaker 1] dan [Speaker 2] dalam kurungan petak untuk membezakan siapa yang bercakap.
- Pilih model pada bahagian 'model selection'. Pilih versi '7B' untuk kualiti audio terbaik jika anda mempunyai VRAM yang mencukupi (saiz sekitar 17GB).
- Setkan 'Attention Type' kepada 'auto' untuk membolehkan sistem mengesan kaedah pecutan (acceleration) terbaik secara automatik.
- Laraskan 'free memory after generate'. Set kepada 'True' untuk membuang model dari VRAM selepas selesai, atau 'False' jika anda ingin melakukan penjanaan berulang kali dengan lebih pantas.
- Tetapkan 'Diffusion Steps' pada nilai 20 untuk keseimbangan antara kualiti dan kelajuan.
- Pilih 'Seed' dan tetapkan kepada 'randomize' jika ingin hasil yang berbeza setiap kali, atau 'fixed' untuk mengekalkan konsistensi suara yang sama.
- Laraskan 'Temperature' (nilai rendah untuk hasil konsisten, nilai tinggi untuk lebih kreativiti) dan 'CFG' (kawalan sejauh mana AI mengikut prompt teks).
- Klik 'Queue Prompt' untuk memulakan proses inference dan penjanaan audio.
Menggunakan Fail Teks Luaran untuk Transcript
- Sediakan fail teks (.txt) yang mengandungi skrip dialog lengkap.
- Simpan fail tersebut ke dalam folder 'input' di dalam direktori ComfyUI anda.
- Cari node input teks dalam workflow, klik kanan dan pilih 'Bypass' (atau tekan Ctrl+B) untuk mengaktifkan node tersebut (pastikan highlight ungu hilang).
- Klik menu dropdown pada node tersebut dan pilih nama fail teks yang telah anda simpan (contoh: transcript.txt).
- Sambungkan (drag) output dari node fail teks ini ke input transcript pada node utama VibeVoice.