Learning Timeline
Key Insights
Keperluan Perkakasan & Pengoptimuman
Model ini mengandungi 3 bilion parameter. Walaupun 16GB VRAM disyorkan untuk prestasi optimum, ia masih boleh dijalankan pada GPU pengguna biasa dengan 12GB (atau lebih rendah) dengan menggunakan tetapan CPU offloading.
Kecekapan Data Rendah
Disebabkan seni bina reinforcement learning (pembelajaran pengukuhan), model ini membolehkan klon suara berkualiti tinggi menggunakan hanya klip rujukan 5 saat, tidak seperti model lama yang memerlukan data latihan berminit-minit.
Prompts
Skrip Ujian Klon Suara
Target:
Step Audio EditX
Underneath the courtyard is a large underground exhibition room which connects the two buildings.
Skrip Ujian Emosi Marah
Target:
Step Audio EditX
Seriously, your call is very important to us. If it were important, you should pick up the phone. This is the last time I'm calling.
Skrip Ujian Gaya Bisikan (Whisper)
Target:
Step Audio EditX
I'm right here with you. You're safe. Everything is okay.
Step by Step
Mengklon Suara dengan Audio Rujukan Pendek
- Sediakan fail audio rujukan sekitar 5 saat yang mengandungi suara sasaran.
- Muat naik audio rujukan tersebut ke dalam Step Audio EditX.
- Masukkan transkrip teks yang anda mahu suara klon itu sebutkan.
- Mulakan proses penghasilan untuk mensintesis audio baru yang sepadan dengan nada dan timbre rujukan.
Mengubah Emosi dan Nada Audio
- Muatkan klip audio asal dan transkrip teksnya ke dalam editor.
- Pilih parameter emosi sasaran (contohnya, 'Angry', 'Fearful') atau gaya nada (contohnya, 'Exaggerated').
- Jalankan proses pengubahsuaian.
- Pastikan output mencerminkan perubahan tersebut, seperti intensiti yang lebih tinggi untuk kemarahan atau tempo yang laju untuk ketakutan.
Menggunakan Style Transfers (Whisper/Roar)
- Masukkan fail audio sumber.
- Pilih preset gaya akustik tertentu, seperti 'Whisper' atau 'Roar'.
- Proses audio tersebut untuk menggunakan gaya yang dipilih.
- Semak hasil untuk memastikan ciri vokal (contohnya, bunyi nafas untuk bisikan) digunakan sambil mengekalkan mesej asal.
Memasukkan Paralinguistik (Bernafas/Ketawa)
- Masukkan transkrip teks asas untuk penghasilan ucapan.
- Cari kedudukan kursor tertentu dalam teks di mana bunyi bukan lisan diperlukan.
- Masukkan arahan paralinguistik khusus (contohnya, tambah penanda 'breath' atau 'laugh').
- Hasilkan audio untuk memastikan kesan bunyi disepadukan dengan lancar di antara perkataan yang diucapkan.