Learning Timeline
Key Insights
Kelebihan Multimodal Gemini
Berbeza dengan model tradisional yang memerlukan langkah penukaran Audio-to-Text yang berasingan (seperti Whisper), Gemini boleh memproses fail audio secara terus sebagai input multimodal, menjadikannya lebih pantas dan mudah diurus dalam satu node sahaja.
Tips Folder Organisasi
Pastikan fail audio dan transkrip disimpan dalam folder yang sama atau folder khusus untuk mengelakkan kekeliruan apabila menguruskan beratus-ratus fail rakaman.
Prompts
Audio Transcription Prompt
Target:
Google Gemini (Multimodal)
Please provide a complete and accurate transcription of the attached audio file. Maintain the original structure of the conversation and include speaker labels if possible.
Step by Step
Setup Aliran Kerja Transkripsi Automatik n8n
- Buka dashboard n8n dan cipta workflow baharu.
- Tambah node 'Google Drive Trigger' dan tetapkan 'Watch for' kepada 'File Created' dalam folder 'Workshop Recordings'.
- Tambah node 'Google Drive' dengan action 'Download File' untuk menarik fail audio yang baru dimuat naik.
- Sambungkan node tersebut ke node 'Google Gemini' (Gemini 1.5 Pro atau Flash yang menyokong multimodal).
- Dalam node Gemini, tetapkan model untuk menerima input audio dan masukkan prompt untuk transkripsi.
- Tambah node 'Google Drive' dengan action 'Upload File' selepas node Gemini.
- Map kan output teks daripada Gemini ke dalam kandungan fail baharu di Google Drive.
- Namakan fail output tersebut dengan suffix '_transcript.txt'.
- Klik 'Execute Workflow' untuk menguji aliran kerja tersebut.