Learning Timeline
Key Insights
Kelebihan Flash Attention
Flash Attention berfungsi seperti 'budak malas yang bijak'. Ia tidak menyimpan keseluruhan jadual perbandingan token (matrix) dalam memori, sebaliknya memproses token dalam bentuk 'chunks' menggunakan rutin GPU yang dioptimumkan. Ini meningkatkan kelajuan dan mengurangkan beban VRAM secara drastik.
Kesan Quantization pada VRAM
Semakin rendah nilai quantization yang dipilih (contohnya 4-bit berbanding 8-bit), semakin sedikit ruang VRAM yang digunakan. Ini sangat membantu jika anda ingin menggunakan 'Context Window' yang besar (seperti 128k tokens) pada GPU yang mempunyai kapasiti memori terhad.
Tips Prestasi Semasa Merakam
Jika anda sedang melakukan rakaman skrin atau menggunakan aplikasi grafik lain yang menggunakan GPU, pastikan tetapan quantization diaktifkan untuk mengelakkan model menjadi perlahan atau 'stuttering' kerana kedua-dua aplikasi berkongsi sumber hardware yang sama.
Step by Step
Cara Mengaktifkan Flash Attention & KV Cache Quantization
- Buka LM Studio dan pilih model yang ingin dimuatkan.
- Lihat pada panel tetapan di sebelah kanan dan cari bahagian 'Experimental Features'.
- Cari pilihan 'Flash Attention' dan klik toggle untuk mengaktifkannya (ON).
- Skrol ke bahagian tetapan hardware untuk mencari pilihan 'KV Cache Quantization'.
- Aktifkan kedua-dua pilihan kompresi data (K Cache dan V Cache) dengan klik pada toggle yang disediakan.
- Tukar tahap quantization bagi kedua-dua cache tersebut kepada nilai yang lebih rendah, contohnya pilih '4' (quant 4) untuk penjimatan VRAM maksimum.
- Laras bar 'Context Window' ke nilai yang lebih tinggi (contoh: 128,000 tokens) untuk memproses input yang panjang.
- Klik butang 'Load Model' untuk memulakan model dengan konfigurasi prestasi yang telah dioptimumkan.
- Perhatikan penggunaan memori pada GPU monitor untuk memastikan VRAM tidak melimpah (max out).