Alpha Prompts Benchmarks Tools Workflows Newsletter

AI workers for your business

Automate your ad creatives

Enable Flash Attention dan Quantization dalam LM Studio untuk performance boost

Cara mengaktifkan Flash Attention dan KV Cache Quantization untuk mengurangkan penggunaan VRAM dan melajukan model apabila menggunakan context window yang besar.

LM Studio Optimization AI Tools

Segment Details

Source Video Time - 13:42

Duration 1.6 mins

Learning Timeline

Key Insights

Kelebihan Flash Attention

Flash Attention berfungsi seperti 'budak malas yang bijak'. Ia tidak menyimpan keseluruhan jadual perbandingan token (matrix) dalam memori, sebaliknya memproses token dalam bentuk 'chunks' menggunakan rutin GPU yang dioptimumkan. Ini meningkatkan kelajuan dan mengurangkan beban VRAM secara drastik.

Kesan Quantization pada VRAM

Semakin rendah nilai quantization yang dipilih (contohnya 4-bit berbanding 8-bit), semakin sedikit ruang VRAM yang digunakan. Ini sangat membantu jika anda ingin menggunakan 'Context Window' yang besar (seperti 128k tokens) pada GPU yang mempunyai kapasiti memori terhad.

Tips Prestasi Semasa Merakam

Jika anda sedang melakukan rakaman skrin atau menggunakan aplikasi grafik lain yang menggunakan GPU, pastikan tetapan quantization diaktifkan untuk mengelakkan model menjadi perlahan atau 'stuttering' kerana kedua-dua aplikasi berkongsi sumber hardware yang sama.

Step by Step

Cara Mengaktifkan Flash Attention & KV Cache Quantization

Buka LM Studio dan pilih model yang ingin dimuatkan.
Lihat pada panel tetapan di sebelah kanan dan cari bahagian 'Experimental Features'.
Cari pilihan 'Flash Attention' dan klik toggle untuk mengaktifkannya (ON).
Skrol ke bahagian tetapan hardware untuk mencari pilihan 'KV Cache Quantization'.
Aktifkan kedua-dua pilihan kompresi data (K Cache dan V Cache) dengan klik pada toggle yang disediakan.
Tukar tahap quantization bagi kedua-dua cache tersebut kepada nilai yang lebih rendah, contohnya pilih '4' (quant 4) untuk penjimatan VRAM maksimum.
Laras bar 'Context Window' ke nilai yang lebih tinggi (contoh: 128,000 tokens) untuk memproses input yang panjang.
Klik butang 'Load Model' untuk memulakan model dengan konfigurasi prestasi yang telah dioptimumkan.
Perhatikan penggunaan memori pada GPU monitor untuk memastikan VRAM tidak melimpah (max out).

More from AI Lokal & Deployment Open Source

Install dan jalankan AI model Smollm2 secara offline dengan Docker

Automasikan task web browser guna Local LLM (Ollama) & DeepSeek

Browser Use Ollama

Setup model GPT-OSS menggunakan LM Studio CLI

LM Studio OpenAI

Setup Context Window setting dalam LM Studio untuk memori AI lebih baik

LM Studio OpenAI Tokenizer

Panduan run Llama 3.1 secara local guna LM Studio

LM Studio Llama 3.1

Bina AI Tutor Socratic Sendiri dengan Open WebUI dan Prompt Khas

Open WebUI Claude