Ekstrak data berstruktur dari dokumen kompleks guna Pydantic Schema | Alpha | PandaiTech

Ekstrak data berstruktur dari dokumen kompleks guna Pydantic Schema

Cara mendefinisikan skema input/output menggunakan Pydantic untuk memaksa LLM mengeluarkan data dalam format JSON yang kemas dan tepat.

Learning Timeline
Key Insights

Eksplorasi Data vs Skema Tegas

Jika anda tidak pasti struktur dokumen, anda boleh menggunakan dictionary object kosong untuk membiarkan LLM menentukan 'key-value pairs' yang penting secara autonomi.

Kelebihan Dot Notation

Menggunakan Pydantic membolehkan anda mengakses hasil AI seperti objek kod biasa (dot notation), yang jauh lebih bersih dan kurang ralat berbanding parsing JSON secara manual.

Debugging dengan Inspect History

Sentiasa gunakan 'inspect_history' untuk melihat bagaimana prompt dibina secara automatik. Ini membantu anda memahami bagaimana field input dan output dipetakan sebelum sampai ke LLM.
Step by Step

Mendefinisikan Skema Pydantic untuk Ekstraksi Data Dokumen

  1. Takrifkan kelas Pydantic (typical Pydantic classes) untuk menentukan struktur data yang ingin diekstrak (contoh: filing date, form type, transactions).
  2. Bina 'Signature' penganalisis dokumen dengan menetapkan 'Input Field' yang akan menerima dokumen (teks dan imej via attachments).
  3. Masukkan parameter 'document_schema' ke dalam Signature tersebut menggunakan kelas Pydantic yang telah dicipta untuk memaksa format output yang spesifik.
  4. Gunakan 'Chain of Thought' (CoT) bersama Signature tersebut untuk memproses dokumen secara mendalam.
  5. Akses data hasil ekstraksi menggunakan 'dot notation' (cth: response.document_schema.filing_date) untuk integrasi terus ke dalam kod anda.
  6. Gunakan fungsi 'inspect_history' untuk melihat 'raw dump' mesej sistem dan bagaimana AI memproses input tersebut di sebalik tabir.