ParsXtract

Template Builder

En template bestemmer hvilke felter der udtrækkes fra din PDF. Felter kan udtrækkes med regex (tekst-søgning) eller bbox (et markeret område).

Felterregexbbox

UI-overblik

Sådan ser Template Builder ud (illustration)

  1. Upload/åbn en PDF.
  2. Klik og træk for at markere et felt (bbox) direkte i dokumentet.
  3. Giv feltet en stabil key (bliver nøgle i API-output).
  4. Gem templaten og brug templateId i /api/v1/parse.
Tip: BBox er bedst når layoutet er stabilt. Regex er bedst når labels/tekst er stabilt.

Template Builder

Markér felter i PDF

invoice_number
issue_date
total_amount

Felter

invoice_number

Tekst • markeret

issue_date

Dato • markeret

total_amount

Beløb • markeret

Tip: Klik i PDF’en for at tilføje nye felter eller justér eksisterende markeringer.
AI-forslagFelt-markeringTemplates

Grundbegreber

Hvad en template er, og hvordan udtræk fungerer

  • En template består af en liste af felter.
  • Hvert felt skal have en stabil key (bruges i API response).
  • regex-felter finder værdier via mønstre i udtrukket tekst.
  • bbox-felter udtrækker tekst fra et markeret rektangel på en bestemt side.

Regex-felter

Bedst når labels/tekst er ens fra dokument til dokument

Brug pattern til at fange en værdi (typisk med en capture group ( ... )).
Hold key i lowercase og stabil (fx invoice_number).
Tip: test på flere PDF’er, så mønsteret ikke bliver for skrøbeligt.

BBox-felter (markerede områder)

Bedst når layoutet er stabilt, men labels varierer eller mangler

  • Et bbox-felt har en mark med page og rect.
  • rect er normaliserede koordinater (værdier i 0..1) der beskriver et rektangel på siden.
  • Hvis PDF’en/layout ændrer sig, kan markeringen kræve justering.