RAG og datakvalitet
Introduksjon
Section titled “Introduksjon”🎯 Læringsmål
Når du er ferdig med å lese avsnitt 5 skal du kunne:
- Tilpasse RAG-prompts for ulike datakilder og datatyper
- Håndtere hallusinasjoner og motstridende informasjon
- Bruke meta-prompting for å forbedre og generere prompts
- Anvende iterative forbedringsmetoder
Som tidligere nevnt har modellene i bunn og grunn bare tilgang til den kunnskapen de er trent på. For å sikre at de har tilgang til relevante data, må vi gi dem den på ulike måter. En kjent begrensning der er kontekstvinduet, men med RAG kan vi likevel gi dem store mengder data.
Hva er RAG?
RAG (Retrieval-Augmented Generation) gjør at en AI-modell, i stedet for å bare støtte seg på sin trente kunnskap, kan håndtere at vi gir den store mengder data uten at kontekstvinduet fylles opp. Når du laster opp et dokument i et RAG-system deles det automatisk opp i mindre tekstbiter som kalles chunks — omtrent som å klippe en lang rapport i enkeltavsnitt. Tenk deg en 80-siders håndbok: i stedet for å sende hele håndboken til modellen ved hvert spørsmål, plukker systemet ut avsnittene som vurderes som mest relevante for nettopp ditt spørsmål og sender bare dem.
Uten RAG vet modellen bare det den ble trent på. Med RAG kan den:
- Svare basert på dokumentene dine og regelverket ditt
- Gi informasjon med kildehenvisning
Dette påvirker hvordan du bør prompte:
- Modellen ser ikke alltid hele dokumentet — bare de delene systemet har vurdert som relevante
- Spesifikke spørsmål hjelper systemet å finne riktige avsnitt
- Be eksplisitt om et helhetsperspektiv når du trenger det: “Oppsummer dokumentets overordnede konklusjoner basert på alle deler”
- Korte, tydelige spørsmål finner ofte riktig chunk bedre enn lange, komplekse spørsmål
Tips 1: Instruer modellen til å sitere kildene sine
Besvar spørsmålet basert på de medfølgende dokumentene.Siter det relevante kildeavsnittet for hvert påstand.Tips 2: Instruer modellen til å være ærlig om informasjonshull
Svar BARE basert på de medfølgende dokumentene.Hvis informasjonen mangler, angi:"Dette fremgår ikke av de medfølgende dokumentene."Redusere risikoen for hallusinasjoner
Språkmodeller kan av og til presentere feil informasjon med stor sikkerhet — svar som høres troverdige ut men ikke stemmer. Dette kalles hallusinasjon. Det skyldes at modeller arbeider statistisk med språk: de forutsier hele tiden hvilket ord som mest sannsynlig kommer neste, basert på mønstre i treningsdataene. Det betyr at når modellen stilles overfor et spørsmål den ikke kan besvare, er det statistisk sett mer sannsynlig at den genererer et plausibelt lydende svar enn at den sier ingenting.
Tre måter å redusere risikoen:
1. Begrens modellen til det dokumentene inneholder og gi den en “utvei”
Besvar spørsmålet BARE basert på dokumentene nedenfor.Hvis svaret ikke finnes i dokumentene, svar:"Dette fremgår ikke av de medfølgende dokumentene."2. Krev kildehenvisning for hvert påstand
En modell som må oppgi kilde for hvert påstand holder seg lettere til faktisk informasjon.
3. Be modellen flagge usikkerhet
Angi alltid om du er usikker eller om informasjonener uklar i kildedokumentet.Håndtere motstridende informasjon
Et av de vanskeligere scenariene oppstår når dokumentene dine sier ulike ting. En policy fra 2022 kan motsi en oppdatert versjon fra 2024. Modellen vet ikke automatisk hvilken som gjelder.
Instruer modellen til å identifisere konflikter:
Hvis ulike dokumenter gir motstridende opplysninger, identifiserkonflikten eksplisitt og angi hvilke dokumenter som er involvert.Ta ikke stilling til hvilken versjon som gjelder uten atjeg angir det.Angi prioritetsrekkefølge:
Hvis kildene motsier hverandre, prioriter i denne rekkefølgen:1. Dokumentet datert 2024 eller senere2. Beslutninger fra ledergruppa3. Øvrige policydokumenterNår kunnskapsbasen inneholder flere dokumenter, må du være eksplisitt om hvordan de skal vektes.
Definer kildehierarki:
Du har tilgang til tre dokumenter:1. Lov (gjelder alltid)2. Intern policy (gjelder hvis loven tillater det)3. Håndbok (veiledning, ikke bindende)
Svar ut fra denne prioritetsrekkefølgen og angi alltidhvilken kilde hvert påstand baseres på.Kombiner dokumenter med generell kunnskap:
Svar i første rekke basert på det vedlagte dokumentet.Hvis dokumentet ikke dekker spørsmålet, bruk din generellekunnskap men merk det tydelig:"Basert på generell kunnskap, ikke dokumentet:"Meta-prompting – be modellen forbedre prompten din
Meta-prompting betyr at du ber modellen gjennomgå og forbedre prompten din før den besvarer spørsmålet. Det gir innsikt i hvordan modellen tolker instruksjonene dine og hjelper deg å bygge bedre prompts over tid.
Grunnleggende meta-prompting:
Steg 1: Gjennomgå prompten nedenfor og identifiser uklarhetereller forbedringsmuligheter. Presenter en forbedret versjon.
Steg 2: Besvar deretter spørsmålet med den forbedrede prompten.
Min prompt: [Din opprinnelige prompt]Gjennomgang av systemprompt:
Du er ekspert på å designe systemprompts for AI-assistenter.Gjennomgå systempromptene nedenfor og vurder:- Er rollbeskrivelsen tilstrekkelig spesifikk?- Mangler atferdsdirektiver?- Finnes det risiko for feiltolkning?
Gi konkrete forbedringsforslag.Systemprompt: [Din prompt]Generer en systemprompt fra bunnen av:
Jeg vil bygge en assistent som hjelper [hvem] med [hva].Assistenten skal [atferd]. Den skal ikke [begrensninger].Skriv en systemprompt for denne assistenten.Gjennomgå og juster alltid det modellen foreslår — se det som et utkast å foredle.
Tips: I biblioteket finnes det en promptekspert du kan importere og bruke for å få hjelp til å skrive prompts. Fortell den hva slags assistent du vil bygge, så hjelper den deg med å iterere frem en passende prompt. library.intric.ai
Iterativ forbedring på profesjonelt nivå
I grunnkurset gikk vi gjennom grunnprosessen: skriv, test, evaluer, juster, gjenta. Fordypningsnivået legger til tre tillegg:
Test-driven prompting: Lag testtilfeller før du finpusser prompten:
- 3–5 typiske tilfeller prompten skal håndtere korrekt
- 2–3 uvanlige kombinasjoner og ekstremtilfeller
- 1–2 tilfeller der noen prøver å styre assistenten i feil retning
La modellen vurdere seg selv:
Vurder svaret nedenfor basert på følgende kriterier: [kriterier].Gi karakter 1–5 og konkret tilbakemelding for hvert kriterium.Svaret: [Svar som skal vurderes]Prompt-komprimering
Hvert ord tar opp plass i kontekstvinduet. Stor komprimering er mulig uten å miste intensjonen.
Unødvendig lang:
Kunne du være så snill og hjelpe meg med å ta en titt på dettedokumentet og sørge for at du oppsummerer de viktigstepunktene på en tydelig og strukturert måte, gjerne i en punktliste?Komprimert:
Oppsummer dokumentets viktigste punkter. Format: punktliste.Fjern: “kunne du være så snill”, “sørge for at”, “gjerne” — de tilfører ingenting.
Output anchoring – forhåndsbestem svarstrukturen
Output anchoring betyr at du gir modellen en mal å fylle ut, i stedet for å be om et fritt svar.
Fritt svar:
Analyser saken og gi din vurdering.Med output anchoring:
Analyser saken nedenfor og fyll ut malen:
Sakstittel:Vurdering:Risikoer:Anbefaling:Neste steg:Å jobbe med ulike typer data
Språkmodeller er trent på store mengder tekst og er naturlig gode på løpende tekst som rapporter, policydokumenter og håndbøker. Strukturerte data som regneark fungerer også, men stiller andre krav fordi Excel-filer mister den visuelle formateringen sin når de konverteres til tekst. Det gjør at ting som kolonnebetydning, overskriftsrader og tomme celler kan bli tvetydige. Derfor må du tenke på to ting: hva du sender inn og hvordan du beskriver det.
Som alltid bør du bare gi modellen det den trenger. Før du laster opp eller limer inn data, fjern det som ikke er relevant for oppgaven. Har filen 20 kolonner men bare 3 er relevante? Ta bort de øvrige. Det samme gjelder rader — filtrer bort irrelevante data på forhånd. Jo mer unødvendig informasjon modellen får, desto større risiko for at den fokuserer feil eller overser det som faktisk er viktig.
Merk: I Intric har vi bygget verktøy som bak kulissene hjelper modellene å håndtere denne typen data. Men en god prompt er et godt supplement.
Beskriv strukturen. Start prompten med å forklare hvordan dataen er bygd opp:
Nedenfor er en tabell med prosjektdata eksportert fra Excel.Kolonner: Prosjekt | Ansvarlig | Startdato | Budsjett (NOK) | Resultat (NOK) | StatusRad 1 inneholder kolonneoverskrifter. Data begynner på rad 2. Tomme celler ikolonnen Resultat betyr at prosjektet ennå ikke er avsluttet.
Spørsmål: Hvilke prosjekter har overskredet budsjettet sitt?Vær spesifikk med hva du vil ha ut. Modellen kan gjøre mange ting med samme data — summere, filtrere, sammenligne, identifisere avvik. Vage oppfordringer gir vage svar:
| Vagt | Tydelig |
|---|---|
| ”Analyser tabellen" | "List de tre prosjektene med høyest budsjettoverskridelse" |
| "Hva kan du se?" | "Finnes det mønstre i hvilke ansvarlige som har forsinkede prosjekter?" |
| "Oppsummer dataen" | "Beregn totalt resultat per statuskategori” |
Tenk også på å klargjøre formater som kan være uklare — om datoer skrives som 2024-01-15 eller 15/1/24, eller om desimaltall bruker punktum eller komma. Det er detaljer modellen ikke kan gjette.
Oppsummering
Section titled “Oppsummering”- RAG og chunks: modellen ser ikke hele dokumentet — bare avsnittene systemet har vurdert som relevante
- Hallusinasjoner reduseres ved å begrense modellen til dokumentene, kreve kildehenvisning og instruere om usikkerhet
- Motstridende informasjon krever at du angir prioritetsrekkefølge eksplisitt
- Meta-prompting lar modellen gjennomgå, forbedre og generere prompts
- Profesjonell iterasjon inkluderer strukturert testing og versjonsbehandling
- Datatyper krever ulike strategier: løpende tekst, tabeller og blandet innhold håndteres på ulike måter
Test kunnskapen din
4 spørsmål · 100 % riktige for å bestå · Gå gjennom svar når du er ferdig