RAG e qualità dei dati
Introduzione
Sezione intitolata “Introduzione”🎯 Obiettivi di apprendimento
Dopo aver letto la sezione 5 sarai in grado di:
- Adattare i prompt RAG per diverse fonti e tipi di dati
- Gestire allucinazioni e informazioni contraddittorie
- Usare il meta-prompting per migliorare e generare prompt
- Applicare metodi di miglioramento iterativo
Come già accennato, i modelli hanno fondamentalmente accesso solo alle conoscenze su cui sono stati addestrati. Per garantire che abbiano accesso ai dati rilevanti, dobbiamo fornirglieli in diversi modi. Un limite noto è la finestra di contesto, ma con RAG possiamo comunque fornire loro grandi quantità di dati.
Cos'è RAG?
RAG (Retrieval-Augmented Generation) consente a un modello AI, invece di affidarsi esclusivamente alle sue conoscenze addestrate, di gestire grandi quantità di dati che forniamo senza riempire la finestra di contesto. Quando carichi un documento in un sistema RAG, viene automaticamente suddiviso in pezzi di testo più piccoli chiamati chunk — un po’ come tagliare un lungo rapporto in singoli paragrafi. Pensa a un manuale di 80 pagine: invece di inviare l’intero manuale al modello ad ogni query, il sistema seleziona i paragrafi giudicati più rilevanti per la tua specifica query e li invia solo quelli.
Senza RAG il modello sa solo ciò su cui è stato addestrato. Con RAG può:
- Rispondere in base ai tuoi documenti e alle tue normative
- Fornire informazioni con riferimenti alle fonti
Questo influenza come dovresti fare prompting:
- Il modello non vede sempre l’intero documento — solo le parti che il sistema ha giudicato rilevanti
- Le domande specifiche aiutano il sistema a trovare i paragrafi giusti
- Chiedi esplicitamente una prospettiva complessiva quando ne hai bisogno: “Riassumi le conclusioni generali del documento basandoti su tutte le parti”
- Le domande brevi e chiare trovano spesso il chunk giusto meglio delle domande lunghe e complesse
Suggerimento 1: Istruisci il modello a citare le sue fonti
Rispondi alla domanda in base ai documenti forniti.Cita il paragrafo della fonte pertinente per ogni affermazione.Suggerimento 2: Istruisci il modello a essere onesto sulle lacune informative
Rispondi SOLO in base ai documenti forniti.Se l'informazione manca, indica:"Questo non risulta dai documenti forniti."Ridurre il rischio di allucinazioni
I modelli linguistici a volte possono presentare informazioni errate con grande sicurezza — risposte che sembrano credibili ma non sono accurate. Questo si chiama allucinazione. Accade perché i modelli lavorano statisticamente con il linguaggio: prevedono costantemente quale parola è più probabile che venga dopo, in base ai pattern nei dati di addestramento. Questo significa che quando il modello affronta una domanda a cui non riesce a rispondere, è statististicamente più probabile che generi una risposta plausibile piuttosto che non dire nulla.
Tre modi per ridurre il rischio:
1. Limita il modello a ciò che contengono i documenti e dagli una “via d’uscita”
Rispondi alla domanda SOLO in base ai documenti seguenti.Se la risposta non è nei documenti, rispondi:"Questo non risulta dai documenti forniti."2. Richiedi la citazione della fonte per ogni affermazione
Un modello che deve citare una fonte per ogni affermazione rimane più facilmente con informazioni fattuali.
3. Chiedi al modello di segnalare l’incertezza
Indica sempre se sei incerto o se l'informazioneè poco chiara nel documento fonte.Gestire informazioni contraddittorie
Uno degli scenari più difficili si presenta quando i tuoi documenti dicono cose diverse. Una policy del 2022 può contraddire una versione aggiornata del 2024. Il modello non sa automaticamente quale si applica.
Istruisci il modello a identificare i conflitti:
Se documenti diversi forniscono informazioni contraddittorie,identifica il conflitto esplicitamente e indica quali documentisono coinvolti. Non prendere posizione su quale versione siapplica senza che io lo specifichi.Specifica un ordine di priorità:
Se le fonti si contraddicono, prioritizza in questo ordine:1. Documento datato 2024 o successivo2. Decisioni del team di gestione3. Altri documenti di policyQuando la tua Knowledge base contiene più documenti, devi essere esplicito su come devono essere ponderati.
Definisci una gerarchia delle fonti:
Hai accesso a tre documenti:1. Legge (si applica sempre)2. Policy interna (si applica se la legge lo consente)3. Manuale (orientamento, non vincolante)
Rispondi secondo questo ordine di priorità e indica sempresu quale fonte si basa ogni affermazione.Combina documenti con conoscenza generale:
Rispondi principalmente in base al documento allegato.Se il documento non copre la domanda, usa la tua conoscenzagenerale ma marcala chiaramente:"Basato sulla conoscenza generale, non sul documento:"Meta-prompting – chiedi al modello di migliorare il tuo prompt
Il meta-prompting significa che chiedi al modello di rivedere e migliorare il tuo prompt prima di rispondere alla domanda. Questo dà visibilità su come il modello interpreta le tue istruzioni e ti aiuta a costruire prompt migliori nel tempo.
Meta-prompting di base:
Passo 1: Rivedi il prompt seguente e identifica ambiguitào opportunità di miglioramento. Presenta una versione migliorata.
Passo 2: Poi rispondi alla domanda usando il prompt migliorato.
Il mio prompt: [Il tuo prompt originale]Revisione del prompt di sistema:
Sei un esperto nella progettazione di prompt di sistema per assistenti AI.Rivedi il prompt di sistema seguente e valuta:- La descrizione del ruolo è sufficientemente specifica?- Mancano direttive comportamentali?- Ci sono rischi di malinterpretazione?
Dai suggerimenti concreti per il miglioramento.Prompt di sistema: [Il tuo prompt]Genera un prompt di sistema da zero:
Voglio costruire un assistente che aiuti [chi] con [cosa].L'assistente dovrebbe [comportamento]. Non dovrebbe [vincoli].Scrivi un prompt di sistema per questo assistente.Rivedi e adatta sempre ciò che il modello propone — trattalo come una bozza da raffinare.
Suggerimento: Nella libreria c’è un esperto di prompt che puoi importare e usare per ottenere aiuto nella scrittura di prompt. Digli che tipo di assistente vuoi costruire e ti aiuterà a iterare verso un prompt adatto. library.intric.ai
Miglioramento iterativo a livello professionale
Nel corso base abbiamo esaminato il processo di base: scrivi, testa, valuta, aggiusta, ripeti. Il livello avanzato aggiunge tre integrazioni:
Prompting test-driven: Crea casi di test prima di raffinare il prompt:
- 3–5 casi tipici che il prompt deve gestire correttamente
- 2–3 combinazioni insolite e casi limite
- 1–2 casi in cui qualcuno cerca di guidare l’assistente nella direzione sbagliata
Lascia che il modello si riveda:
Valuta la risposta seguente in base ai seguenti criteri: [criteri].Dai un punteggio da 1 a 5 e un feedback concreto per ogni criterio.La risposta: [Risposta da valutare]Compressione del prompt
Ogni parola occupa spazio nella finestra di contesto. È possibile una compressione significativa senza perdere l’intento.
Inutilmente lunga:
Potresti essere così gentile da aiutarmi a dare un'occhiata a questodocumento e assicurarti di riassumere i punti più importantiin modo chiaro e strutturato, preferibilmente in forma di elenco?Compressa:
Riassumi i punti più importanti del documento. Formato: elenco puntato.Rimuovi: “potresti essere così gentile”, “assicurarti di”, “preferibilmente” — non aggiungono nulla.
Output anchoring – predetermina la struttura della risposta
L’output anchoring significa che dai al modello un modello da riempire, piuttosto che chiedere una risposta libera.
Risposta libera:
Analizza il caso e dai la tua valutazione.Con output anchoring:
Analizza il caso seguente e compila il modello:
Titolo del caso:Valutazione:Rischi:Raccomandazione:Prossimi passi:Lavorare con diversi tipi di dati
I modelli linguistici sono addestrati su grandi quantità di testo e sono naturalmente bravi con il testo scorrevole come rapporti, documenti di policy e manuali. I dati strutturati come i fogli di calcolo funzionano anche, ma pongono richieste diverse perché i file Excel perdono la loro formattazione visiva quando vengono convertiti in testo. Ciò significa che cose come il significato delle colonne, le righe di intestazione e le celle vuote possono diventare ambigue. Ecco perché devi pensare a due cose: cosa invii e come lo descrivi.
Come sempre, dovresti dare al modello solo ciò di cui ha bisogno. Prima di caricare o incollare i dati, rimuovi ciò che non è rilevante per il compito. Il file ha 20 colonne ma solo 3 sono rilevanti? Rimuovi le altre. Lo stesso vale per le righe — filtra i dati irrilevanti in anticipo. Più informazioni inutili riceve il modello, maggiore è il rischio che si concentri su ciò che è sbagliato o trascuri ciò che è davvero importante.
Nota: In Intric abbiamo costruito strumenti che nel backend aiutano i modelli a gestire questo tipo di dati. Ma un buon prompt è un buon complemento.
Descrivi la struttura. Inizia il prompt spiegando come sono organizzati i dati:
Di seguito una tabella con dati di progetto esportati da Excel.Colonne: Progetto | Responsabile | Data di inizio | Budget (EUR) | Risultato (EUR) | StatoLa riga 1 contiene le intestazioni delle colonne. I dati iniziano dalla riga 2. Le celle vuote nellacolonna Risultato significano che il progetto non è ancora stato completato.
Domanda: Quali progetti hanno superato il loro budget?Sii specifico su cosa vuoi. Il modello può fare molte cose con gli stessi dati — riassumere, filtrare, confrontare, identificare deviazioni. Le richieste vaghe producono risposte vaghe:
| Vago | Chiaro |
|---|---|
| ”Analizza la tabella" | "Elenca i tre progetti con il maggiore sforamento del budget" |
| "Cosa puoi vedere?" | "Ci sono pattern in quali responsabili hanno progetti in ritardo?" |
| "Riassumi i dati" | "Calcola il risultato totale per categoria di stato” |
Pensa anche a chiarire i formati che potrebbero essere ambigui — se le date sono scritte come 2024-01-15 o 15/1/24, o se i numeri decimali usano un punto o una virgola. Sono dettagli che il modello non può indovinare.
Riepilogo
Sezione intitolata “Riepilogo”- RAG e chunk: il modello non vede l’intero documento — solo i paragrafi che il sistema ha giudicato rilevanti
- Le allucinazioni si riducono limitando il modello ai documenti, richiedendo citazioni delle fonti e istruendo sull’incertezza
- Le informazioni contraddittorie richiedono che tu specifichi esplicitamente un ordine di priorità
- Il meta-prompting permette al modello di rivedere, migliorare e generare prompt
- L’iterazione professionale include test strutturati e gestione delle versioni
- I tipi di dati richiedono strategie diverse: testo scorrevole, tabelle e contenuti misti vengono gestiti in modi diversi
Metti alla prova le tue conoscenze
4 domande · 100% per superarlo · Rivedi le risposte al termine