Siti web

È possibile collegare siti web esterni a Intric per usare le loro informazioni come parte della base di conoscenza degli assistenti. Indicizzando (crawling) un sito web, l’assistente può rispondere a domande basate su contenuti specifici dalla tua organizzazione, pagine di documentazione o risorse pubbliche.

Come farlo

  1. Accedi a Intric e localizza “Siti web” nel menu in alto.

  2. Clicca il pulsante “Collega sito web”.

  3. Compila le informazioni nella finestra di configurazione:

    • URL: Incolla il link al sito web selezionato.

    • Metodo di crawling: Scegli il metodo che meglio si adatta allo scopo (vedi spiegazione sotto).

    • Modello di text embedding (Embedding): Seleziona modello.

      • Best practice: Attiva solo un modello di embedding per classe di sicurezza per evitare che la conoscenza caricata diventi inaccessibile quando cambi modelli.
    • Intervallo di aggiornamento: Scegli quanto spesso Intric dovrebbe recuperare nuove informazioni dalla pagina.

Suggerimento: Un URL più specifico spesso dà risultati migliori. È più efficiente scegliere un sottodominio o percorso specifico con informazioni rilevanti (ad esempio, intric.ai/docs) piuttosto che un intero sito web (intric.ai).

Approfondimento: Metodo – Crawling

Crawling significa che Intric legge sistematicamente le pagine su un sito web. Ci sono due metodi per controllare come Intric trova contenuti:

  • Basic Crawl: Intric inizia all’URL specificato e poi segue link interni per scoprire nuovo contenuto. Funziona approssimativamente come un visitatore umano che clicca da pagina a pagina.
  • Sitemap: Intric legge la “tabella dei contenuti” del sito web (un file sitemap.xml). Questo è efficiente per siti web molto grandi, ma richiede che il sito web abbia un file sitemap configurato correttamente.
MetodoVantaggiSvantaggi
Basic CrawlAutosufficiente e Completo: Trova automaticamente tutto il contenuto che un utente può vedere. Non richiede configurazione tecnica del sito web.Intensivo in risorse: Richiede più tempo per indicizzare un’intera pagina e c’è il rischio che pagine irrilevanti siano crawlizzate se non limiti la profondità.
SitemapVeloce ed Esatto: Hai pieno controllo su esattamente quali pagine sono indicizzate tramite un file xml. Molto efficiente per siti web grandi.Dipendenza tecnica: Richiede che il sito web abbia un file sitemap aggiornato correttamente. Non trova nulla che manca dall’elenco.

Raccomandazione: Nella stragrande maggioranza dei casi, usa “basic crawl”. Non richiede preparazione tecnica del sito web e garantisce che l’assistente trovi tutto il contenuto che è visibile a un utente regolare.