Verkkosivut

On mahdollista yhdistää ulkoisia verkkosivuja Intriciin käyttääksesi niiden tietoa osana avustajien tietokantaa. Indeksoimalla (crawlaamalla) verkkosivun avustaja voi vastata kysymyksiin perustuen erityiseen sisältöön organisaatiostasi, dokumentaatiosivuista tai julkisista resursseista.

Miten tehdä se

  1. Kirjaudu Intriciin ja etsi “Websites” ylävalikosta.

  2. Klikkaa “Connect website” -painiketta.

  3. Täytä tiedot konfiguraatioikkunassa:

    • URL: Liitä linkki valittuun verkkosivuun.

    • Crawl method: Valitse menetelmä, joka sopii parhaiten tarkoitukseen (katso selitys alla).

    • Text embedding model (Embedding): Valitse malli.

      • Best practice: Aktivoi vain yksi embedding-malli per turvallisuusluokka välttääksesi, että ladattu tieto muuttuu saavuttamattomaksi vaihdettaessa malleja.
    • Update interval: Valitse, kuinka usein Intricin pitäisi hakea uutta tietoa sivulta.

Vinkki: Tarkempi URL antaa usein parempia tuloksia. On tehokkaampaa valita alidomaini tai erityinen polku asiaankuuluvalla tiedolla (esim. intric.ai/docs) sen sijaan, että valitsisi koko verkkosivun (intric.ai).

Syvempi sukellus: Menetelmä – Crawling

Crawling tarkoittaa, että Intric lukee systemaattisesti verkkosivun sivuja. On kaksi menetelmää kontrolloida, miten Intric löytää sisällön:

  • Basic Crawl: Intric aloittaa määritellystä URL:sta ja seuraa sitten sisäisiä linkkejä löytääkseen uutta sisältöä. Se toimii suunnilleen kuin ihmisvierailija klikkaamalla sivulta toiselle.
  • Sitemap: Intric lukee verkkosivun oman “sisällysluettelon” (sitemap.xml-tiedosto). Tämä on tehokasta erittäin suurille verkkosivuille, mutta vaatii, että verkkosivulla on oikein konfiguroitu sitemap-tiedosto.
MenetelmäEdutHaitat
Basic CrawlItsenäinen & Kattava: Löytää automaattisesti kaiken sisällön, jonka käyttäjä voi nähdä. Ei vaadi teknistä konfiguraatiota verkkosivulle.Resurssi-intensiivinen: Kestää kauemmin indeksoida koko sivu ja on riski, että merkityksettömiä sivuja crawlaa, jos et rajoita syvyyttä.
SitemapNopea & Tarkka: Sinulla on täydellinen kontrolli siitä, mitkä sivut indeksoidaan xml-tiedoston kautta. Erittäin tehokas suurille verkkosivuille.Tekninen riippuvuus: Vaatii, että verkkosivulla on oikein päivitetty sitemap-tiedosto. Ei löydä mitään, mikä puuttuu listalta.

Suositus: Suosituksemme on, että valtaosassa tapauksia käytä “basic crawl” -menetelmää. Se ei vaadi teknistä valmistelua verkkosivulle ja varmistaa, että avustaja löytää kaiken sisällön, joka on näkyvissä tavalliselle käyttäjälle.