Siirry sisältöön

Asennus- ja määritysopas

Tämä opas käy läpi intranet-crawlerin koko käyttöönoton ensimmäisistä asetuksista siihen, että työkalu on käytössä avustajillasi. Tarvitset järjestelmänvalvojan oikeudet Intricissä ja teet yleensä yhteistyötä IT:n tai intranet-vastaavien kanssa.

Katso kattava kuvaus ominaisuuksista ja turvallisuudesta alla olevasta artikkelista.

Ennen aloitusta varmista:

  • Sinulla on järjestelmänvalvojan oikeudet Intric-tenantissa
  • MCP-moduuli on käytössä tenantilla
  • Tiedätte, mikä intranet-sisältö indeksoidaan
  • Olette luoneet tai valinneet palvelutilin, jolla on sopivat oikeudet intranetissa
  • Intranet on saavutettavissa HTTPS:n yli
  • Ymmärrätte intranetin tunnistautumisvaatimukset

Siirry kohdassa MCP servers Intricin hallintakäyttöliittymässä.

Napsauta Create ja anna kuvaava nimi, esim. «Organisaation intranet-crawler» tai «Henkilöstöoppaan haku».

Tietue luodaan. Voit jatkaa yhteysasetusten määritystä.

Vaihe 2: Määritä palvelimen URL ja tunnistautuminen

Osio nimeltä “Vaihe 2: Määritä palvelimen URL ja tunnistautuminen”

Muokkaa uutta palvelinta ja täytä:

Anna intranet-crawler-palvelun HTTPS-päätepiste. Intric toimittaa URL:n käyttöönoton yhteydessä.

Esimerkki: https://crawler.yourcompany.intric.app/mcp

Valitse tunnistautumistyyppi API key.

Anna API-avain, joka luotiin crawler-palvelun käyttöönotossa. Avain todentaa Intricin kutsut crawleriin ja tallennetaan levossa salattuna.

Turvallisuus: Säilytä avain turvallisesti. Tallennuksen jälkeen sitä ei näytetä käyttöliittymässä; näkyy vain, onko avain asetettu.

Lisää kuvaus muiden ylläpitäjien hyödyksi, esim.:

«Indeksoi henkilöstöoppaan, HR-käytännöt ja IT-dokumentaation sisäisestä intranetista.»

Tallenna määritys. Intric tunnistaa automaattisesti toiminnot Search Intranet ja Correct Intranet (näillä nimillä alustalla).

Crawl-kohteet määrittävät, mitkä sivut crawler käy ja indeksoi.

MCP-palvelimen asetuksissa siirry kohtaan Crawl targets.

Lisää URL-osoitteet jokaiselle indeksoitavalle alueelle. Kullekin kohteelle:

  • URL — Crawlin aloituspiste (esim. https://intranet.yourcompany.com/handbook)
  • Crawl depth (valinnainen) — Montako linkkitasoa seurataan aloitus-URL:stä
  • URL patterns (valinnainen) — Sisällytä tai sulje pois URL-malleja

Esimerkki:

URL: https://intranet.yourcompany.com/handbook
Depth: 2
Include patterns: /handbook/*, /policies/*
Exclude patterns: /archive/*, /draft/*

Tämä indeksoi oppaan ja linkitetyt käytännöt, mutta ohittaa arkiston ja luonnokset.

Vaihe 4: Määritä crawlerin tunnistautuminen

Osio nimeltä “Vaihe 4: Määritä crawlerin tunnistautuminen”

Crawler tarvitsee tunnukset intranetin käyttöön. Konfiguraatio riippuu tunnistautumistavasta.

Perustunnistautuminen tai lomakkeella kirjautuminen

Osio nimeltä “Perustunnistautuminen tai lomakkeella kirjautuminen”

Anna palvelutilin käyttäjätunnus ja salasana.

Tärkeää: Määritä käytettävä palvelutili ja varmista, että sillä on:

  • Pääsy kaikkeen indeksoitavaan sisältöön
  • Ei pääsyä sisältöön, joka pitää pitää rajattuna
  • Vahva, yksilöllinen salasana
  • Tarvittaessa tarkastuslokitus

Jos intranet vaatii useita vaiheita (esim. salasana ja turvallisuuskysymys), tee yhteistyötä Intricin teknisen tiimin kanssa.

Toimita:

  • Vaiheittaiset ohjeet kirjautumiseen
  • Mahdolliset turvallisuuskysymykset ja vastaukset
  • Tiedot istunnon vanhenemisesta

Huom: CAPTCHA- tai laitepohjaista kaksivaiheista tunnistautumista ei tueta tällä hetkellä.

Jos intranet käyttää kertakirjautumista tai OAuthia, ota yhteyttä Intricin tukeen.

Vaihe 5: Määritä asiakirjojen poiminta

Osio nimeltä “Vaihe 5: Määritä asiakirjojen poiminta”

Crawler voi poimia ja indeksöidä eri tiedostotyyppejä intranetissa.

Kohdassa Document extraction määritä:

  • Supported file types — PDF, Word, Excel jne.
  • Maximum file size — Suuremmat tiedostot ohitetaan
  • Text extraction method — Miten tyypit käsitellään

Suositellut asetukset:

Supported types: PDF, DOCX, XLSX, TXT
Maximum size: 10 MB
Extract text from: Body content, document metadata, embedded text

Määritä, kuinka usein sisältö indeksoidaan uudelleen.

Oletus on kerran päivässä (klo 02.00 UTC), mikä sopii monille organisaatioille. Säädä:

  • Sisällön päivitystiheyden
  • Järjestelmäkuorman
  • Intranetin koon

Esimerkkejä:

  • Staattinen sisältö (oppaat, käytännöt): kerran viikossa
  • Säännöllisesti päivittyvä (uutiset): kerran päivässä
  • Hyvin muuttuva sisältö: onko crawler oikea työkalu

Rate limiting: Crawlerissa on sisäänrakennettu rajoitus intranet-palvelimen kuorman välttämiseksi. Tarkista oletukset ja säädä tarvittaessa.

Ennen tuotantoa:

  1. Napsauta Validate connection varmistaaksesi yhteyden ja tunnistautumisen
  2. Tarkista tila:
    • OK — Kaikki kunnossa
    • Unauthorized — Tarkista palvelutili
    • Failed — Tarkista URL ja verkko
  3. Käynnistä manuaalinen testicrawl sisällön poiminnan varmistamiseksi
  4. Lue crawl-lokit
  5. Etsi tunnistautumis- tai oikeusvirheitä

Vaihe 8: Ota työkalu käyttöön tenantilla

Osio nimeltä “Vaihe 8: Ota työkalu käyttöön tenantilla”

Kun testit on tehty:

  1. Siirry hallinnassa kohtaan Tools
  2. Etsi intranet-crawler luettelosta
  3. Ota se käyttöön tenantillasi
  4. Määritä tarvittaessa turvallisuusluokitus

Työkalu on käytettävissä avustajissa.

Jotta käyttäjät voivat käyttää crawleria:

  1. Avaa tai luo avustaja Spacessa
  2. Siirry avustajan Tools -asetuksiin
  3. Lisää intranet-crawler-työkalu
  4. Tallenna avustaja

Käyttäjät voivat pyytää avustajaa hakemaan intranet-sisältöä keskusteluissa.

Kun käyttäjät ehdottavat korjauksia:

  1. Korjaukset näkyvät hallintapaneelissa Intranet corrections
  2. Arvioi jokainen ehdotus
  3. Vaihtoehdot:
    • Accept — Hyväksy sellaisenaan
    • Modify — Muokkaa ennen hyväksyntää
    • Reject — Hylkää valinnaisella palautteella

Hyväksytyt korjaukset päivittävät hakemiston seuraavalla crawl-kierroksella.

  • Luo crawlerille oma tili
  • Anna vain välttämättömät oikeudet
  • Käytä vahvaa, yksilöllistä salasanaa
  • Ota käyttöön lokitus
  • Tarkista käyttöoikeudet säännöllisesti
  • Valitse huolellisesti indeksoitavat alueet
  • Jätä pois arkaluontoinen HR-, talous- tai luottamuksellinen aineisto
  • Käytä URL-malleja hyväksyttyihin alueisiin
  • Tarkista indeksoitu sisältö säännöllisesti
  • Määritä turvallisuusluokituksen säännöt intranet-crawlerille
  • Rajoita, millä avustajilla työkalu on
  • Harkitse erikoisavustajia herkille alueille
  • Käytä Space-oikeuksia intranet-avustajien käyttäjiin
OngelmaRatkaisu
”Server URL is not set”Muokkaa MCP-palvelinta ja anna kelvollinen HTTPS-URL
”Unauthorized” validoinnissaTarkista palvelutili ja oikeudet
Ei hakutuloksiaTarkista crawl-lokit ja crawl-kohteet
Tunnistautuminen epäonnistuu toistuvastiTarkista monivaihemääritys ja istuntojen vanheneminen
Crawl on hidasPienennä syvyyttä tai rajaa URL-malleja; säädä rate limiting
Väärä sisältö indeksoituuTarkenna include/exclude-malleja; tarkista palvelutili
Korjaukset eivät näyVarmista Correct Intranet käytössä; tarkista käyttöoikeudet

Ongelmissa tai monimutkaisessa tunnistautumisessa ota yhteyttä Intricin tukeen ja kerro:

  • Tenantin nimi
  • MCP-palvelimen nimi
  • Kuvakaappaukset virheistä
  • Crawl-lokien otteet (tarvittaessa)
  • Kuvaus intranetin tunnistautumistavasta