Zum Inhalt springen

Leitfaden zur Installation und Konfiguration

Dieser Leitfaden führt dich durch die komplette Einrichtung des Intranet-Crawlers – von der ersten Konfiguration bis zur Freischaltung des Tools für deine Assistenten. Du benötigst Admin-Rechte in Intric und arbeitest typischerweise mit IT oder Intranet-Verantwortlichen zusammen.

Einen Überblick über Funktionen und Sicherheit findest du im folgenden Artikel.

Bevor du startest, stelle sicher:

  • Du hast Admin-Berechtigungen in deinem Intric-Tenant
  • Das MCP-Modul ist für deinen Tenant aktiviert
  • Ihr wisst, welche Intranetinhalte indexiert werden sollen
  • Ihr habt ein Dienstkonto mit passenden Rechten auf dem Intranet angelegt oder ausgewählt
  • Euer Intranet ist per HTTPS erreichbar
  • Du verstehst die Authentifizierungsanforderungen eures Intranets

Öffne den Bereich MCP-Server in der Intric-Administration.

Klicke auf Erstellen und gib einen aussagekräftigen Namen ein, z. B. „Firmen-Intranet-Crawler“ oder „Handbuchsuche“.

Der Eintrag wird angelegt. Anschließend konfigurierst du die Verbindungsdaten.

Bearbeite den neuen Server und trage Folgendes ein:

Gib die HTTPS-Endpunkt-URL des Intranet-Crawler-Dienstes ein. Intric liefert diese URL während der Einrichtung.

Beispiel: https://crawler.yourcompany.intric.app/mcp

Wähle API-Schlüssel als Authentifizierungsart.

Trage den API-Schlüssel ein, der bei der Bereitstellung des Crawler-Dienstes erzeugt wurde. Er authentifiziert Intrics Aufrufe beim Crawler und wird verschlüsselt gespeichert.

Hinweis zur Sicherheit: Bewahre den Schlüssel sicher auf. Nach dem Speichern ist er in der Oberfläche nicht mehr sichtbar; es wird nur angezeigt, ob ein Schlüssel hinterlegt ist.

Ergänze eine Beschreibung für andere Admins, z. B.:

„Indexiert Mitarbeiterhandbuch, HR-Richtlinien und IT-Dokumentation aus dem internen Intranet.“

Speichere die Konfiguration. Intric erkennt automatisch die Funktionen Search Intranet und Correct Intranet (so in der Plattform benannt).

Crawl-Ziele legen fest, welche Seiten der Crawler besuchen und indexieren soll.

Öffne in der MCP-Server-Konfiguration den Abschnitt Crawl targets.

Füge URLs für jeden zu indexierenden Bereich hinzu. Pro Ziel gibst du an:

  • URL — Startpunkt des Crawls (z. B. https://intranet.yourcompany.com/handbook)
  • Crawl depth (optional) — Wie viele Link-Ebenen vom Start aus verfolgt werden
  • URL patterns (optional) — Muster zum Ein- oder Ausschließen von URLs

Beispiel:

URL: https://intranet.yourcompany.com/handbook
Depth: 2
Include patterns: /handbook/*, /policies/*
Exclude patterns: /archive/*, /draft/*

Damit werden Handbuch und verlinkte Policy-Seiten indexiert, Archiv und Entwürfe übersprungen.

Der Crawler braucht Zugangsdaten für euer Intranet. Die Konfiguration hängt von der Authentifizierungsmethode ab.

Trage Benutzername und Passwort des Dienstkontos ein.

Wichtig: Lege fest, welches Dienstkonto genutzt wird. Es muss haben:

  • Zugriff auf alle zu indexierenden Inhalte
  • Keinen Zugriff auf Inhalte, die geschützt bleiben sollen
  • Ein starkes, einzigartiges Passwort
  • Passendes Audit-Logging

Erfordert euer Intranet mehrere Schritte (z. B. Passwort und Sicherheitsfrage), arbeitet ihr mit dem technischen Team von Intric an dem Flow.

Bereitstellen:

  • Schritt-für-Schritt-Anleitung zum Login
  • Sicherheitsfragen und Antworten
  • Informationen zu Session-Timeouts

Hinweis: Abläufe mit CAPTCHA oder gerätebasierter Zwei-Faktor-Authentifizierung werden derzeit nicht unterstützt.

Nutzt euer Intranet Single Sign-On oder OAuth, wende dich für die passende Konfiguration an den Intric-Support.

Der Crawler kann verschiedene Dateitypen auf dem Intranet auslesen und indexieren.

Unter Document extraction legst du fest:

  • Supported file types — PDF, Word, Excel usw.
  • Maximum file size — Größere Dateien werden übersprungen
  • Text extraction method — Verarbeitung je Dateityp

Empfohlene Einstellungen:

Supported types: PDF, DOCX, XLSX, TXT
Maximum size: 10 MB
Extract text from: Body content, document metadata, embedded text

Lege fest, wie oft der Crawler neu indexiert.

Standard ist einmal täglich (02:00 UTC), passend für viele Organisationen. Passe an nach:

  • Wie oft sich Inhalte ändern
  • Systemlast
  • Größe des Intranets

Beispiele:

  • Statische Inhalte (Handbücher, Policies): einmal pro Woche
  • Regelmäßig aktualisierte Inhalte (News): einmal täglich
  • Sehr dynamische Inhalte: Prüfe, ob der Crawler das richtige Tool ist

Rate limiting: Der Crawler drosselt Anfragen, um euer Intranet nicht zu überlasten. Prüfe die Standardwerte und passe sie an eure Infrastruktur an.

Vor dem produktiven Einsatz:

  1. Klicke auf Validate connection, um Erreichbarkeit und Authentifizierung zu prüfen
  2. Prüfe den Verbindungsstatus:
    • OK — Konfiguration passt
    • Unauthorized — Dienstkonto prüfen
    • Failed — URL und Netzwerk prüfen
  3. Starte einen manuellen Test-Crawl zur Inhaltsextraktion
  4. Sieh dir die Crawl-Logs an
  5. Achte auf Auth- oder Berechtigungsfehler

Wenn alles getestet ist:

  1. Öffne den Bereich Tools in der Administration
  2. Finde den Intranet-Crawler in der Liste
  3. Aktiviere ihn für euren Tenant
  4. Konfiguriere bei Bedarf die Sicherheitsklassifizierung

Das Tool kann in Assistenten genutzt werden.

Damit Nutzer den Crawler nutzen können:

  1. Öffne oder erstelle einen Assistenten in einem Space
  2. Öffne die Tools-Konfiguration des Assistenten
  3. Füge den Intranet-Crawler hinzu
  4. Speichere den Assistenten

Nutzer können den Assistenten nun bitten, Intranetinhalte zu durchsuchen.

Wenn Nutzer Korrekturen vorschlagen:

  1. Die Vorschläge erscheinen im Admin-Bereich Intranet corrections
  2. Prüfe jeden Vorschlag
  3. Optionen:
    • Accept — wie eingereicht übernehmen
    • Modify — vor dem Übernehmen bearbeiten
    • Reject — ablehnen, optional mit Rückmeldung

Akzeptierte Korrekturen gehen im nächsten Crawl-Zyklus in den Suchindex ein.

  • Eigenes Konto nur für den Crawler
  • Minimal notwendige Rechte
  • Starkes, einzigartiges Passwort
  • Audit-Logging aktivieren
  • Zugriff regelmäßig prüfen
  • Bewusst wählen, welche Bereiche indexiert werden
  • Sensible HR-, Finanz- oder vertrauliche Projektdaten ausschließen
  • URL-Muster für freigegebene Bereiche nutzen
  • Indexierte Inhalte regelmäßig prüfen
  • Sicherheitsklassifizierung für den Intranet-Crawler setzen
  • Wenige Assistenten mit Crawler-Zugang
  • Ggf. spezialisierte Assistenten für sensible Bereiche
  • Space-Berechtigungen für Nutzer intranet-fähiger Assistenten
ProblemLösung
”Server URL is not set”MCP-Server bearbeiten und gültige HTTPS-URL eintragen
”Unauthorized” bei ValidierungDienstkonto und Rechte prüfen
Keine SuchtrefferCrawl-Logs prüfen; Crawl-Ziele prüfen
Authentifizierung schlägt fehlMehrstufigen Flow und Session-Timeouts prüfen
Crawl zu langsamCrawl-Tiefe oder URL-Muster einschränken; Rate limiting anpassen
Falsche Inhalte indexiertInclude/Exclude-Muster verfeinern; Dienstkonto prüfen
Korrekturen fehlenCorrect Intranet aktivieren; Nutzerrechte prüfen

Bei Problemen oder komplexer Authentifizierung kontaktiere den Intric-Support mit:

  • Tenant-Name
  • Name des MCP-Servers
  • Screenshots von Fehlermeldungen
  • Ausschnitten aus Crawl-Logs (falls zutreffend)
  • Beschreibung der Intranet-Authentifizierung