Home
Home
Englische Version
Support
Impressum
25.2 Release ►

Start Chat with Collection

    Main Navigation

    • Vorbereitung
      • Einrichten InSpire G7 Primärsystem und Standby Appliances
      • Erstellen einer InSpire-VM auf Hyper-V
      • Initiale Inbetriebnahme für G7 Appliances
      • Konnektoren
    • Datenquellen
      • Anleitung zur Datenintegration mithilfe eines SQL Datenbank-Beispiels
      • Handbuch - Mindbreeze InSpire Insight Apps in Salesforce
      • Indizierung benutzerspezifischer Eigenschaften (SharePoint 2013 Connector)
      • Indizierung benutzerspezifischer Objekttypen (Documentum)
      • Installation & Konfiguration - Atlassian Confluence Sitemap Generator Add-On
      • Installation & Konfiguration - Caching Principal Resolution Service
      • Installation & Konfiguration - Mindbreeze InSpire Insight Apps in Microsoft SharePoint On-Prem
      • Konfiguration - Atlassian Confluence Connector
      • Konfiguration - Best Bets Connector
      • Konfiguration - Box Connector
      • Konfiguration - COYO Connector
      • Konfiguration - Data Integration Connector
      • Konfiguration - Documentum Connector
      • Konfiguration - Dropbox Connector
      • Konfiguration - Egnyte Connector
      • Konfiguration - GitHub Connector
      • Konfiguration - Google Drive Connector
      • Konfiguration - GSA Adapter Service
      • Konfiguration - HL7 Connector
      • Konfiguration - IBM Connections Connector
      • Konfiguration - IBM Lotus Connector
      • Konfiguration - Jira Connector
      • Konfiguration - JVM Launcher Service
      • Konfiguration - LDAP Connector
      • Konfiguration - Microsoft Azure Principal Resolution Service
      • Konfiguration - Microsoft Dynamics CRM Connector
      • Konfiguration - Microsoft Exchange Connector
      • Konfiguration - Microsoft File Connector (Legacy)
      • Konfiguration - Microsoft File Connector
      • Konfiguration - Microsoft Graph Connector
      • Konfiguration - Microsoft Loop Connector
      • Konfiguration - Microsoft Project Connector
      • Konfiguration - Microsoft SharePoint Connector
      • Konfiguration - Microsoft SharePoint Online Connector
      • Konfiguration - Microsoft Stream Connector
      • Konfiguration - Microsoft Teams Connector
      • Konfiguration - Salesforce Connector
      • Konfiguration - SCIM Principal Resolution Service
      • Konfiguration - SemanticWeb Connector
      • Konfiguration - ServiceNow Connector
      • Konfiguration - Web Connector
      • Konfiguration - Yammer Connector
      • Mindbreeze InSpire Insight Apps in Microsoft SharePoint Online
      • Mindbreeze Web Parts in Microsoft SharePoint
      • Whitepaper - Web Connector Erweiterte JavaScript Anwendungsfälle
    • Konfiguration
      • CAS Authentifizierung
      • Cookie Authentifizierung
      • Handbuch - AI Chat
      • Handbuch - Erstellung einer AWS 10M InSpire Applikation
      • Handbuch - Erstellung einer AWS 1M InSpire Applikation
      • Handbuch - Erstellung einer AWS 2M InSpire Applikation
      • Handbuch - Erstellung einer Google Compute Cloud Virtual Machine InSpire Applikation
      • Handbuch - Erstellung einer Oracle Cloud 10M InSpire Applikation
      • Handbuch - Erstellung einer Oracle Cloud 1M InSpire Applikation
      • Handbuch - MMC_ Services
      • Handbuch - Natural Language Question Answering (NLQA)
      • Handbuch - SSO mit Microsoft AAD oder AD FS
      • Handbuch - Text Classification Insight Services
      • I18n Item Transformation
      • JWT Authentifizierung
      • Konfiguration - Alternative Suchvorschläge und automatische Sucherweiterung
      • Konfiguration - Backend Credentials
      • Konfiguration - Benachrichtigungen
      • Konfiguration - CJK Tokenizer Plugin
      • Konfiguration - CSV Metadata Mapping Item Transformation Service
      • Konfiguration - Entity Recognition
      • Konfiguration - Export Funktionalität
      • Konfiguration - External Query Service
      • Konfiguration - Filter Plugins
      • Konfiguration - Gesammelte Ergebnisse
      • Konfiguration - GSA Late Binding Authorization
      • Konfiguration - Identity Conversion Service - Replacement Conversion
      • Konfiguration - InceptionImageFilter
      • Konfiguration - Index-Servlets
      • Konfiguration - InSpire AI Chat und Insight Services für Retrieval Augmented Generation
      • Konfiguration - Item Property Generator
      • Konfiguration - Kerberos Authentfizierung
      • Konfiguration - Management Center Menü
      • Konfiguration - Metadata Reference Builder Plugin
      • Konfiguration - Metadaten Anreicherung
      • Konfiguration - Mindbreeze InSpire
      • Konfiguration - Mindbreeze Proxy Umgebung (Remote Connector)
      • Konfiguration - Outlook Add-In
      • Konfiguration - Personalisierte Relevanz
      • Konfiguration - Plugin Installation
      • Konfiguration - Principal Validation Plugin
      • Konfiguration - Profile
      • Konfiguration - Reporting Query Log
      • Konfiguration - Reporting Query Performance Tests
      • Konfiguration - Request Header Session Authentisierung
      • Konfiguration - Verteilte Konfiguration (Windows)
      • Konfiguration - Vokabulare für Synonyme und Autovervollständigung
      • Konfiguration von Vorschaubildern
      • Mindbreeze Personalization
      • Mindbreeze Property Expression Language
      • Mindbreeze Query Expression Transformation
      • SAML Authentifizierung
      • Spracherkennung mit dem LanguageDetector Plugin
      • Trusted Peer Authentication für Mindbreeze InSpire
      • Verwendung von InSpire-Snapshots in einer CI_CD-Umgebung
    • Betrieb
      • Anpassung der InSpire Host OpenSSH Einstellungen - LoginGraceTime auf 0 setzen (Mitigation für CVE-2024-6387)
      • app.telemetry Statistiken zu Suchanfragen
      • Bereitstellen von app.telemetry Informationen mittels SNMPv3 auf G7 Appliances
      • CIS Level 2 Hardening - SELinux in den Modus Enforcing versetzen
      • Handbuch - Administration von Insight Services für Retrieval Augmented Generation
      • Handbuch - Filemanager
      • Handbuch - Indizierungs- und Suchlogs
      • Handbuch - Kommandozeilenwerkzeuge
      • Handbuch - Sichern & Wiederherstellen
      • Handbuch - Updates und Downgrades
      • Handbuch - Verteilter Betrieb (G7)
      • Index Betriebskonzepte
      • Inspire Diagnose und Ressourcen Monitoring
      • Konfiguration - app.telemetry Dashboards für Nutzungsanalyse
      • Konfiguration - Nutzungsanalyse
      • Löschung der Festplatten
      • Wiederherstellen des Lieferzustandes
    • Anwenderhandbuch
      • Browser Extension
      • Cheat Sheet
      • iOS App
      • Tastaturbedienung
    • SDK
      • api.chat.v1beta.generate Schnittstellenbeschreibung
      • api.v2.alertstrigger Schnittstellenbeschreibung
      • api.v2.export Schnittstellenbeschreibung
      • api.v2.personalization Schnittstellenbeschreibung
      • api.v2.search Schnittstellenbeschreibung
      • api.v2.suggest Schnittstellenbeschreibung
      • api.v3.admin.SnapshotService Schnittstellenbeschreibung
      • Debugging (Eclipse)
      • Einbetten des Insight App Designers
      • Entwicklung eines API V2 Search Request Response Transformer
      • Entwicklung eines Query Expression Transformer
      • Entwicklung von Insight Apps
      • Entwicklung von Item Transformation und Post Filter Plugins mit der Mindbreeze SDK
      • Java API Schnittstellenbeschreibung
      • OpenAPI Schnittstellenbeschreibung
      • SDK Übersicht
    • Release Notes
      • Release Notes 20.1 Release - Mindbreeze InSpire
      • Release Notes 20.2 Release - Mindbreeze InSpire
      • Release Notes 20.3 Release - Mindbreeze InSpire
      • Release Notes 20.4 Release - Mindbreeze InSpire
      • Release Notes 20.5 Release - Mindbreeze InSpire
      • Release Notes 21.1 Release - Mindbreeze InSpire
      • Release Notes 21.2 Release - Mindbreeze InSpire
      • Release Notes 21.3 Release - Mindbreeze InSpire
      • Release Notes 22.1 Release - Mindbreeze InSpire
      • Release Notes 22.2 Release - Mindbreeze InSpire
      • Release Notes 22.3 Release - Mindbreeze InSpire
      • Release Notes 23.1 Release - Mindbreeze InSpire
      • Release Notes 23.2 Release - Mindbreeze InSpire
      • Release Notes 23.3 Release - Mindbreeze InSpire
      • Release Notes 23.4 Release - Mindbreeze InSpire
      • Release Notes 23.5 Release - Mindbreeze InSpire
      • Release Notes 23.6 Release - Mindbreeze InSpire
      • Release Notes 23.7 Release - Mindbreeze InSpire
      • Release Notes 24.1 Release - Mindbreeze InSpire
      • Release Notes 24.2 Release - Mindbreeze InSpire
      • Release Notes 24.3 Release - Mindbreeze InSpire
      • Release Notes 24.4 Release - Mindbreeze InSpire
      • Release Notes 24.5 Release - Mindbreeze InSpire
      • Release Notes 24.6 Release - Mindbreeze InSpire
      • Release Notes 24.7 Release - Mindbreeze InSpire
      • Release Notes 24.8 Release - Mindbreeze InSpire
      • Release Notes 25.1 Release - Mindbreeze InSpire
      • Release Notes 25.2 Release - Mindbreeze InSpire
    • Sicherheit
      • Bekannte Schwachstellen
    • Produktinformation
      • Produktinformation - Mindbreeze InSpire - Standby
      • Produktinformation - Mindbreeze InSpire
    Home

    Path

    Sure, you can handle it. But should you?
    Let our experts manage the tech maintenance while you focus on your business.
    See Consulting Packages

    Installation und Konfiguration
    Web Connector

    Video Tutorial „Set up a basic Web Connector“Permanenter Link zu dieser Überschrift

    Dieses Video beschreibt, wie Sie einen einfachen Web Connector konfigurieren, um eine Website mit oder ohne Sitemap zu indizieren: https://www.youtube.com/watch?v=-Le3J0NOoMI

    Konfiguration von MindbreezePermanenter Link zu dieser Überschrift

    Konfiguration von Index und CrawlerPermanenter Link zu dieser Überschrift

    Klicken Sie auf das „Indices“-Tab und danach auf das „Add new index“-Symbol, um einen neuen Index zu erstellen.

    Geben Sie den Indexpfad ein, z.B. „C:\Index“. Passen Sie gegebenenfalls den Display Name des Index Service und des zugehörigen Filter Service an.

    Fügen Sie eine neue Datenquelle mit dem Symbol „Add Data Source“ rechts unten ein.

    Wenn nicht bereits ausgewählt, selektieren Sie „Web“ bei der Schaltfläche „Category“ aus.

    Über die Einstellung „Crawler Interval“ konfigurieren Sie die Zeitspanne, die zwischen zwei Indizierungsdurchläufen gewartet wird.

    Web PagePermanenter Link zu dieser Überschrift

    Im Feld „URL Regex” können Sie einen regulären Ausdruck bestimmen, der ein Muster für die Links, die indiziert werden sollen, vorgibt. Wenn Sie das Feld leer lassen, werden alle Seiten mit dem gleichen Host- und Domain-Teilen wie die „Crawling Root“ indiziert (z.B. de.wikipedia.org bei „Crawling Root“ http://de.wikipedia.org). Es können mehrere Crawling Roots demselben Crawler hinzugefügt werden.

    Sollen bestimmte URLs vom Crawlen ausgenommen werden, so können diese mit einem regulären Ausdruck unter „URL Exclude Pattern“ konfiguriert werden. Dieser muss auf die gesamte URL (inc. URL Parameter) zutreffen.

    Mit der Option „Include URL By Metadata“ bzw. „Exclude URL by Metadata“ können beim Crawlen mit Sitemaps, gewisse Seiten anhand der Metadaten in der Sitemap ausgenommen werden. Das Feld „Metadata Name“ spezifiziert den Namen des Metadatums und das Feld „Pattern“ den regulären Ausdruck, gegen den der Wert des Metadatums gematcht wird.

    Werden „URL Regex“, „URL Exclude Pattern“ und „Include/Exclude URL by Metadata“ gleichzeitig verwendet, wird zuerst „URL Regex“ angewendet, dann die Seiten mit „URL Exclude Pattern“ ausgeschlossen und letztendlich die restlichen Seiten mit „Include/Exclude URL by Metadata“ gefiltert.

    Mit „Convert Document Keys to Lower Case“ Option werden die Dokumentschlüssel (header/mes:key) für alle Dokumente auf Kleinschrift konvertiert.

    Mit „Maximum Link Depth“ kann die Verschachtelungstiefe beim Extrahieren von Folgeseiten eingestellt werden. Der Wert „1“ wäre beispielsweise für eine Sitemap geeignet.

    Sollte aus netzwerktechnischen Gründen die DNS-Auflösung bestimmter Webserver nicht klappen, kann man mit dem „Additional Hosts File“ die IPs vorgeben.

    Möchte man bestimmte HTTP Header hinzufügen (beispielsweise Accept-Language), so kann man das über die „Accept Headers“ einstellen.

    Wenn die Option „Incomplete Delta Crawl Runs“ aktiviert ist, bleiben nach dem Crawl Run auch die Seiten im Index, die von der „Crawling Root“ aus nicht mehr erreichbar sind. Um die Anzahl der Anfragen an den Web Server bei Deltaindizierungsläufen gering zu halten, besteht die Möglichkeit eine Seite, die nur Links zu geänderten Seiten enthält, als „Crawling Root“ zu konfigurieren.

    ACHTUNG: Die Option „Incomplete Delta Crawl Runs“ darf nicht für Sitemap Delta Crawling verwendet werden. Siehe dafür „Sitemap basiertes Crawlen“.

    Wenn ein regulärer Ausdruck als „Enforce Extension from URL if Matches“ Parameter gesetzt ist, wird für Dokumente mit passenden URL-s die Erweiterung aus der URL abgeleitet anstatt vom „Content-Type“ http Header.

    Wenn die Option „Enable Default ACLs“ aktiv ist (standardmäßig aktiv), werden für Web-Dokumente ACLs gesetzt, wenn diese keine explizit definierten ACLs haben (z.B. über Sitemaps mit <mes:acl>). Welche ACLs in diesen Fällen gesetzt werden, wird mit der Option „Default ACL Principals“ bestimmt. Mit Zeilenumbrüchen getrennt können mehrere „Default ACL Principals“ angegeben werden. Wird dieses Feld leer gelassen und ist „Enable Default ACLs“ aktiv, wird standardmäßig „everyone“ als „Default ACL Principals“ verwendet.

    Mit der Option „Inherit Crawling Root Query Parameter Pattern” können URL Query Parameter vom Crawling Root an die Kinder URLs vererbt werden. Der Anwendungsfall sind beispielsweise Webseiten, die je nach Query Parameter unterschiedlichen Inhalt liefern. Z.B. folgende Crawling Roots https://mysite.com/events?location=us und https://mysite.com/events?location=de liefern unterschiedliche Inhalte. Ebenso liefern Kinderseiten unterschiedliche Inhalte: https://mysite.com/events/sponsored?location=us und https://mysite.com/events/sponsored?location=de Damit der Query Parameter location, der von der Crawling Root kommt, auch auf die Kinderseiten angewendet wird, muss die Option „Inherit Crawling Root Query Parameter Pattern” auf den Wert location gesetzt werden. Der Wert kann ein beliebiger regulärer Ausdruck sein, der gegen die Query Parameter Namen gematcht wird. Falls eine Kindseite bereits gleichnamige Query Parameter gesetzt hat, werden diese von dem Crawling Root Query Parameter überschrieben.

    Die Option „Max Document Size (MB)“ setzt die maximal erlaubte Dateigröße eines Dokuments. Der Standardwert ist 50. Wenn ein Dokument größer ist als dieser Wert, dann wird das Dokument abgeschnitten. Ein Wert von 0 bedeutet, dass keine maximale Dateigröße gesetzt ist.

    Mit der Option „Process Canonical Link“ können Sie einen regulären Ausruck definieren, der bestimmt, für welche URLs versucht werden soll die URL aus dem „canonical“ Tag zu lesen und als Indizierungschlüssel und URL Metadatum zu setzen.

    Mit der Option „Encode Canonical Links“ können Sie bestimmen, ob die URLs, die aus dem „canonical“-Tag extrahiert werden, encoded werden sollen bevor sie im Index gespeichert werden. Um sicherzustellen, dass dieses Setting korrekt übernommen wird, empfehlen wir den Index zu cleanen und neu zu indizieren. Dies ist nützlich, da die URLs dann im gleichen Format im Index gespeichert werden, wie wenn man sie aus dem Browser kopiert,  da dieser die URLs meistens automatisch encoded.

    Skip Up-to-date DocumentsPermanenter Link zu dieser Überschrift

    Wenn diese Option aktiviert ist, wird ein Dokument nur dann vollständig verarbeitet (Inhalt extrahiert, auf inhaltliche Änderungen überprüft, etc.), wenn sich seit dem letzten Crawl-Run entweder mes:date (siehe hier) oder die Zugriffsinformationen geändert haben.

    Sitemap basiertes CrawlenPermanenter Link zu dieser Überschrift

    Um Sitemaps gemäß dem Sitemaps.org Protokoll zu verwenden, aktivieren Sie “Delta Crawling” und geben Sie die zentrale Sitemap Ihrer Webseite als Crawling Root an.

    In diesem Modus liest der Connector die Webseiten exklusiv aus den Sitemaps aus. Hier werden sowohl die lastmod als auch die changefreq Eigenschaften der Seiten der Sitemap mit den indizierten Seiten verglichen. Mittels einer präzisen Sitemap können sehr hochfrequente Indizierungsstrategien angewendet werden.

    Für den „Sitemap-based Delta Crawling“ Modus sind zwei Optionen verfügbar:

    • „Sitemap Based Incomplete“: die URLs von den konfigurierten Sitemaps sind indiziert, die schon indizierten Dokumente die nicht in den Sitemaps enthalten sind bleiben im Index.
    • „Sitemap Based Complete“: die URLs von den konfigurierten Sitemaps sind indiziert, die schon indizierten Dokumente die nicht in den Sitemaps enthalten sind werden gelöscht.

    Wenn die Option „Pass Sitemap ACL and Metadata to Redirect Target URLs“ Option aktiv ist und http Redirects in Root URLs erlaubt sind, werden die Sitemap Metadaten und ACLs auch für die Redirect Ziel URL-s übernommen.

    Mit der „Use Stream Parser“ Option wird ein Stream Parser verwendet für die Bearbeitung der Sitemaps. Diese Option ist für Sitemaps mit sehr viele URLs geeignet.

    Mit der „Use extension defined in metadata for sitemap URLs“ Option, wenn der Metadatum „mes:extension“ gesetzt ist für ein Sitemap URL, wird der als File Extension übernommen.

    Die Option „Sitemap Metadata Prefix“ stellt allen aus der Sitemap extrahierten Metadaten den konfigurierten Prefix voran.

    Falls ein Delta Crawling Modus ausgewählt ist, können auch Sitemaps im lokalen Dateisystem indiziert werden. Dazu muss im Crawling Root eine File-URL angegeben werden. Es sind nur File-URLs im Verzeichnis „data“ zulässig. Z.B.: file:///data/sitemap.xml.

    Mindbreeze-Erweiterung des Sitemaps.org ProtokollsPermanenter Link zu dieser Überschrift

    Mit dem Sitemaps.org Protokoll können Web-Sites in einer Sitemap definiert werden, die gecrawlter werden sollen, z.B.:

    <?xml version="1.0" encoding="UTF-8"?>

    <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

       <url>

          <loc>http://www.example.com/</loc>

          <lastmod>2005-01-01</lastmod>

          <changefreq>monthly</changefreq>

          <priority>0.8</priority>

       </url>

    </urlset>

    Um zusätzliche Metadaten und ACLs zu definieren, gibt es eine Mindbreeze-Erweiterung. Folgende XML-Tags sind zusätzlich verfügbar:

    XML-Tag

    Optional/Erforderlich

    Beschreibung

    <mes:meta>

    optional

    Kann mehrfach innerhalb eines <url> Tags definiert werden, um Metadaten zu definieren. Folgende Attribute sind verfügbar:

    • key (required): der Name (=Key) des Metadatums
    • aggregatable: true oder false (default: false), je nachdem ob das Metadatum (dynamisch) aggregierbar sein soll, um z.B. in der Suche danach filtern zu können
    • embeddings-computed: true oder false (default: false), je nachdem ob für das Metadatum Sentence Embeddings berechnet werden sollen, um auch das Metadatum für die Semantische Suche (NLQA) verfügbar zu machen.

    <mes:value>

    erforderlich

    Kann mehrfach innerhalb eines <mes:meta> Tags definiert werden, um einen oder mehrere Werte für ein Metadatum zu definieren

    • format:number (default: nicht gesetzt). Bestimmt, ob der Wert als Nummer interpretiert werden soll. Standardmäßig werden Werte als String interpretiert.

    Hinweise:

    • Nummern müssen als JSON Number formatiert sein. (z.B.: 1234 oder -12.42)
    • Wenn der Wert keine gültige Nummer ist, wird eine Warnung geloggt und der Wert als String interpretiert.
    • Der aktuell einzig erlaubte Wert des format-Attributs ist number. Wenn der Wert als String interpretiert werden soll, muss das format Attribut weggelassen werden. (Standardverhalten)

    <mes:annotated>

    optional

    Kann mehrfach innerhalb eines <mes:meta>-Tags definiert werden, um einen oder mehrere annotierte Werte für ein Metadatum festzulegen.

    <mes:value>

    erforderlich

    Muss einmal innerhalb eines <mes:annotated>-Tags definiert werden, um den Wert zu definieren, der annotiert wird. Für annotierte Werte werden nur String-Werte unterstützt.

    <mes:ctx-annotation>

    optional

    Kann mehrfach innerhalb eines <mes:annotated>-Tags definiert werden, um dem Wert Annotationen hinzuzufügen.

    Die folgenden Attribute sind verfügbar:

    • metakey (erforderlich): der Name (key) der Anmerkung
    • aggregatable: true oder false (Standard: false), je nachdem, ob die Anmerkung (dynamisch) aggregiert werden soll, z. B. um in der Suche filtern zu können.

    <mes:ref-annotation>

    optional

    Kann mehrfach innerhalb eines <mes:annotated>-Tags definiert werden, um den Metadaten Referenzannotationen hinzuzufügen.

    Das folgende Attribut ist verfügbar:

    • metakey (erforderlich): der Name (key) der Referenz.

    <mes:acl>

    optional

    Kann verwendet werden, um ACLs zu definieren. Beachten Sie, dass dieser Tag nur berücksichtigt wird, wenn die Option „Enable Default ACLs“ aktiviert ist (standardmäßig aktiv). Bitte beachten Sie außerdem, dass ACLs aus Sitemaps nicht gemeinsam mit „Access Check Rules“ verwendet werden können.

    <mes:grant>

    optional

    Kann mehrfach innerhalb eines <mes:acl> Tags definiert werden, um den Zugriff für ein Principal zu gewähren

    <mes:deny>

    optional

    Kann mehrfach innerhalb eines <mes:acl> Tags definiert werden, um den Zugriff für ein Principal zu verbieten

    <mes:require>

    optional

    Kann mehrfach innerhalb eines <mes:acl> Tags definiert werden, um zu definieren, in welchen Gruppen ein User sein muss. <mes:require> gewährt grundsätzlich keinen Zugriff, aber verbietet den Zugriff, wenn der User nicht in der Gruppe ist. Somit ist zusätzlich nach dem letzten <mes:require> Tag ein <mes:grant> Tag notwendig, um Zugriff zu gewähren.

    Beispiel:

    <?xml version="1.0" encoding="UTF-8" ?>

    <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"

            xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

            xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9

                http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd"

            xmlns:mes="tag:mindbreeze.com,2008:/indexing/interface">

      <url>

        <loc>https://www.mindbreeze.com</loc>;

        <lastmod>2020-08-22T09:03:56+00:00</lastmod>

        <!-- additional metadata -->

        <mes:meta key="breadcrumb">

          <mes:value>Mindbreeze</mes:value>

          <mes:value>Home</mes:value>

        </mes:meta>

        <mes:meta key="keywords" aggregatable="true">

          <mes:value>Search Appliance</mes:value>

          <mes:value>InSpire</mes:value>

          <mes:value>Semantic Search</mes:value>

          <!-- more -->

        </mes:meta>

        <mes:meta key="parent">

    <mes:annotated>

             <mes:value>Main parent</mes:value>

             <mes:ctx-annotation metakey="related" aggregatable="false">Fabasoft</mes:ctx-annotation>

             <mes:ref-annotation metakey="parentkey">abcd.1.2.3.4</mes:ref-annotation>

           </mes:annotated>

        </mes:meta>

        <!-- ACL -->

        <mes:acl>

          <mes:require>cn=domain users,cn=users,dc=myorganization,dc=com</mes:require>

          <mes:deny>unauthorized</mes:deny>

          <mes:grant>cn=marketing,cn=users,dc=myorganization,dc=com</mes:grant>

        </mes:acl>

      </url>

    </urlset>

    Default Content TypePermanenter Link zu dieser Überschrift

    Mit dem „Default Content Type“ Option kann der MIME-Typ für alle Dokumente gesetzt werden, bei denen kein MIME-Typ von der HTTP-Antwort gelesen werden kann.

    Resource ParametersPermanenter Link zu dieser Überschrift

    Dieser Abschnitt ist nur sichtbar, wenn der Modus "Advanced Settings" auf der Registerkarte "Indices" aktiviert ist.

    Einstellung

    Beschreibung

    Memory Profile

    Das InSpire-Profil ist Standard, bei Bedarf kann auch das ressourcenschonende InSite-Profil verwendet werden.

    Number of Crawler Threads

    Die Anzahl der Threads, welche die Webseite(n) parallel crawlen.

    Minimum Request Interval

    Mindestverzögerung in Millisekunden zwischen aufeinanderfolgenden Anfragen des Crawlers.

    Maximum Request Interval

    Maximale Verzögerung in Millisekunden zwischen aufeinanderfolgenden Anfragen des Crawlers.

    Crawler Queue Size

    Maximale Anzahl der Dokumente in der Warteschlange, die an den Index gesendet werden.

    Mindbreeze Dispatcher Thread Count

    Die Anzahl der Threads, die parallel Daten an den Index senden.

    Allowed Delete Ratio

    Maximal zulässiger Anteil der zu löschenden Dokumente im Verhältnis zur Anzahl der Dokumente im Index. Standardwert: 0.8. Dies ist eine Funktion um Datenverlust bei Netzwerkstörungen oder unbeabsichtigten Konfigurationsänderungen zu verhindern. (z.B., wenn in einem Crawl-Run mehr als 0.8 (80%) der Dokumentenmenge gelöscht werden würde, wird der Crawl-Run automatisch abgebrochen um Datenverlust zu verhindern).

    Achtung: Diese Einstellung ist nur wirksam, wenn die Einstellung „Delta Crawling“ deaktiviert ist.

    General JavaScript EinstellungenPermanenter Link zu dieser Überschrift

    Standardmäßig lädt der Web Connector HTML Dokumente herunter und extrahiert den Inhalt direkt. Falls Webseiten den Inhalt dynamisch mit JavaScript laden, ist der Inhalt nicht im Original-HTML Dokument enthalten. Standardmäßig wird JavaScript ignoriert und daher kann der Inhalt nicht extrahiert werden.

    AllgemeinPermanenter Link zu dieser Überschrift

    Mit der Einstellung „Enable JavaScript“ können Inhalte von Webseiten, die JavaScript zur Darstellung der Inhalte verwenden, indiziert werden.

    Hinweis: Wenn „Enable JavaScript“ aktiviert ist, benötigt der Connector deutlich mehr Ressourcen. Das führt zu langsamerem Crawlen und höherer Speicherverbrauch. Daher wird empfohlen, die Option „Enable JavaScript“ nur bei einem einzigen Crawler zu aktivieren und die JavaScript Verarbeitung mit der Optionen „Include/Exclude JavaScript URL Regex Pattern“ auf nur die URLs einzuschränken, die tatsächlich JavaScript benötigen.

    Zum Beispiel sollen die Webseiten https://mysite.com/products und https://mysite.com/internal indiziert werden. https://mysite.com/products benötigt JavaScript, https://mysite.com/internal benötigt kein JavaScript zur Indizierung. In diesem Fall muss „Include JavaScript URL Regex Pattern“ wie folgte konfiguriert werden: https:\/\/mysite\.com\/products\.*

    Sicherheitsmechanismen und SicherheitsausnahmenPermanenter Link zu dieser Überschrift

    Da Webseiten beliebigen JavaScript Code beinhalten können und der Code im Connector ausgeführt wird, werden die aus Webbrowser üblichen Sicherheitsmechanismen, wie Sandboxing und CORS eingesetzt. Weiters sind aus Sicherheitsgründen die Netzwerkschnittstellen des JavaScript Codes stark begrenzt.

    Besonders werden nur Netzwerk-Requests auf URLs mit demselben Hostnamen erlaubt. Dies sollte für die meisten Anwendungsfälle kein Problem darstellen. Falls beispielsweise die Seite https://mysite.com/products (Hostname mysite.com) indiziert wird, welche die Seite JavaScript von externen URLs laden soll, z.B. https://ajax.googleapis.com/ajax/libs/angularjs, dann werden die Netzwerk-Requests auf den Hostnamen ajax.googleapis.com blockiert, da dies ein andere Hostname ist. Alle blockierten (und erfolgreichen) Netzwerk-Request werden in der app.telemetry dargestellt. Um dies anzuzeigen, Navigieren Sie dazu im Management Center > Reporting > Telemetry Details > Applications in den “Network Requests” Log Pool. Stellen Sie sicher, dass die Spalten “URL”, “Status” sowie “Status Description“ eingeblendet sind.

    Falls externe Netzwerk-Requests unbedingt notwendig sind, um den Inhalt der Webseite anzeigen zu können, ist es möglich Sicherheitsausnahmen mit der Einstellung „Additional Network Resources Hosts“ zu definieren (Advanced Setting). Diese Einstellung kann eine Liste von Hostnamen bestimmen, die auf jeden Fall erlaubt sind. Im Beispiel von oben können Sie bei „Additional Network Resources Hosts“ den Wert ajax.googleapis.com setzen. Damit werden nun auch Netzwerk-Request wie zum Beispiel https://ajax.googleapis.com/ajax/libs/angularjs erlaubt.

    Einschränkungen der „Enable JavaScript“ OptionPermanenter Link zu dieser Überschrift

    Das Indizieren von Webseiten mit aktivierten „Enable JavaScript“ ist mit diversen funktionalen Einschränkungen verbunden. Aktuell können folgende Features nicht zusammen mit der Option „Enable JavaScript“ verwendet werde:

    • Netzwerkproxy mit Authentisierung (User, Password)
    • Indizieren von Webseiten mit NTLM oder Kerberos Authentisierung
    • Indizieren von Single-Page-Applications (SPA), welche URL-Anchors verwenden
    • Indizieren von Webseiten, die eine hohe Anzahl von Ressourcen laden
    • Indizieren von Webseiten die 2-Faktor-Authentifizierung verwenden.

    Zusätzliche erweiterte EinstellungenPermanenter Link zu dieser Überschrift

    Aktivieren Sie „Advanced Settings“, um alle Einstellungen anzuzeigen:

    Einstellung

    Beschreibung

    Enable JavaScript

    Aktiviert die Verarbeitung von JavaScript (siehe Beschreibung Oben), Warnung: benötigt erhöhte Systemresourcen (Standardwert: deaktiviert)

    Enable Verbose Logging

    Aktiviert erweitertes Logging für Diagnosezwecke (Standardwert: deaktiviert)

    Skip Head Requests

    Überspringt den HEAD Request, der verwendet wird, um zu ermitteln, ob das JavaScript einer Webseite verarbeitet werden soll. (standardmäßig wird JavaScript nur für Text/HTML ermittelt)

    Include JavaScript URL (regex)

    Liste von regulären Ausdrücken, welche die URLs definieren, bei denen JavaScript verarbeitet wird (Standardwert: .*)

    Exclude JavaScript URL (regex)

    Liste von regulären Ausdrücken, welche die URLs definieren, bei denen JavaScript nicht verarbeitet wird. Diese Einstellung hat Priorität gegenüber der Einstellung Include JavaScript URL.

    Thumbnail Width

    Breite der generierten Thumbnails in Pixel (Standardwert: 100)

    Thumbnail Height

    Höhe der generierten Thumbnails in Pixel (Standardwert: 75)

    Page Load Strategy

    Bestimmt mit welcher Strategie Webseiten geladen werden. Dieser Wert ist für interne Verwendung bestimmt und sollte nicht geändert werden. (Standardwert: „Eager“)

    Page Ready State

    Bestimmt wie festgestellt wird, ob eine Seite fertig geladen wurde. Dieser Wert ist für interne Verwendung bestimmt und sollte nicht geändert werden (Standardwert: „Complete Or Interactive“)

    Javascript Script SettingsPermanenter Link zu dieser Überschrift

    Einstellung

    Beschreibung

    Content Selector Type (deprecated)

    Gleiches Verhalten wie beim Feld "Content Selector Type".

    Content Presence Selector (deprecated)

    Gleiches Verhalten wie beim Feld "Content Presence Selector".

    Assume Content if no Script triggered

    Ist diese Einstellung aktiviert, wird davon ausgegangen, dass der Inhalt geladen ist, obwohl kein Script Trigger Selector aktiv ist. Darf nicht zusammen mit Content Presence Selector verwendet werden.

    On New Document Script

    Content Presence SelectorPermanenter Link zu dieser Überschrift

    Einstellung

    Beschreibung

    URL Patterns (regex)

    Definiert die Regex-Muster, die mit den URLs von Websites abgeglichen werden. Nur bei einer Übereinstimmung ist der Content Presence Selector wirksam.

    Content Selector Type

    Definiert den Typ des Content Presence Selector. Der Standardwert ist CSS. Neben CSS ist auch XPath als Wert möglich.

    Content Presence Selector

    Ein CSS- oder XPath-Ausdruck, der verwendet wird, um festzustellen, ob der gesuchte Inhalt vorhanden ist. Darf nicht mit Assume Content if no Script triggered verwendet werden. Muss unbedingt in einfachen Hochkommas (') und nicht in doppelten Hochkommas (") angegeben werden.

    ScriptsPermanenter Link zu dieser Überschrift

    Einstellung

    Beschreibung

    Script Name

    Ein benutzerdefinierter Name für das Skript. (Wird zur Identifizierung in den Logs verwendet)

    URL Patterns (regex)

    Das Skript wird nur auf Websites ausgeführt, deren URLs mit den angegebenen Regex-Mustern matchen.

    Wenn das Feld leer ist, wird es als Ausdruck '.*' interpretiert.

    Script Selector Type

    Legt den Typ des 'Content Presence Selector' fest. (Standard: CSS)

    Script Trigger Selector

    Ausdruck (CSS oder XPath) zum Auslösen des Scripts. Muss unbedingt in einfachen Hochkommas (') angegeben werden und nicht in doppelten Hochkommas (").

    Script

    Definiert das Skript, das ausgeführt werden soll, wenn der ‘Script Trigger Selector’ aktiv ist.

    Credential ScriptsPermanenter Link zu dieser Überschrift

    Einstellung

    Beschreibung


    Script Name

    Ein benutzerdefinierter Name für das Skript (wird zur Identifizierung in den Logs verwendet).

    Allowed Hostnames

    Das Skript wird nur auf Seiten ausgeführt, deren Hostname mit einem der angegebenen Hostnamen matcht. Patterns können hier nicht verwendet werden.

    Script Selector Type

    Legt den Typ des “Content Presence Selector” fest. Der Standardwert ist CSS.

    Script Trigger Selector

    Ausdruck zum Auslösen des Skripts, definiert in CSS oder XPath. Muss unbedingt in einfachen Hochkommas (') und nicht in doppelten Hochkommas (") angegeben werden.

    Script

    Definiert das auszuführende Skript, wenn der Script Trigger Selector gefunden wird.

    Im Gegensatz zu normalen Scripts, kann hier ein bereitgestelltes Objekt 'mesCredential' verwendet werden. Dieses besitzt die Variablen 'domain', 'username' und 'password', die je nach ausgewähltem Credential definiert werden.

    let password = mesCredential.password;

    let username = mesCredential.username;

    let domain = mesCredential.domain;

    Credential

    Hier kann ein beliebiges Credential vom 'Netzwerk'-Tab ausgewählt werden, das dann im Skript verwendet wird.

    Derzeit werden nur Credentials vom Typ "Passwort" und "Benutzername/Passwort" unterstützt.

    Javascript Security SettingsPermanenter Link zu dieser Überschrift

    Einstellung

    Beschreibung

    Additional Network Resources Hosts

    Liste von Hostnamen, zu denen Netzwerk-Requests erlaubt sind. Patterns können hier nicht verwendet werden, außer wenn Match "Additional Network Resources Hosts" as regex aktiviert ist.

    Match "Additional Network Resources Hosts" as regex

    Ist diese Option aktiviert, werden die „Additional Network Resources Hosts“ als Regex-Patterns verwendet.

    Hierbei muss für jedes Skript mindestens ein URL-Pattern definiert werden.

    Allowed Network Resources

    Liste von Netzwerk Ressourcen zu denen Requests erlaubt sind.

    Ignore SSL/Certificate Errors

    Wenn aktiv, werden HTTPS SSL oder Zertifikatsfehler ignoriert. Diese Einstellung darf aus Sicherheitsgründen nur in Testsystemen aktiviert werden.

    Additional Arguments

    Dieser Wert ist für interne Verwendung bestimmt und sollte nicht geändert werden. (Standardwert: leer)

    JavaScript Performance SettingsPermanenter Link zu dieser Überschrift

    Einstellung

    Beschreibung

    Page Load Timeout

    Zeit in Sekunden, die für das Laden und Ausführen von JavaScript auf einer Webseite erlaubt ist. Falls diese Zeit überschritten wird, wird die Verarbeitung abgebrochen. (Standardwert: 10) Dieser Wert sollte immer kleiner sein als „Network Timeout“

    Network Timeout

    Zeit in Sekunden, die der Konnektor auf eine Antwort von der Website wartet. Dieser Wert sollte immer größer sein als „Page Load Timeout“ (Standardwert: 10)

    Browser Recycle Threshold

    Anzahl der Websites, welche mit einer internen Browser-Instanz verarbeitet werden, bevor die Instanz automatisch beendet und neu gestartet wird, um Systemresourcen zu schonen. (Standardwert: 1000)

    Browser Control Process XmX

    ProxyPermanenter Link zu dieser Überschrift

    Im Abschnitt „Proxy“ können Sie einen Proxy Server eintragen, falls ihre Infrastruktur dies erfordert. Tragen Sie dazu den Computernamen und den Port des Proxy-Servers in „Proxy Host“ und „Proxy Port“ ein.

    Der Web Connector kann sich am Proxy auch mittels HTTP-BASIC anmelden. Tragen Sie in das Feld „Proxy User“ den Benutzer und in „Proxy Password“ das zugehörige Passwort ein, wenn die Verbindungen über einen Proxy mit Authentifizierung erfolgen sollen.

    AuthentisierungPermanenter Link zu dieser Überschrift

    In diesem Kapitel werden die verschiedenen Authentisierungsmethoden für den Web Connector beschrieben. Das Kapitel beleuchtet dabei jene Methoden die verwendet werden können, um Inhalte, die sich hinter einem Login befinden, indizieren zu können.

    Formularbasiertes LoginPermanenter Link zu dieser Überschrift

    Dieser Abschnitt beschäftigt sich mit dem Mechanismus des formularbasierten Logins. Es handelt sich dabei um einen Mechanismus der einen Login über ein Login Formular und eine Sitzungsverwaltung durch HTTP Cookies durchführen kann.

    Formularbasiertes Login simuliert das Benutzerverhalten und Browserverhalten, das notwendig ist, um derartige Logins zu automatisieren.

    In diesem Kapitel werden zwei Szenarien beschrieben. Beide Szenarien basieren auf den Einstellungen der nachstehenden Abbildung.

    Statisches formularbasiertes Login mit SitzungsverwaltungPermanenter Link zu dieser Überschrift

    In diesem Szenario wird ein Post-Request an eine bestimmte URL gesendet, um die Authentifizierung auszulösen. Die URL, die dafür verwendet werden soll, wird unter Login URL eingetragen. Diese URL kann zum Beispiel mittels der Debugging-Funktionen des Webbrowsers ermittelt werden. Nachstehend werden die benötigten Optionen erklärt:

    Einstellung

    Beschreibung

    Session Initialization URL

    In manchen Fällen ist es notwendig ein dynamisch generiertes Cookie von einer bestimmten URL abzuholen und dieses bereits beim formularbasierten Login mitzusenden. Auf die hier eingetragene URL wird ein http-get-request durchgeführt und die so erhaltenen Cookies beim eigentlichen Login mitgesendet.

    Include Matching Cookies (Regular Expression)

    Damit kann eingeschränkt werden, welche Cookies für die Sitzungsverwaltung gespeichert werden sollen. In dieses Feld muss ein regulärer Ausdruck eingegeben werden, welcher für die Namen jener Cookies zutrifft, die übernommen und für die Session verwendet werden sollen.

    Follow Redirects for Login Post

    Ist diese Option aktiviert, werden nach dem http-post-request auf die Login URL alle Redirects weiterverfolgt und alle Cookies gesammelt bis kein weiterer Redirect mehr angefordert wird oder die Authentifizierung erfolgreich ist.

    Form Elements

    Form Password Elements

    Mit dieser Einstellung müssen die Namen und Werte jener Elemente angegeben werden, die beim http-post-request auf die Login URL verwendet werden. Dabei wird der Name des Feldes des HTML-Formulars angegeben. Alle Passwortfelder müssen unter Password Elements angegeben werden.

    Die weiteren Einstellungen werden für dieses Szenario nicht benötigt.

    Komplexes formularbasiertes LoginPermanenter Link zu dieser Überschrift

    Wenn das vorherige Szenario nicht ausreicht, können folgende Einstellungen verwendet werden:

    Einstellung

    Beschreibung

    Session Initialization URL

    Diese URL wird zu Beginn aufgerufen um danach dynamisch weitergeleitet zu werden. Die dabei erhaltenen Cookies werden für die Session beibehalten.

    Login Form Parameters

    Wenn beim Login-Formular versteckte Felder gesetzt werden, können diese hier aufgelistet werden. Diese werden extrahiert und beim Login-Request mitgesendet. Ein typisches Beispiel dafür ist die dynamisch generierte FormID, die als hidden Parameter vom Webserver zurückgesendet wird.

    Login URL Patterns

    Alle Redirects, die den hier angegebenen regulären Ausdrücken entsprechen, werden beim Loginvorgang verfolgt

    Login Post URL Patterns

    Beim Folgen von Redirects, die den hier angegebenen regulären Ausdrücken entsprechen, werden alle gesammelten Formularparameter mittels http-post-request mitgesendet.

    Logged in URL Patterns

    Wird auf eine URL weitergeleitet, die den hier angegebenen regulären Ausdrücken entspricht, dann gilt der Loginvorgang als erfolgreich.

    Maximum Allowed Count of Redirects

    Hiermit kann die maximale Tiefe der verfolgten Redirects festgelegt werden.

    Post to Configured Login URL

    Ist diese Option gesetzt, so werden Weiterleitungen an eine „Login Post URL“ mit einem http-post-request an die unter „Session Initialization URL“ konfigurierte URL ersetzt.

    Reset Session Before Login

    Ist diese Option gesetzt, werden beim Ablaufen einer Session nicht die alten Sessioncookies zum Erstellen einer neuen Session verwendet.

    Force Session Reneval After Expiration

    Ist diese Option gesetzt wird die Login Prozess immer neu ausgeführt wenn die Sitzung älter ist als die konfigurierte Maximum Session Alter (Maximum Session Age in Seconds). Die Option funktioniert nur wenn „Post to Configured Login URL“ aktiv ist.

    Maximum Session Age in Seconds

    Maximum Session Alter in Sekunden.

    NTLMPermanenter Link zu dieser Überschrift

    Um NTLM Authentisierung zu verwenden, müssen zuerst User, Passwort und Domain im Network Tab als Credential konfiguriert werden:

    Danach muss dieses Credential im Web Connector bei der Einstellung „NTLM Credential“ ausgewählt werden:

    OAuth2Permanenter Link zu dieser Überschrift

    Um OAuth Authentisierung zu verwenden, muss ein Credential vom Typ OAuth2 im Network Tab erstellt werden:

    Für den Grant-Type Client Credentials reicht es aus, Realm, Client ID und Client Secret zu konfigurieren. Für den Grant-Type Password müssen zusätzlich auch noch Username und Password konfiguriert werden.

    Danach muss dieses Credential im Web Connector bei der Einstellung „OAuth Credential“ ausgewählt werden:

    Mit der Einstellung „OAuth Scope“ können bestimmte Berechtigungen für die OAuth Authentifizierung angefordert werden.

    Authorization Basic HeaderPermanenter Link zu dieser Überschrift

    Die Basic Authentication (Basisauthentifizierung) nach RFC 2617 ist die häufigste Art der HTTP-Authentifizierung. Der Webserver fordert mit

    WWW-Authenticate: Basic realm="RealmName"

    eine Authentifizierung an, wobei RealmName eine Beschreibung des geschützten Bereiches darstellt. Der Browser sucht daraufhin nach Benutzername/Passwort für diese URL und fragt gegebenenfalls den Benutzer ab. Anschließend sendet er die Authentifizierung mit dem Authorization-Header in der Form Benutzername:Passwort Base64-codiert an den Server.

    Beispiel:

    Authorization: Basic d2lraTpwZWRpYQ==

    Um den im obigen Beispiel angegebenen Header einzustellen, muss dieser in der Option HTTP Request Header wie im nachstehenden Screenshot ersichtlich konfiguriert werden:

    Kerberos AuthenticationPermanenter Link zu dieser Überschrift

    Die Kerberos Authentication verwendet das Negotiate-Protokoll zur Authentifizierung der HTTP-Anfragen. Der Web Connector ist somit in der Lage, Webseiten zu indizieren, die nur mit Kerberos Authentifizierung erreichbar sind. Folgende Schritte sind notwendig, um die Kerberos Authentication zu aktivieren:

    • Ein funktionierendes Kerberos Setup auf der Appliance sicherstellen. Dazu siehe Kerberos Authentfizierung
    • Einen „Connector“ Keytab generieren und dem Web Connector zuweisen. Siehe Connector Authentifizierung Kerberos
    • In den Web Connector Einstellungen die Option „Use Kerberos Authentication“ aktivieren.

    Hinweis: Aktuell werden mit Kerberos keine Web-Thumbnails unterstützt, diese werden automatisch deaktiviert.

    Content ExtractionPermanenter Link zu dieser Überschrift

    Seiten von der Indizierung ausnehmenPermanenter Link zu dieser Überschrift

    Mit der Option „URLs Excluded from Filtering“ können mittels eines regulären Ausdrucks bereits gefundene Seiten von der Indizierung ausgenommen werden. Ein möglicher Anwendungsfall ist beispielsweise, wenn man gewisse Seiten indizieren möchte, die nur über Umwege erreichbar sind und man die Umwege selbst nicht Indizieren will. In diesem Fall kann mit „URLs Excluded from Filtering“ ein regulärer Ausdruck angegeben werden, welcher die Umwege ausschließt.

    Hier ein Überblick die Optionen, welche die Crawling Richtung beeinflussen:

    1. „Crawling Root“ bestimmt mit welche URL das crawling gestartet wird
    2. „URL Regex“ bestimmt, welche URLs weiterverfolgt werden
    3. „URL Exclude Regex“ bestimmt, welche URLs ausgeschlossen und nicht weiterverfolgt werden
    4. „URLs Excluded from Filtering“ bestimmt, welche gecrawlten Dokumente schlussendlich indiziert werden

    Extract MetadataPermanenter Link zu dieser Überschrift

    Tragen Sie im Abschnitt „Extract Metadata“ als Name: bulletPoints und als XPath: „//li“ ein.

    Anschließend neu indizieren.

    FilterkonfigurationPermanenter Link zu dieser Überschrift

    Folgende Umgebungsvariablen sind verfügbar:

    Cache-Einstellungen für die Erzeugung von VorschaubildernPermanenter Link zu dieser Überschrift

    Die Variable MES_THUMBNAIL_CACHE_LOCATION legt das Verzeichnis für die Erstellung von Vorschaubildern fest. Die maximale Cache-Größe wird mit der Variable MES_THUMBNAIL_CACHE_SIZE_MB festgelegt. Der Cache wird nur dann verwendet, wenn beide Variablen gesetzt sind.

    Beispiel (Linux):

    export MES_THUMBNAIL_CACHE_LOCATION=/tmp/thumbcache

    export MES_THUMBNAIL_CACHE_SIZE_MB=20

    Auf Microsoft Windows Plattformen können diese Variablen in der Systemsteuerung festgelegt werden.

    Timeout-Einstellungen für die Erzeugung von VorschaubildernPermanenter Link zu dieser Überschrift

    Mit der Variable MES_THUMBNAIL_TIMEOUT kann der Standard-Timeout-Wert von 50 Sekunden verändert werden.

    Beispiel (Linux):

    export MES_THUMBNAIL_TIMEOUT=10

    Auf Microsoft Windows Plattformen können diese Variablen in der Systemsteuerung festgelegt werden.

    Hauptinhalt extrahieren mit alternativem Filter-ModusPermanenter Link zu dieser Überschrift

    Beim Crawler von z.B. News-Seiten werden auch „unnütze“ Inhalte indiziert, wie Menüs oder Fußzeilen. Der HTML-Filter kann in einen alternativen Modus geschaltet werden, der mit einer Heuristik nur „sinnvolle“ Inhalte indiziert.

    Es gibt mehrere Möglichkeiten zur Konfiguration:

    Filter Plugin PropertiesPermanenter Link zu dieser Überschrift

    Klicken Sie auf das „Filters“ Tab und aktivieren Sie „Advanced Settings“.

    Im Abschnitt „Global Filter Plugin Properties“ wählen Sie „FilterPlugin.JerichoWithThumbnails(…)“ aus und klicken Sie auf „Add“.

    Klappen Sie den neuen Eintrag „FilterPlugin.JerichoWithThumbnails“ auf und setzen Sie die Einstellung „Use Boilerpipe Extractor“ auf den Wert „Article“.

    Anschließend neu Indizieren.

    Datasource XPath MetadataPermanenter Link zu dieser Überschrift

    Klappen Sie den betreffenden Index auf. Im Abschnitt „Data Source“, Unterabschnitt „Extract Metadata“ klicken Sie auf das Plus-Symbol „Add Property“.

    Tragen sie im neuen Abschnitt „Extract Metadata“ als Name: htmlfilter:extractor und XPath: "Article" (Wichtig: unter Hochkomma) ein.

    Anschließend neu Indizieren.

    Leere HTML-Elemente ignorierenPermanenter Link zu dieser Überschrift

    Wenn in Dokumenten leere HTML-Elemente vorkommen, können Sie einen regulären Ausdruck definieren, welcher diese Elemente beim Filtern entfernt.

    Es gibt mehrere Möglichkeiten zur Konfiguration:

    Filter Plugin PropertiesPermanenter Link zu dieser Überschrift

    Klicken Sie auf das „Filters“ Tab und aktivieren Sie „Advanced Settings“.

    Im Abschnitt „Global Filter Plugin Properties“ wählen Sie „FilterPlugin.JerichoWithThumbnails(…)“ aus und klicken Sie auf „Add“.

    Klappen Sie den neuen Eintrag „FilterPlugin.JerichoWithThumbnails“ auf und setzen Sie die Einstellung „Ignore Empty Tags Pattern“ auf z.B. den Wert „^(ul|li|a|div)$“. Dies bedeutet, dass die HTML-Elemente ul, li, a und div entfernt werden, falls diese leer sind.

    Anschließend neu Indizieren.

    Datasource XPath MetadataPermanenter Link zu dieser Überschrift

    Im Tab „Indices“ aktivieren Sie „Advanced Settings“.

    Klappen Sie den betreffenden Index auf. Im Abschnitt „Data Source“, Unterabschnitt „Extract Metadata“ klicken Sie auf das Plus-Symbol „Add Composite Property“.

    Tragen sie im neuen Abschnitt „Extract Metadata“ als Name: htmlfilter:ignoreEmptyCharactersElementTagsPattern und XPath: "^(ul|li|a|div)$" (Wichtig: unter Hochkomma) ein. Dies bedeutet, dass die HTML-Elemente ul, li, a und div entfernt werden, falls diese leer sind.

    Anschließend neu Indizieren.

    Googleon/Googleoff Tags anwendenPermanenter Link zu dieser Überschrift

    Die Google GSA definiert einen Mechanismus, um innerhalb einer einzelnen HTML-Website gewisse Teile als „nicht durchsuchbar“ markieren zu können. Diese markierten Teile werden dann nicht indiziert, der Rest der Seite allerdings schon. Die Markierungen sind HTML-Kommentare, die paarweise gesetzt werden.

    Unterstützt werden folgende Tags:

    fish <!--googleoff: index-->shark <!--googleon: index-->dog

    „fish“ und „dog“ werden indiziert, „shark“ nicht

    fish <!--googleoff: snippet-->shark <!--googleon: snippet-->dog

    fish <!--googleoff: all-->shark <!--googleon: all-->dog

    <!--googleoff: anchor--><A href=subsite.html>shark </A>dog <!--googleon: anchor-->

    „dog“ wird indiziert, „shark“ nicht

    Es gibt mehrere Möglichkeiten zur Konfiguration.

    Systemweite Verwendung mit Global Filter Plugin PropertiesPermanenter Link zu dieser Überschrift

    Zum Aktivieren dieser Funktion klicken Sie auf das „Filters“ Tab und klicken Sie auf „Advanced Settings“.

    Im Abschnitt „Global Filter Plugin Properties“ wählen Sie „FilterPlugin.JerichoWithThumbnails(…)“ aus und klicken Sie auf „Add“.

    Klappen Sie den neuen Eintrag „FilterPlugin.JerichoWithThumbnails“ auf und haken Sie die Einstellung „Apply googleon/googleoff Tags“ an. Anschließend re-indizieren.

    Verwendung im Web-ConnectorPermanenter Link zu dieser Überschrift

    In den Web-Connector Einstellungen unter der Sektion „Content Extraction“ haken Sie die Einstellung „Apply googleon/googleoff Tags“ an. Anschließend reindizieren.

    Crawlerspezifische Verwendung mit Datasource XPath MetadataPermanenter Link zu dieser Überschrift

    Im Tab „Indices“ aktivieren Sie „Advanced Settings“.

    Klappen Sie den betreffenden Index auf. Im Abschnitt „Data Source“, Unterabschnitt „Extract Metadata“ klicken Sie auf das Plus-Symbol „Add Composite Property“.

    Tragen sie im neuen Abschnitt „Extract Metadata“ als Name: htmlfilter:applygoogleonoff und XPath: "true" (Wichtig: unter Hochkomma) ein.

    Anschließend neu Indizieren.

    CDATA Inhalte als Text ExtrahierenPermanenter Link zu dieser Überschrift

    Optional kann der Jericho Filter Plugin auch Text Inhalte von HTML CDATA Abschnitte extrahieren. Dieses Feature kann entweder Global für den Filter Service, oder pro Dokument mit ein spezifisches Metadatum aktiviert werden.

    Systemweite Verwendung mit Global Filter Plugin PropertiesPermanenter Link zu dieser Überschrift

    Zum Aktivieren dieser Funktion klicken Sie auf das „Filters“ Tab und klicken Sie auf „Advanced Settings“.

    Im Abschnitt „Global Filter Plugin Properties“ wählen Sie „FilterPlugin.JerichoWithThumbnails(…)“ aus und klicken Sie auf „Add“.

    Klappen Sie den neuen Eintrag „FilterPlugin.JerichoWithThumbnails“ auf und haken Sie die Einstellung „Extract CDATA content“ an. Anschließend re-indizieren.

    Crawlerspezifische Verwendung mit Datasource XPath MetadataPermanenter Link zu dieser Überschrift

    Im Tab „Indices“ aktivieren Sie „Advanced Settings“.

    Klappen Sie den betreffenden Index auf. Im Abschnitt „Data Source“, Unterabschnitt „Extract Metadata“ klicken Sie auf das Plus-Symbol „Add Composite Property“.

    Tragen sie im neuen Abschnitt „Extract Metadata“ als Name: htmlfilter:extractcdatacontent und XPath: "true" (Wichtig: unter Hochkomma) ein.

    Normalisieren von SonderzeichenPermanenter Link zu dieser Überschrift

    Mit der Option „Enable Character Normalization“ werden Sonderzeichen, wie z.B. ü,â in eine Normalform transformiert (Compatibility decomposition), welche das Suchen erleichtert. Diese Option kann zu besseren Ergebnissen führen, wenn die Client-Service Option „Query Expansion for Diacritic Term Variants“ nicht die gewünschte Qualität liefert.

    AutorisierungPermanenter Link zu dieser Überschrift

    Um die Autorisierungsparameter zu konfigurieren soll die „AuthorizedWeb“ Kategorie ausgewählt werden.

    Konfiguration von „Access Check Rules“Permanenter Link zu dieser Überschrift

    Ein Access Check Rule besteht aus:

    Einstellung

    Beschreibung

    Access Check Principal

    Die Benutzernamen können im username@domain Fromat oder im domain\username Fromat oder distinguished name Format sein. Die Gruppennamen können nur im distinguished name Format sein. Weiters kann hier ein Verweis auf eine Capture-Group in der Selection Pattern verwendet werden (siehe Access Rules[3]).

    Access Check Action

    Grant order Deny.

    Metadata Key for Selection (e.g. url)

    Ein Metadatenname, kann leer sein (alle Dokumente werden selektiert).

    Selection Pattern (e.g. .*html)

    Eine Regularexpression, kann leer sein (alle Dokumente werden selektiert).

    Wenn Access Check Rules mit Sitemaps als Crawling Root verwendet wird, werden die Regeln nur dann angewendet, wenn in der Sitemap keine ACLs definiert sind.

    Wenn Sitemaps als Crawling Root verwendet werden und Access Check Regeln konfiguriert sind, die sich nicht auf das „url“ Metadatum beziehen, werden bei einer Deltaindizierung alle Dokumente neuindiziert die potentiell ACL Änderungen enthalten können (auch wenn das Änderungsdatum nicht neuer ist).

    Parallele Bearbeitung der URLsPermanenter Link zu dieser Überschrift

    Mit der Option „Use hashing queue assignment policy“ werden die input URLs Hash-basiert auf parallele Bearbeitungsschlangen verteilt. Die Anzahl der Bearbeitungsschlangen lassen sich mit der Option „Parallel Queue Count“ einstellen.

    Ohne die „Use hashing queue assignment policy“ Option werden die URLs Hostname-basiert verteilt.

    Entfernen von Dokumenten mit hoher PrioritätPermanenter Link zu dieser Überschrift

    Dokumente, welche nicht mehr verfügbar sind, werden am Ende des Crawldurchganges aus dem Index entfernt. Dabei werden alle Dokumente gelöscht, die nicht erfolgreich heruntergeladen und indiziert wurden.

    Wenn die Option „Incomplete Delta Crawl Runs“ aktiv ist, werden keine Dokumente am Ende des Crawlruns gelöscht.

    Zusätzlich kann mit der Option: “Invalid document deletion Schedule” ein Zeitplan konfiguriert werden, in dem nicht mehr verfügbare Dokumente parallel zum Crawldurchlauf aus dem Index entfernt werden. Dazu muss eine Extended Cron Expression in das Feld eingetragen werden.
    Eine Dokumentation und Beispiele zu Cron Expressions finden Sie hier.

    Das Bespiel: „0 */45 * * * ?“ bedeutet einen Löschdurchgang alle 45 Minuten.

    Dieser Zeitplan ist zusätzlich durch den Crawler Schedule beschränkt.

    Folgende Dokumente werden während des Crawlruns gelöscht:

    • Nicht gefundene Dokumente (HTTP Status 404, 410)
    • Umleitungen auf diese Dokumente (z.B. HTTP Status 301, 307)

    Wenn „Cleanup non matching URL-s from Index” aktiviert ist, werden zusätzlich folgende Dokumente gelöscht:

    • Laut „URL Exclude Pattern“ ignorierte Dokumente
    • Umleitungen auf diese Dokumente (z.B. HTTP Status 301, 307)

    Wenn die Option „Cleanup non matching URL-s from Index“ aktiv ist und kein “Invalid document deletion Schedule” definiert wurde, dann wird der Löschvorgang mit jedem Crawlrun gestartet. Handelt es sich um einen Delta Crawl Run, werden nur laut „URL Exclude Pattern“ ignorierte Dokumente gelöscht, ansonsten werden zusätzlich auch nicht erreichbare Dokumente gelöscht (HTTP Status 404, 410, 301, 307). Es handelt sich um einen Delta Crawl Run, wenn die Option „Incomplete Delta Crawl Runs“ aktiv ist oder bei der Option „Delta Crawling“ „Sitemap-based Incomplete“ ausgewählt ist.

    Appendix APermanenter Link zu dieser Überschrift

    Heritrix StatuscodesPermanenter Link zu dieser Überschrift

    Der Heritrix Web Crawler, der in die Mindbreeze Web Connector verwendet wird, protokolliert die Status Codes von alle URLs die besucht waren. Diese Status Codes können die HTTP-Statuscode von den Server Antworten sein oder folgende Heritrix-spezifische Fehlercode:

    Fehlercode

    Beschreibung

    1

    Erfolgreiche DNS Lookup.

    0

    Download war nicht probiert (vielleicht das Protokoll war nicht unterstützt oder illegales URI).

    -1

    DNS Lookup fehlgeschlagen.

    -2

    HTTP Verbindung fehlgeschlagen.

    -3

    HTTP Verbindung abgebrochen.

    -4

    HTTP Timeout.

    -5

    Unerwarteter Laufzeitfehler. Siehe runtime-errors.log.

    -6

    Domain-auflösung fehlgeschlagen.

    -7

    URI erkennt als nicht unterstützt oder illegal.

    -8

    Maximale Anzahl an Versuchen erreicht.

    -50

    Temporäre Status für URI-s die auf Voraussetzungsprüfung warten.

    -60

    URIs mit Fehlerstatus, die nicht im Frontier eingereiht waren.

    -61

    Voraussetzung von robots.txt nicht erfüllt.

    -62

    Eine andere Voraussetzung (nicht robots.txt) nicht erfüllt.

    -63

    Eine Voraussetzungsprüfung könnte nicht durchgeführt werden.

    -404

    Leeres HTTP Antwort.

    -3000

    Java Fehler wie OutOfMemoryError or StackOverflowError während URI Bearbeitung.

    -4000

    "Chaff" Erkennung von Fällen/Inhalt mit vernachlässigbarem Wert.

    -4001

    Zu viele Link Hops von der Ausgangsseite entfernt.

    -4002

    Zu viele Embed/Transitive Hops vom letzten URI im Scope entfernt.

    -5000

    Die URI ist bei der erneuten Untersuchung nicht verfügbar. Dies geschieht nur, wenn sich der Bereich während des Crawlvorgangs ändert.

    -5001

    Download durch eine Benutzereinstellung blockiert.

    -5002

    Download von einem Custom Crawler blockiert.

    -5003

    Gesperrt wegen Überschreitung einer festgelegten Quote.

    -5004

    Blockiert wegen Zeitüberschreitung.

    -6000

    Gelöscht von Frontier durch Benutzer.

    -7000

    Verarbeitungsfaden wurde vom Betreiber gekillt. Dies kann passieren, wenn ein Thread eine nicht reagierende Bedingung ist.

    -9998

    Robots.txt Regel erlauben den Download nicht.

    Unterstütze KomprimierungstypenPermanenter Link zu dieser Überschrift

    Der Mindbreeze WebConnector unterstützt Dokumente, die mit den folgenden Komprimierungstypen (Content-Encoding) komprimiert sind:

    • gzip
    • x-gzip
    • deflate
    • identity
    • none

    Wie wird mes:date bestimmt? Permanenter Link zu dieser Überschrift

    Die Entscheidung, welches Datum für mes:date verwendet wird, wird in folgender Reihenfolge getroffen:

    • Es wird geprüft, ob während dem Crawlrun das XML-Attribut "Last-Mod" extrahiert wurde. (Nur bei Sitemaps verfügbar)
    • Es wird geprüft, ob während dem Crawlrun das XML-Attribut "Publication Date" extrahiert wurde. (Nur bei Sitemaps verfügbar)
    • Wenn die oberen zwei Attribute nicht verfügbar sind (z.B., wenn eine normale Website und keine Sitemap gecrawlt wird), wird das aktuellere Datum aus den folgenden Zwei Werten verwendet:
    • Das Last-Modified Datum aus den Response-Headern
    • Wenn sich im HTML-Dokument ein <meta>-Tag mit dem Attribut „http-equiv“ (<meta http-equiv="Last-Modified" content="...">) befindet, wird das Datum aus diesem Tag extrahiert. Die Funktion dieses Tags ist äquivalent zu dem „Last Modified“ Header.

    Wenn kein mes:date gesetzt werden konnte (z.B., wenn das Parsen des Response-Headers fehlgeschlagen ist), wird als Fallback-Wert der aktuelle Zeitstempel während dem Abrufen des Dokuments verwendet.

    PDF herunterladen

    • Konfiguration - Web Connector

    Inhalt

    • Video Tutorial „Set up a basic Web Connector“
    • Konfiguration von Mindbreeze
    • Appendix A

    PDF herunterladen

    • Konfiguration - Web Connector