Installation und Konfiguration

Web Connector

Copyright ©

Mindbreeze GmbH, A-4020 Linz, .

Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller.

Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet.

Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.

Konfiguration von MindbreezePermanenter Link zu dieser Überschrift

Konfiguration von Index und CrawlerPermanenter Link zu dieser Überschrift

Bei der Auswahl der Installationsmethode wählen Sie „Advanced“.

Klicken Sie auf das „Indices“-Tab und danach auf das „Add new index“-Symbol, um einen neuen Index zu erstellen.

Geben Sie den Indexpfad ein, z.B. „C:\Index“. Passen Sie gegebenenfalls den Display Name des Index Service und des zugehörigen Filter Service an.

Fügen Sie eine neue Datenquelle mit dem Symbol „Add new custom source“ rechts unten ein.

Wenn nicht bereits ausgewählt, selektieren Sie „Web“ bei der Schaltfläche „Category“ aus.

Über die Einstellung „Crawler Interval“ konfigurieren Sie die Zeitspanne, die zwischen zwei Indizierungsdurchläufen gewartet wird.

Web PagePermanenter Link zu dieser Überschrift

Im Feld „URL Regex” können Sie einen regulären Ausdruck bestimmen, der ein Muster für die Links, die indiziert werden sollen, vorgibt. Wenn Sie das Feld leer lassen, werden alle Seiten mit dem gleichen Host- und Domain-Teilen wie die „Crawling Root“ indiziert (z.B. de.wikipedia.org bei „Crawling Root“ http://de.wikipedia.org). Es können mehrere Crawling Roots demselben Crawler hinzugefügt werden.

Sollen bestimmte URLs vom Crawlen ausgenommen werden, so können diese mit einem regulären Ausdruck unter „URL Exclude Pattern“ konfiguriert werden.

Mit „Convert URL-s to lower case“ Option werden alle gefundene URL-s auf Kleinschrift konvertiert.

Mit „Maximum Link Depth“ kann die Verschachtelungstiefe beim Extrahieren von Folgeseiten eingestellt werden. Der Wert „1“ wäre beispielsweise für eine Sitemap geeignet.

Sollte aus netzwerktechnischen Gründen die DNS-Auflösung bestimmter Webserver nicht klappen, kann man mit dem „Additional Hosts File“ die IPs vorgeben.

Möchte man bestimmte HTTP Header hinzufügen (beispielsweise Accept-Language), so kann man das über die „Accept Headers“ einstellen.

Wenn die Option „Incomplete Delta Crawl Runs“ aktiviert ist, bleiben nach dem Crawl Run auch die Seiten im Index, die von der „Crawling Root“ aus nicht mehr erreichbar sind. Um die Anzahl der Anfragen an den Web Server bei Deltaindizierungsläufen gering zu halten, besteht die Möglichkeit eine Seite, die nur Links zu geänderten Seiten enthält, als „Crawling Root“ zu konfigurieren.

ACHTUNG: Die Option „Incomplete Delta Crawl Runs“ darf nicht für Sitemap Delta Crawling verwendet werden. Siehe dafür „Sitemap basiertes Crawlen“.

Mit der Option: „Cleanup non matching URL-s from index“ werden alle Dokumente mit Adressen, die nicht den Regeln von URL Regex und URL Exclude Pattern entsprechen, gelöscht.

Mit der Option „Delete URL-s that are redirecting to excluded URL-s“ werden alle Dokumente die auf, mit “URL Exclude Pattern” ausgeschlossene, Dokumente weiterleiten (Redirect) gelöscht.

Mit der Option: „Delete URL-s that are no longer available“ werden alle Dokumente mit HTTP Status 401, 403 oder 404 vom Index ebenfalls gelöscht. Wenn diese Dokumente via Redirect erreicht wurden, werden die Herkunftsdokumente ebenfalls gelöscht.

Wenn ein regulärer Ausdruck als „Enforce Extension from URL if Matches“ Parameter gesetzt ist, wird für Dokumente mit passenden URL-s die Erweiterung aus der URL abgeleitet anstatt vom „Content-Type“ http Header.

Mit der Option „Max Retries“ wird bestimmt, wie oft der Connector versucht ein Dokument herunterzuladen, wenn temporäre Fehler (z.B. Socket Timeouts) auftreten. Der Standardwert ist 10. Wenn im Intranet gecrawlt wird und Socket Timeouts durch Überlastung der Datenquelle entstehen, wird empfohlen, den Wert auf 0 einzustellen, damit die Datenquelle nicht zusätzlich belastet wird.

Mit der Option „Retry Delay Seconds“ wird die Wartezeit (in Sekunden) bestimmt, die zwischen den Herunterladeversuchen vergehen (siehe „Max Retries“). Der Standardwert ist 1.

Sitemap basiertes CrawlenPermanenter Link zu dieser Überschrift

Um Sitemaps gemäß dem Sitemaps.org Protokoll zu verwenden, aktivieren Sie “Delta Crawling” und geben Sie die zentrale Sitemap Ihrer Webseite als Crawling Root an.

In diesem Modus liest der Connector die Webseiten exklusiv aus den Sitemaps aus. Hier werden sowohl die lastmod als auch die changefreq Eigenschaften der Seiten der Sitemap mit den indizierten Seiten verglichen. Mittels einer präzisen Sitemap können sehr hochfrequente Indizierungsstrategien angewendet werden.

Für den „Sitemap-based Delta Crawling“ Modus sind zwei Optionen verfügbar:

  • „Sitemap Based Incomplete“: die URLs von den konfigurierten Sitemaps sind indiziert, die schon indizierten Dokumente die nicht in den Sitemaps enthalten sind bleiben im Index.
  • „Sitemap Based Complete“: die URLs von den konfigurierten Sitemaps sind indiziert, die schon indizierten Dokumente die nicht in den Sitemaps enthalten sind werden gelöscht.

Wenn die Option „Pass Sitemap ACL and Metadata to Redirect Target URLs“ Option aktiv ist und http Redirects in Root URLs erlaubt sind, werden die Sitemap Metadaten und ACLs auch für die Redirect Ziel URL-s übernommen.

Mit der „Use Stream Parser“ Option wird ein Stream Parser verwendet für die Bearbeitung der Sitemaps. Diese Option ist für Sitemaps mit sehr viele URLs geeignet.

Mit der „Use extension defined in metadata for sitemap URLs“ Option, wenn der Metadatum „mes:extension“ gesetzt ist für ein Sitemap URL, wird der als File Extension übernommen.

Die Option „Sitemap Metadata Prefix“ stellt allen aus der Sitemap extrahierten Metadaten den konfigurierten Prefix voran.

Default Content TypePermanenter Link zu dieser Überschrift

Mit dem „Default Content Type“ Option kann der MIME-Typ für alle Dokumente gesetzt werden, bei denen kein MIME-Typ von der HTTP-Antwort gelesen werden kann.

Resource ParametersPermanenter Link zu dieser Überschrift

In diesem Abschnitt (nur verfügbar, wenn „Advanced Settings“ ausgewählt ist) kann noch die Crawl-Geschwindigkeit adjustiert werden.

Mit der Anzahl der Crawler-Threads („Number Of Crawler Threads“) kann definiert werden, wie viele Threads gleichzeitig Webseiten vom Webserver abholen.

Das „Request Interval“ definiert die Anzahl an Millisekunden, die der Crawler(-Thread) zwischen den einzelnen Requests warten soll. Eine „Crawl-Delay“ Robots-Anweisung wird jedoch auf alle Fälle berücksichtigt und überschreibt diesen Wert.

ProxyPermanenter Link zu dieser Überschrift

Im Abschnitt „Proxy“ können Sie einen Proxy Server eintragen, falls ihre Infrastruktur dies erfordert. Tragen Sie dazu den Computernamen und den Port des Proxy-Servers in „Proxy Host“ und „Proxy Port“ ein.

Der Web Connector kann sich am Proxy auch mittels HTTP-BASIC anmelden. Tragen Sie in das Feld „Proxy User“ den Benutzer und in „Proxy Password“ das zugehörige Passwort ein, wenn die Verbindungen über einen Proxy mit Authentifizierung erfolgen sollen.

AuthentisierungPermanenter Link zu dieser Überschrift

In diesem Kapitel werden die verschiedenen Authentisierungsmethoden für den Web Connector beschrieben. Das Kapitel beleuchtet dabei jene Methoden die verwendet werden können, um Inhalte, die sich hinter einem Login befinden, indizieren zu können.

Formularbasiertes LoginPermanenter Link zu dieser Überschrift

Dieser Abschnitt beschäftigt sich mit dem Mechanismus des formularbasierten Logins. Es handelt sich dabei um einen Mechanismus der einen Login über ein Login Formular und eine Sitzungsverwaltung durch HTTP Cookies durchführen kann.

Formularbasiertes Login simuliert das Benutzerverhalten und Browserverhalten, das notwendig ist, um derartige Logins zu automatisieren.

In diesem Kapitel werden zwei Szenarien beschrieben. Beide Szenarien basieren auf den Einstellungen der nachstehenden Abbildung.

Statisches formularbasiertes Login mit SitzungsverwaltungPermanenter Link zu dieser Überschrift

In diesem Szenario wird ein Post-Request an eine bestimmte URL gesendet, um die Authentifizierung auszulösen. Die URL, die dafür verwendet werden soll, wird unter Login URL eingetragen. Diese URL kann zum Beispiel mittels der Debugging-Funktionen des Webbrowsers ermittelt werden. Nachstehend werden die benötigten Optionen erklärt:

  • Session Initialization URL

In manchen Fällen ist es notwendig ein dynamisch generiertes Cookie von einer bestimmten URL abzuholen und dieses bereits beim formularbasierten Login mitzusenden. Auf die hier eingetragene URL wird ein http-get-request durchgeführt und die so erhaltenen Cookies beim eigentlichen Login mitgesendet.

  • Include Matching Cookies (Regular Expression)

Damit kann eingeschränkt werden, welche Cookies für die Sitzungsverwaltung gespeichert werden sollen. In dieses Feld muss ein regulärer Ausdruck eingegeben werden, welcher für die Namen jener Cookies zutrifft, die übernommen und für die Session verwendet werden sollen.

  • Form und Password Elements

Mit dieser Einstellung müssen die Namen und Werte jener Elemente angegeben werden, die beim http-post-request auf die Login URL verwendet werden. Dabei wird der Name des Feldes des HTML-Formulars angegeben. Alle Passwortfelder müssen unter Password Elements angegeben werden.

  • Follow Redirects for Login Post

Ist diese Option aktiviert, werden nach dem http-post-request auf die Login URL alle Redirects weiterverfolgt und alle Cookies gesammelt bis kein weiterer Redirect mehr angefordert wird oder die Authentifizierung erfolgreich ist.

Die weiteren Einstellungen werden für dieses Szenario nicht benötigt.

Komplexes formularbasiertes LoginPermanenter Link zu dieser Überschrift

Wenn das vorherige Szenario nicht ausreicht, können folgende Einstellungen verwendet werden:

  • Session Initialization URL

Diese URL wird zu Beginn aufgerufen um danach dynamisch weitergeleitet zu werden. Die dabei erhaltenen Cookies werden für die Session beibehalten.

  • Login Form Parameters

Wenn beim Login-Formular versteckte Felder gesetzt werden, können diese hier aufgelistet werden. Diese werden extrahiert und beim Login-Request mitgesendet. Ein typisches Beispiel dafür ist die dynamisch generierte FormID, die als hidden Parameter vom Webserver zurückgesendet wird.

  • Login URL Patterns

Alle Redirects, die den hier angegebenen regulären Ausdrücken entsprechen, werden beim Loginvorgang verfolgt

  • Login Post URL Patterns

Beim Folgen von Redirects, die den hier angegebenen regulären Ausdrücken entsprechen, werden alle gesammelten Formularparameter mittels http-post-request mitgesendet.

  • Logged in URL Patterns

Wird auf eine URL weitergeleitet, die den hier angegebenen regulären Ausdrücken entspricht, dann gilt der Loginvorgang als erfolgreich.

  • Maximum Allowed Count of Redirects

Hiermit kann die maximale Tiefe der verfolgten Redirects festgelegt werden.

  • Post to Configured Login URL

Ist diese Option gesetzt, so werden Weiterleitungen an eine „Login Post URL“ mit einem http-post-request an die unter „Session Initialization URL“ konfigurierte URL ersetzt.

  • Force Session Reneval After Expiration

Ist diese Option gesetzt wird die Login Prozess immer neu ausgeführt wenn die Sitzung älter ist als die konfigurierte Maximum Session Alter (Maximum Session Age in Seconds). Die Option funktioniert nur wenn „Post to Configured Login URL“ aktiv ist.

  • Maximum Session Age in Seconds

Maximum Session Alter in Sekunden.

NTLMPermanenter Link zu dieser Überschrift

Um NTLM Authentisierung zu verwenden, müssen zuerst User, Passwort und Domain im Network Tab als Credential konfiguriert werden:

Danach muss dieses Credential im Web Connector bei der Einstellung „NTLM Credential“ ausgewählt werden:

Authorization Basic HeaderPermanenter Link zu dieser Überschrift

Die Basic Authentication (Basisauthentifizierung) nach RFC 2617 ist die häufigste Art der HTTP-Authentifizierung. Der Webserver fordert mit

WWW-Authenticate: Basic realm="RealmName"

eine Authentifizierung an, wobei RealmName eine Beschreibung des geschützten Bereiches darstellt. Der Browser sucht daraufhin nach Benutzername/Passwort für diese URL und fragt gegebenenfalls den Benutzer ab. Anschließend sendet er die Authentifizierung mit dem Authorization-Header in der Form Benutzername:Passwort Base64-codiert an den Server.

Beispiel:

Authorization: Basic d2lraTpwZWRpYQ==

Um den im obigen Beispiel angegebenen Header einzustellen, muss dieser in der Option HTTP Request Header wie im nachstehenden Screenshot ersichtlich konfiguriert werden:

FilterkonfigurationPermanenter Link zu dieser Überschrift

Folgende Umgebungsvariablen sind verfügbar:

Cache-Einstellungen für die Erzeugung von VorschaubildernPermanenter Link zu dieser Überschrift

Die Variable MES_THUMBNAIL_CACHE_LOCATION legt das Verzeichnis für die Erstellung von Vorschaubildern fest. Die maximale Cache-Größe wird mit der Variable MES_THUMBNAIL_CACHE_SIZE_MB festgelegt. Der Cache wird nur dann verwendet, wenn beide Variablen gesetzt sind.

Beispiel (Linux):

export MES_THUMBNAIL_CACHE_LOCATION=/tmp/thumbcache

export MES_THUMBNAIL_CACHE_SIZE_MB=20

Auf Microsoft Windows Plattformen können diese Variablen in der Systemsteuerung festgelegt werden.

Timeout-Einstellungen für die Erzeugung von VorschaubildernPermanenter Link zu dieser Überschrift

Mit der Variable MES_THUMBNAIL_TIMEOUT kann der Standard-Timeout-Wert von 50 Sekunden verändert werden.

Beispiel (Linux):

export MES_THUMBNAIL_TIMEOUT=10

Auf Microsoft Windows Plattformen können diese Variablen in der Systemsteuerung festgelegt werden.

Hauptinhalt extrahieren mit alternativem Filter-ModusPermanenter Link zu dieser Überschrift

Beim Crawler von z.B. News-Seiten werden auch „unnütze“ Inhalte indiziert, wie Menüs oder Fußzeilen. Der HTML-Filter kann in einen alternativen Modus geschaltet werden, der mit einer Heuristik nur „sinnvolle“ Inhalte indiziert.

Es gibt mehrere Möglichkeiten zur Konfiguration:

Filter Plugin PropertiesPermanenter Link zu dieser Überschrift

Klicken Sie auf das „Filters“ Tab und aktivieren Sie „Advanced Settings“.

Im Abschnitt „Global Filter Plugin Properties“ wählen Sie „FilterPlugin.JerichoWithThumbnails(…)“ aus und klicken Sie auf „Add“.

Klappen Sie den neuen Eintrag „FilterPlugin.JerichoWithThumbnails“ auf und setzen Sie die Einstellung „Use Boilerpipe Extractor“ auf den Wert „Article“.

Anschließend neu Indizieren.

Datasource XPath MetadataPermanenter Link zu dieser Überschrift

Im Tab „Indices“ aktivieren Sie „Advanced Settings“.

Klappen Sie den betreffenden Index auf. Im Abschnitt „Data Source“, Unterabschnitt „Extract Metadata“ klicken Sie auf das Plus-Symbol „Add Composite Property“.

Tragen sie im neuen Abschnitt „Extract Metadata“ als Name: htmlfilter:extractor und XPath: "Article" (Wichtig: unter Hochkomma) ein.

Anschließend neu Indizieren.

Leere HTML-Elemente ignorierenPermanenter Link zu dieser Überschrift

Wenn in Dokumenten leere HTML-Elemente vorkommen, können Sie einen regulären Ausdruck definieren, welcher diese Elemente beim Filtern entfernt.

Es gibt mehrere Möglichkeiten zur Konfiguration:

Filter Plugin PropertiesPermanenter Link zu dieser Überschrift

Klicken Sie auf das „Filters“ Tab und aktivieren Sie „Advanced Settings“.

Im Abschnitt „Global Filter Plugin Properties“ wählen Sie „FilterPlugin.JerichoWithThumbnails(…)“ aus und klicken Sie auf „Add“.

Klappen Sie den neuen Eintrag „FilterPlugin.JerichoWithThumbnails“ auf und setzen Sie die Einstellung „Ignore Empty Tags Pattern“ auf z.B. den Wert „^(ul|li|a|div)$“. Dies bedeutet, dass die HTML-Elemente ul, li, a und div entfernt werden, falls diese leer sind.

Anschließend neu Indizieren.

Datasource XPath MetadataPermanenter Link zu dieser Überschrift

Im Tab „Indices“ aktivieren Sie „Advanced Settings“.

Klappen Sie den betreffenden Index auf. Im Abschnitt „Data Source“, Unterabschnitt „Extract Metadata“ klicken Sie auf das Plus-Symbol „Add Composite Property“.

Tragen sie im neuen Abschnitt „Extract Metadata“ als Name: htmlfilter:ignoreEmptyCharactersElementTagsPattern und XPath: "^(ul|li|a|div)$" (Wichtig: unter Hochkomma) ein. Dies bedeutet, dass die HTML-Elemente ul, li, a und div entfernt werden, falls diese leer sind.

Anschließend neu Indizieren.

Googleon/Googleoff Tags anwendenPermanenter Link zu dieser Überschrift

Die Google GSA definiert einen Mechanismus, um innerhalb einer einzelnen HTML-Website gewisse Teile als „nicht durchsuchbar“ markieren zu können. Diese markierten Teile werden dann nicht indiziert, der Rest der Seite allerdings schon. Die Markierungen sind HTML-Kommentare, die paarweise gesetzt werden.

Unterstützt werden folgende Tags:

fish <!--googleoff: index-->shark <!--googleon: index-->dog

„fish“ und „dog“ werden indiziert, „shark“ nicht

fish <!--googleoff: snippet-->shark <!--googleon: snippet-->dog

fish <!--googleoff: all-->shark <!--googleon: all-->dog

<!--googleoff: anchor--><A href=subsite.html>shark </A>dog <!--googleon: anchor-->

„dog“ wird indiziert, „shark“ nicht

Es gibt mehrere Möglichkeiten zur Konfiguration.

Systemweites Verwendung mit Global Filter Plugin PropertiesPermanenter Link zu dieser Überschrift

Zum Aktivieren dieser Funktion klicken Sie auf das „Filters“ Tab und klicken Sie auf „Advanced Settings“.

Im Abschnitt „Global Filter Plugin Properties“ wählen Sie „FilterPlugin.JerichoWithThumbnails(…)“ aus und klicken Sie auf „Add“.

Klappen Sie den neuen Eintrag „FilterPlugin.JerichoWithThumbnails“ auf und haken Sie die Einstellung „Apply googleon/googleoff Tags“ an. Anschließend reindizieren.

Verwendung im Web-ConnectorPermanenter Link zu dieser Überschrift

In den Web-Connector Einstellungen unter der Sektion „Content Extraction“ haken Sie die Einstellung „Apply googleon/googleoff Tags“ an. Anschließend reindizieren.

Crawlerspezifische Verwendung mit Datasource XPath MetadataPermanenter Link zu dieser Überschrift

Im Tab „Indices“ aktivieren Sie „Advanced Settings“.

Klappen Sie den betreffenden Index auf. Im Abschnitt „Data Source“, Unterabschnitt „Extract Metadata“ klicken Sie auf das Plus-Symbol „Add Composite Property“.

Tragen sie im neuen Abschnitt „Extract Metadata“ als Name: htmlfilter:applygoogleonoff und XPath: "true" (Wichtig: unter Hochkomma) ein.

Anschließend neu Indizieren.

AutorisierungPermanenter Link zu dieser Überschrift

Um die Autorisierungsparameter zu konfigurieren soll die „AuthorizedWeb“ Kategorie ausgewählt werden.

Konfiguration von „Access Check Rules“Permanenter Link zu dieser Überschrift

Ein Access Check Rule besteht aus:

“Access Check Principal”, die Benutzernamen können im username@domain Fromat oder im domain\username Fromat oder distinguished name Format sein. Die Gruppennamen können nur im distinguished name Format sein. Weiters kann hier ein Verweis auf eine Capture-Group in der Selection Pattern verwendet werden (siehe Access Rules[3]).

“Access Check Action”, Grant order Deny.

“Metadata Key for Selection”, ein Metadatenname, kann leer sein (alle Dokumente werden selektiert)

“Selection Pattern”, eine Regularexpression, kann leer sein (alle Dokumente werden selektiert).

Parallele Bearbeitung der URL-sPermanenter Link zu dieser Überschrift

Mit der Option „Use hashing queue assignment policy“ werden die input URLs Hash-basiert auf parallele Bearbeitungsschlangen verteilt. Die Anzahl der Bearbeitungsschlangen lassen sich mit der Option „Parallel Queue Count“ einstellen.

Ohne die „Use hashing queue assignment policy“ Option werden die URLs Hostname-basiert verteilt.

Entfernen von Dokumenten mit hoher PrioritätPermanenter Link zu dieser Überschrift

Dokumente, welche nicht mehr verfügbar sind, werden am Ende des Crawldurchganges aus dem Index entfernt. Zusätzlich kann mit der Option: “Invalid document deletion schedule” ein Zeitplan konfiguriert werden, in dem nicht mehr verfügbare Dokumente parallel zum Crawldurchlauf aus dem Index entfernt werden.

Das Bespiel: „0 */45 * * * ?“ bedeutet einen Löschdurchgang alle 45 Minuten.

Dieser Zeitplan ist zusätzlich durch den Crawler Schedule beschränkt.

Folgende Dokumente werden gelöscht:

  • Nicht gefundene Dokumente (HTTP Status 404, 410)
  • Umleitungen auf diese Dokumente (z.B. HTTP Status 301, 307)

Wenn „Cleanup non matching URL-s from Index” aktiviert ist, werden zusätzlich folgende Dokumente gelöscht:

  • Laut „URL Exclude Pattern“ ignorierte Dokumente
  • Umleitungen auf diese Dokumente (z.B. HTTP Status 301, 307)

Mindbreeze Sitemap-ErweiterungenPermanenter Link zu dieser Überschrift

Wenn „Sitemap-based“ Delta Crawling konfiguriert ist, werden die Crawling Root URL-s als Sitemaps bearbeitet. Der Mindbreeze Web Connector unterstützt gewisse Erweiterungen des Sitemap Datenformats, damit man ACL Information und Metadaten in Sitemaps definieren kann.

Sitemaps mit Access Control Lists (ACL)Permanenter Link zu dieser Überschrift

ACL Information kann man für alle <url> Elemente einer Sitemap definieren.

ACLs aus Sitemaps können nicht gemeinsam mit den AccessCheck Rules verwended werden.

Ein Beispiel für eine ACL Definition ist:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:wstxns1="tag:mindbreeze.com,2008:/indexing/interface" >

  <url xmlns:ns3="http://www.google.com/schemas/sitemap-news/0.9">

    <loc>http://myserver.mycompany.com </loc>

    <lastmod>2016-02-11T13:11:14.07Z</lastmod>

    <priority>0.0</priority>

    <wstxns1:acl>

      <wstxns1:grant>User1 </wstxns1:grant>

      <wstxns1:deny>User2 </wstxns1:deny>

    </wstxns1:acl>

  </url>

Der Zugriff auf die Bespiel URL wird für User1 erlaubt und für User2 abgelehnt.

Jeder User besitzt automatisch die Rolle „everyone“.

Sitemaps mit MetadatenPermanenter Link zu dieser Überschrift

Metadaten können ähnlich wie ACL-s in <url> Elementen definiert werden. Ein Beispiel für eine Sitemap mit Metadaten ist:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:wstxns1="tag:mindbreeze.com,2008:/indexing/interface" >

  <url xmlns:ns3="http://www.google.com/schemas/sitemap-news/0.9">

    <loc>http://myserver.mycompany.com </loc>

    <lastmod>2016-02-11T13:11:14.07Z</lastmod>

    <priority>0.0</priority>

    <wstxns1:meta key=”title”>

      < wstxns1:value>Page Title</wstxns1:value>

    </wstxns1:meta>

  </url>

Für die “meta” Elemente ist es möglich mehrere “Value” Unterelemente zu definieren, wenn das Metadatum eine Liste von Werte hat:

    <wstxns1:meta key=”telefonnummer”>

      < wstxns1:value>1234234245</wstxns1:value >

      < wstxns1:value>1234234344</wstxns1:value>

    </wstxns1:meta>


Appendix APermanenter Link zu dieser Überschrift

Heritrix StatuscodesPermanenter Link zu dieser Überschrift

Der Heritrix Web Crawler, der in die Mindbreeze Web Connector verwendet wird, protokolliert die Status Codes von alle URLs die besucht waren. Diese Status Codes können die HTTP-Statuscode von den Server Antworten sein oder folgende Heritrix-spezifische Fehlercode:

1

Erfolgreiche DNS Lookup

0

Download war nicht probiert (vielleicht das Protokoll war nicht unterstützt oder illegales URI)

-1

DNS Lookup fehlgeschlagen

-2

HTTP Verbindung fehlgeschlagen

-3

HTTP Verbindung abgebrochen

-4

HTTP Timeout

-5

Unerwarteter Laufzeitfehler.  Siehe runtime-errors.log.

-6

Domain-auflösung fehlgeschlagen.

-7

URI erkennt als nicht unterstützt oder illegal

-8

Maximale Anzahl an Versuchen erreicht.

-50

Temporäre Status für URI-s die auf Voraussetzungsprüfung warten.

-60

URIs mit Fehlerstatus, die nicht im Frontier eingereiht waren.

-61

Voraussetzung von robots.txt nicht erfüllt.

-62

Eine andere Voraussetzung (nicht robots.txt) nicht erfüllt

-63

Eine Voraussetzungsprüfung könnte nicht durchgeführt werden

-404

Leeres HTTP Antwort

-3000

Java Fehler wie OutOfMemoryError or StackOverflowError während URI Bearbeitung

-4000

"Chaff" Erkennung von Fällen/Inhalt mit vernachlässigbarem Wert.

-4001

Zu viele Link Hops von der Ausgangsseite entfernt.

-4002

Zu viele Embed/Transitive Hops vom letzten URI im Scope entfernt.

-5000

Die URI ist bei der erneuten Untersuchung nicht verfügbar. Dies geschieht nur, wenn sich der Bereich während des Crawlvorgangs ändert.

-5001

Download durch eine Benutzereinstellung blockiert.

-5002

Download von einem Custom Crawler blockiert

-5003

Gesperrt wegen Überschreitung einer festgelegten Quote.

-5004

Blockiert wegen Zeitüberschreitung

-6000

Gelöscht von Frontier durch Benutzer.

-7000

Verarbeitungsfaden wurde vom Betreiber gekillt. Dies kann passieren, wenn ein Thread eine nicht reagierende Bedingung ist.

-9998

Robots.txt Regel erlauben den Download nicht.