Copyright ©
Mindbreeze GmbH, A-4020 Linz, .
Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller.
Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet.
Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.
Vor der Installation des Atlassian Confluence Connector Plugins muss sichergestellt werden, dass der Mindbreeze Server installiert ist und dieser Connector auch in der Mindbreeze Lizenz inkludiert ist. Auf dem Mindbreeze InSpire Server ist der Atlassian Confluence Connector standardmäßig installiert. Wenn Sie den Connector manuell installieren oder aktualisieren möchten, verwenden Sie dazu das Mindbreeze Management Center.
Klicken Sie auf den „Indices“-Tab und danach auf das „Add new index“-Symbol, um einen neuen Index zu erstellen.
Geben Sie den Indexpfad ein, z.B. „/data/indices/confluence“. Passen Sie gegebenenfalls den Display Name des Index Service und des zugehörigen Filter Service an.
Fügen Sie eine neue Datenquelle mit dem Symbol „Add new custom source“ rechts unten ein.
Wenn nicht bereits ausgewählt, selektieren Sie „Atlassian Confluence“ bei der Schaltfläche „Category“.
Über die Einstellung „Crawler Interval“ konfigurieren Sie die Zeitspanne, die zwischen zwei Indizierungsdurchläufen gewartet wird.
Im Feld Crawling Root können Sie eine URL angeben, über den eine Atlassian Confluence Sitemap erreichbar ist. Wenn Sie das Mindbreeze Sitemap Generator Add-On auf ihren Atlassian Confluence Server installiert haben und eine Sitemap erzeugt ist, sollte hier die URL <Atlassian Confluence URL>/plugins/servlet/sitemapservlet?jobbased=true eingetragen werden.
Im Feld „URL Regex” können Sie einen regulären Ausdruck bestimmen, der ein Muster für die Links vorgibt, die indiziert werden sollen.
Sollen bestimmte URLs vom Crawlen ausgenommen werden, so können diese mit einem regulären Ausdruck unter „URL Exclude Pattern“ konfiguriert werden.
Mit der Option „Include URL By Metadata“ bzw. „Exclude URL by Metadata“ können beim Crawlen mit Sitemaps, gewisse Seiten anhand der Metadaten in der Sitemap ausgenommen werden. Das Feld „Metadata Name“ spezifiziert den Namen des Metadatums und das Feld „Pattern“ den regulären Ausdruck, gegen den der Wert des Metadatums gematcht wird.
Werden „URL Regex“, „URL Exclude Pattern“ und „Include/Exclude URL by Metadata“ gleichzeitig verwendet, wird zuerst „URL Regex“ angewendet, dann die Seiten mit „URL Exclude Pattern“ ausgeschlossen und letztendlich die restlichen Seiten mit „Include/Exclude URL by Metadata“ gefiltert.
Mit der Option „Convert URLs to lower case“ werden alle gefundene URLs auf Kleinschrift konvertiert.
Sollte aus netzwerktechnischen Gründen die DNS-Auflösung bestimmter Webserver nicht klappen, kann man mit dem „Additional Hosts File“ die IPs vorgeben.
Möchte man bestimmte HTTP Header hinzufügen (beispielsweise Accept-Language), so kann man das über die „Accept Headers“ einstellen.
Falls Confluence Sitemaps gecrawlt werden, können die Inhalte von Seiten mit der Option „Use Rest API for Page Content“ Performance-schonend und ohne die Ausführung von Macros bezogen werden.
Mit der Option „Confluence Rest API Base Path“ kann ein Basispfad konfiguriert werden, auf dem die Confluence Rest API erreichbar ist.
Mit der Option “Confluence Rest Content Representation” kann bestimmt werden, in welchem Format der Inhalt der Confluence Seiten abgeholt werden soll. Der Standardwert „Storage“ ist Performance-schonend, da keine Macros am Confluence Service ausgeführt werden, jedoch kann der Inhalt in gewissen Situationen unvollständig oder inkorrekt sein. Mit der Option „Export View“ werden Macros ausgeführt, was zu verbesserter Darstellung führen kann, jedoch die Performance beeinträchtigen kann. Für weitere Informationen zu diesen Optionen siehe https://docs.atlassian.com/atlassian-confluence/6.5.2/com/atlassian/confluence/api/model/content/ContentRepresentation.html.
Mit der Option „Confluence Rest Content Extension” kann die Extension der indizierten Mindbreeze Dokumente bestimmt werden. Dies hat Einfluss auf den konkreten Filter, der verwendet wird.
Um die Verwendung von Macros tatsächlich zu verhindern, sollte zusätzlich das HTML Thumbnailing deaktiviert werden. Wenn die Option „Disable Web Page Thumbnail Generation“ aktiv ist, wird auf alle Dokumente das Metadatum „htmlfilter:skipthumbnailgneneration“ gesetzt. Im Filter Service müssen dann noch zusätzliche Optionen konfiguriert werden (siehe Absatz nach Screenshot).
Mit der Option „Max Retries“ wird bestimmt, wie oft der Connector versucht ein Dokument herunterzuladen, wenn temporäre Fehler (z.B. Socket Timeouts) auftreten. Der Standardwert ist 0. (Kein weiterer Herunterladeversuch). Wenn über ein instabiles Netzwerk gecrawlt wird (das Timeouts verursacht), sollte dieser Wert auf z.B. 10 erhöht werden. Wenn die Timeouts durch eine überlastete Datenquelle entstehen, sollte der Wert auf 0 belassen werden, damit die Datenquelle nicht zusätzlich belastet wird.
Mit der Option „Retry Delay Seconds“ wird die Wartezeit (in Sekunden) bestimmt, die zwischen den Herunterladeversuchen vergehen (siehe „Max Retries“). Der Standardwert ist 1.
Um HTML Thumbnailing zu deaktivieren, setzen Sie im Filter Service für das Filter Plugin „JerichoWithThumbnails“ die Option „Disable Thumbnails Metadata Pattern“ auf „htmlfilter:skipthumbnailgeneration“. Dadurch werden die HTML Dokumente wo das Metadatum „htmlfilter:skipthumbnailgeneration“ gesetzt ist, ohne Thumbnail indiziert.
Um Confluence Sitemaps bearbeiten zu können, aktivieren Sie “Delta Crawling” und geben Sie die Confluence Sitemap URL als Crawling Root an.
In diesem Modus liest der Connector die Webseiten exklusiv aus den Sitemaps aus. Hier wird die Eigenschaft lastmod der Seiten der Sitemap mit den indizierten Seiten verglichen. Mittels einer präzisen Sitemap können sehr hochfrequente Indizierungsstrategien angewendet werden.
Für den „Sitemap-based Delta Crawling“ Modus sind zwei Optionen verfügbar:
Mit der „Use Stream Parser“ Option wird ein Stream Parser für die Bearbeitung der Sitemaps verwendet. Diese Option ist für Sitemaps mit sehr vielen URLs geeignet.
In diesem Abschnitt (nur verfügbar, wenn „Advanced Settings“ ausgewählt ist) kann noch die Crawl-Geschwindigkeit adjustiert werden.
Mit der Anzahl der Crawler-Threads („Number Of Crawler Threads“) kann definiert werden, wie viele Threads gleichzeitig Webseiten vom Webserver abholen.
Das „Request Interval“ definiert die Anzahl an Millisekunden, die der Crawler(-Thread) zwischen den einzelnen Requests warten soll. Eine „Crawl-Delay“ Robots-Anweisung wird jedoch auf alle Fälle berücksichtigt und überschreibt diesen Wert.
Im Tab „Network“ können Sie einen Proxy Server eintragen, falls Ihre Infrastruktur dies erfordert.
In diesem Abschnitt werden die verschiedenen Authentisierungsmethoden für den Atlassian Confluence Connector beschrieben. Der Abschnitt beleuchtet dabei jene Methoden die verwendet werden können, um Inhalte, die sich hinter einem Login befinden, indizieren zu können.
Wenn die Atlassian Confluence Sitemap mit formularbasiertem Login erreichbar ist, können die Login Parameter im Abschnitt „Form Based Login“ folgendermaßen konfiguriert werden:
Wenn das vorherige Szenario nicht ausreicht, können folgende Einstellungen verwendet werden:
Um NTLM Authentisierung zu verwenden, müssen zuerst User, Passwort und Domain im Network Tab als Credential konfiguriert werden:
Danach muss dieses Credential im Atlassian Confluence Connector bei der Einstellung „NTLM Credential“ ausgewählt werden.
Im Feld „Mindbreeze InSpire Fully Qualified Domain Name“ muss zusätzlich der „Fully Qualified Domain Name“ des Mindbreeze InSpire-Servers angegeben werden.
Anmerkung: Wenn NTLM Authentisierung verwendet wird, funktionieren die Thumbnails in Mindbreeze InSpire nicht.
Ein Access Check Rule besteht aus:
Fügen Sie das Caching Confluence Principal Resolution Service hinzu (ConfluenceAccessx.x.x.zip muss zuerst im Reiter „Plugins” installiert werden).
Geben Sie den Verzeichnispfad für den Cache im „Database Directory Path“ Feld an und ändern Sie, wenn notwendig, die „Cache In Memory Items Size“, abhängig vom verfügbaren Speicherplatz der JVM. Im „Cache Update Interval (Minutes)“ Feld geben sie die Zeit (Minuten) an, die gewartet wird bevor der Cache aktualisiert wird. Beim ersten Starten des Service wird diese Zeit ignoriert. Beim nächsten Starten des Services, wird diese Zeit berücksichtigt. Die Einstellungen „Health Check Interval“, „Health Check max. Retries On Failure“ und „Heath Check Request Timeout“ ermöglichen es, dass dieser Service neugestartet wird falls es z.B. dauerhafte Verbindungsprobleme gibt.
Das Service ist am angegebenen “Webservice Port” verfügbar. Wenn mehrere Principal Resolution Services konfiguriert sind, stellen Sie sicher, dass die „Webservice Port“ Parameter unterschiedlich sind und die konfigurierten Ports verfügbar sind.
Deaktivieren Sie die Option „Lowercase Principals“, damit Groß- und Kleinschreibung der Principals nicht verändert wird.
Aktivieren Sie die Option „Case Insensitive Member Resolution“, damit beim Auflösen der Principals nicht auf Groß- und Kleinschreibung geachtet wird.
Wenn Benutzer bei einer Suchanfrage nicht aufgelöst werden können, wird eine Anfrage direkt an Confluence abgesetzt, wenn die Option „Supress Confluence Service Calls“ nicht aktiviert ist. Aus Performancegründen wird jedoch empfohlen, diese Option zu aktivieren, sodass keine Live-Anfragen an Confluence gestellt werden.
Diese Option muss aktiviert werden, falls der „Parent Principals Cache Service Port“ benutzt werden soll. | |
Parent Principals Cache Service Port | Diese Option muss konfiguriert werden, wenn die Auflösung von Confluence Benutzer Principals die Benutzer Principals eines anderen Caches (z.B. Atlassian Crowd) erfordert. |
Parent Cache Principals Include Patterns | Benutzer Principals, die eine der angegebenen RegEx-Pattern matchen, werden inkludiert. |
Parent Cache Principals Exclude Patterns | Benutzer Principals, die eine der angegebenen RegEx-Pattern matchen, werden exkludiert. |
Parent Principals Are Unique IDs | Diese Option darf nicht ausgewählt werden, falls die aufgelösten Benutzer Principals Aliasnamen enthalten. |
Um das Caching Principal Resolution Service zu testen, können Sie die Principal Resolution Service REST API verwenden.