Copyright ©
Mindbreeze GmbH, A-4020 Linz, .
Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller.
Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet.
Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.
Fügen Sie im Tab Indices mit dem Button +Add Index einen neuen Index hinzu. Wählen Sie den gewünschten Index Node und Client Service aus und geben Sie im Feld Data Source die Datenquelle JiveSoftware Jive an. Bestätigen Sie Ihre Eingaben anschließend mit dem Button Apply.
Zusätzlich müssen Sie noch unter „Advanced Settings“ die Option „Use ACL References“ des Index aktivieren.
Konfigurieren Sie nun die Datenquelle.
Legende:
Crawling Root* | In diesem Feld können Sie Ein URL angeben wo ein Jive Sitemap erreichbar ist. Wenn Sie den Mindbreeze Sitemap Generator Add-On auf ihren Jive Server installiert ist und eine Sitemap erzeugt wurde, sollte hier die URL <Jive URL>/rpc/rest/mindbreeze/sitemap?jobid=full eingetragen werden. | ||||||
URL Regex | In diesem Feld können Sie einen regulären Ausdruck bestimmen, der ein Muster für die Links, die indiziert werden sollen, vorgibt. | ||||||
URL Exclude Regex | Sollen bestimmte URLs vom Crawlen ausgenommen werden, so können diese hier mit einem regulären Ausdruck konfiguriert werden. | ||||||
Skip Thumbnail Generation URL Pattern | Sollen für gewisse URLs keine Vorschaubilder erzeugt werden, können diese mit einem regulären Ausdruck hier konfiguriert werden. | ||||||
Thumbnailer URL Exclude Pattern | Sollen beim Erzeugen von Vorschaubildern bestimmte URLs blockiert werden (z.B. URLs, welche Werbung nachladen), so können diese hier mit einem regulären Ausdruck konfiguriert werden. | ||||||
User Agent | Der angegebene Wert wird im User-Agent Header bei HTTP-Request mitgesendet. | ||||||
Additional Hosts File | Sollte aus netzwerktechnischen Gründen die DNS-Auflösung bestimmter Webserver nicht klappen, kann man mit dem „Additional Hosts File“ die IPs vorgeben. | ||||||
Ignore Proxy | Wenn aktiviert, wird kein HTTP-Proxy verwendet, unabhängig was im „Network“-Tab konfiguriert ist. | ||||||
Accept-Headers | Möchte man bestimmte HTTP Header hinzufügen (beispielsweise Accept-Language), so kann man diese hier einstellen. | ||||||
Incomplete Delta Crawl Runs | Wenn diese Option aktiviert ist, bleiben nach dem Crawl Run auch die Seiten im Index, die von der „Crawling Root“ aus nicht mehr erreichbar sind. | ||||||
Enforce Matching Parent as ACL Reference. | Hier kann ein Pattern definiert werden. Wenn ein Dokument einen Parent Container besitzt und dessen Key mit dem angegebenen Pattern übereinstimmt, wird die ACL Reference auf den Key des Parent Containers anstelle der Default ACL Reference gesetzt. | ||||||
Use hashing queue assignment policy | Wenn aktiviert, werden die Input URLs Hash-basiert auf parallele Bearbeitungsschlangen verteilt. Die Anzahl der Bearbeitungsschlangen lässt sich mit der Option „Parallel queue Count“ einstellen. Wenn deaktiviert, werden die URLs Hostname-basiert verteilt. | ||||||
Parallel queue count | Mit dieser Option können Sie die Anzahl der Bearbeitungsschlangen einstellen. | ||||||
Robots Honoring Policy | Bestimmt, wie mit einer robots.txt (wenn vorhanden) umgegangen wird. 3 Möglichkeiten:
| ||||||
Website Cache Directory | Pfad, in dem das Cache-Verzeichnis erstellt werden soll. Wenn diese Option gesetzt ist, ist Caching aktiviert. | ||||||
Maximum Mirror Database Size (MB) | Maximale Größe der für die Zwischenspeicherung verwendeten Datenbank in MB. Die Standardgröße beträgt 512 MB. | ||||||
Use Cache Only | Wenn aktiviert, werden die Dokumente ausschließlich aus dem Cache geladen. | ||||||
Maximum Number of Extracted Links | Maximale Anzahl von Links, die aus einem Dokument extrahiert werden können. Der Standardwert ist 6000. | ||||||
HTTP Request Header | Hier können HTTP Header definiert werden, die bei jedem Request mitgeschickt werden | ||||||
Mit dieser Einstellung können Duplikate Dokumente vermieden werden. Hinweis: Damit diese Einstellung funktioniert, muss zusätzlich das Mindbreeze PostFilterTransformerPlugin SignatureToKeyRewriter konfiguriert sein. Es stehen Ihnen unterschiedliche Methoden zur Verfügung, wie Duplikate erkannt und überschrieben werden, sodass diese nicht mehrfach gefundenen werden. Folgende Methoden sind auswählbar:
| |||||||
Disable Diffie-Hellman ciphers | Wenn angehakt, werden Diffie-Hellman-Chiffren für SSL-Verbindungen deaktiviert. | ||||||
Support redirects in crawling roots. | Handelt es sich bei der Crawling-Root um eine Umleitung, wird die Umleitungsstelle gecrawlt. | ||||||
Ignore SSL/Certificate Errors | Wenn aktiviert, werden HTTPS SSL oder Zertifikatsfehler ignoriert. Diese Einstellung darf aus Sicherheitsgründen nur in Testsystemen aktiviert werden. |
Title | Ein XPath Ausdruck der den Titel auf den ersten Treffer setzt. (z.B.: //h1) | ||||||||
Title Element | Der Tag-Name des Titel Elements. | ||||||||
Use link text for title. | Ein regulärer Ausdruck der den Titel des Dokuments bei Verlinkungen setzt. (z.B.: *\.pdf) | ||||||||
Content | Ein XPath Ausdruck der den Inhalt auf den ersten Treffer setzt. (z.B.: //div[@class=‘content‘]) | ||||||||
Content Metadata Selector | Der Selektor für Inhalts-Metadaten. | ||||||||
Exclude Tags from Content | Ein XPath Ausdruck der spezielle Tags vom Inhalt exkludiert. | ||||||||
Metadata Selector | Der Selektor für Metadaten. | ||||||||
Metadata Value Pattern | Ein regulärer Ausdruck für den Wert der Metadaten. (z.B.: \W*([\w \t]*)\W*) | ||||||||
URLs Excluded From Filtering | Ein regulärer Ausdruck für URLs die gecrawled, aber nicht gefiltert werden sollen. | ||||||||
Display Date Timezone | Zeitzone für das Anzeigedatum. (z. B. CET) | ||||||||
Default Encoding | Kodierung für die HTML-Dokumente. | ||||||||
Extract Metadata |
| ||||||||
Exclude Documents With Matching Elements |
| ||||||||
Diese Option ist veraltet und sollte nicht konfiguriert werden. Um einem Dokument zusätzliche Metadaten hinzuzufügen, können Sie Entity Recognition, CSV Transformation oder Synthesized Metadata verwenden. |
In diesem Abschnitt kann noch die Crawl-Geschwindigkeit adjustiert werden.
Memory Profile | Das „InSpire“-Profil ist Standard, bei Bedarf kann auch das ressourcenschonende „InSite“-Profil verwendet werden. |
Number of Crawler Threads | Die Anzahl der Threads, welche die Webseite(n) parallel crawlen. |
Minimum Request Interval | Mindestverzögerung in Millisekunden zwischen aufeinanderfolgenden Anfragen des Crawlers. Eine „Crawl-Delay“ Robots-Anweisung setzt diesen Wert außer Kraft. |
Maximum Request Interval | Maximale Verzögerung in Millisekunden zwischen aufeinanderfolgenden Anfragen des Crawlers. Eine „Crawl-Delay“ Robots-Anweisung setzt diesen Wert außer Kraft. |
Crawler Queue Size | Maximale Anzahl der Dokumente in der Warteschlange, die an den Index gesendet werden. |
Mindbreeze Dispatcher Thread Count | Die Anzahl der Threads, die parallel Daten an den Index senden. |
Hier muss ein Credential ausgewählt werden (falls die „Form Based Login“-Authentifizierungsmethode nicht ausgewählt wurde), welches bei der Basic Authentifizierung für die HTTP Anfragen verwendet wird. Hier sollte ein Credential vom Typ „Username/Password“ angegeben werden.
Dieses Credential kann im Reiter „Network“ unter „Credentials“ hinzugefügt und konfiguriert werden.
Der Mindbreeze Jive Connector unterstützt auch OAuth, aber wegen technischen Einschränkungen der Jive API Endpunkte muss zusätzlich auch Basic Authentication konfiguriert werden. Um OAuth zu konfigurieren, muss in den Jive Einstellungen ein Add-On hochgeladen werden. Dieses Add-On kann hier erstellt werden. Das erstellte Add-On kann hier hochgeladen werden: <Jive URL>/addon-services!input.jspa
Unter „Action“ können dann „Client ID“ und „Secret“ eingesehen werden.
Für die OAuth Authentication muss ein Credential vom Typ „OAuth 2“ angelegt werden, welches bei der OAuth Authentifizierung für die HTTP Anfragen verwendet wird. Für das Credential wird die „Client ID“ und das „Client Secret“ benötigt.
Das Credential kann dann im Reiter „Network“ unter „Credentials“ erstellt und konfiguriert werden.
Im Abschnitt „OAuth access authentication“ wählt man nun das Credential aus, welches man vorhin konfiguriert hat.
Wenn die Jive Sitemap mit HTTP form based Authentisierung erreichbar ist, können die Login Parameter im Abschnitt „Form Based Login“ folgendermaßen konfiguriert werden: (Falls die „Basic access authentication“-Authentifizierungsmethode nicht ausgewählt wurde)
Login URL | Die Jive URL, an die das Login Formular geschickt werden soll: z.B. http://<jive_url>/cs_login | ||||
Session renewer URL Pattern. | Regulärer Ausdruck, der auf die URL für die Erneuerung der Sitzung angepasst ist. | ||||
Follow Redirects for Login Post | Wenn aktiviert, wird „multiple-round-authentication“ unterstützt. | ||||
Form Elements |
| ||||
Form Password Elements |
|
Zusätzlich gibt es noch die Möglichkeit, sogenannte „Access Rules“ zu definieren, wobei diese aus folgenden Optionen bestehen:
Access Check Principal | Die Benutzernamen können im Format „username@domain“, „domain\username“ oder „distinguished name“ sein. Die Gruppennamen können nur im Format „distinguished name“ sein. Weiters kann hier ein Verweis auf eine Capture-Group in der Selection Pattern verwendet werden. |
Access Check Action | “Grant” oder “Deny”. |
Metadata Key for Selection (e.g. url) | Ein Metadatenname, kann leer sein (alle Dokumente werden selektiert). |
Selection Pattern (e.g. .*html) | Eine Regularexpression, kann leer sein (alle Dokumente werden selektiert). |
Jive URL* | Basis URL des Jive Servers. |
Grant Access to Configured Principals if Key Matches | Regular Expression, mit der statische ACL Grants auf Dokumente gesetzt werden können. Die Regex matcht auf den Document Key und die Entries können mit der nächsten Option konfiguriert werden. |
Grant Access to Principal | Gibt an, welche Grants gesetzt werden, wenn das Dokument mit der vorherigen Regex matched. Damit können gewissen Usern oder Gruppen Zugriff auf die Dokumente gegeben werden. |
Check Tags For Update | Liste von Tags welche nach neuen Dokumenten überprüft werden sollen. Einträge werden mit Zeilenumbrüchen getrennt. Ansonsten können Änderungen von Tags nicht verlässlich aktualisiert werden. Diese Option sollte nur für wichtige Tags verwendet werden. |
Der Jive Connector bietet auch die Möglichkeit, in Jive eingebettete Kaltura Videos zu indizieren. Wichtig dabei ist, dass die Videos in Jive als HTML iframe eingebunden werden (siehe auch Embedding Kaltura Media Players in Your Site). Die eingebetteten Videos vererben in Mindbreeze InSpire die Berechtigungen der Jive-Seite, in der sie eingebettet wurden. Bitte beachten Sie außerdem, dass mehrfach eingebettete (also gleiche) Videos in einer Suche mehrfach gefunden werden.
Folgende Optionen müssen dazu konfiguriert werden:
Enable | Wenn angehakt, werden Kaltura Videos indiziert und die nachfolgenden Optionen werden wirksam. |
Video URL Pattern | Regular Expression, mit der die IDs der eingebetteten Videos aus den IFrame-URLs (<iframe src={URL}</iframe>) extrahiert werden können. Dabei stellt die erste Capture Group in der RegEx die ID des Videos dar. Z.B.: https?\Q://cdnapi.kaltura.com/p/999999/\E.*entry_id=([^&\/]*).* |
Kaltura URL | Die URL von Kaltura, normalerweise https://www.kaltura.com |
Secret | „Administrator Secret“ (empfohlen) oder „User Secret“. Kann in der Kaltura Management Console (KMC) unter „Settings“ -> „Integration Settings“ gefunden werden. |
Partner ID | Kann in der Kaltura Management Console (KMC) unter „Settings“ -> „Integration Settings“ gefunden werden. |
Privileges | Dieses Feld kann leer gelassen werden. Ansonsten können hier Rechte der Session eingeschränkt werden (siehe Kaltura’s API Authentication and Security). |
Session Expiration | Anzahl der Sekunden, nachdem die Session ablaufen soll. Empfohlen wird ein Tag (86400 Sekunden). |
Concurrent Filter and Index Dispatch Threads | Die Anzahl an Threads, mit der Dokumente vom Crawler zum Index gesendet werden. |
Für den Jive Konnektor wird auch ein Caching Principal Resolution Service zur Auflösung der Berechtigungen benötigt.
Um diesen zu erstellen, scrollen Sie im Indices Tab zum Bereich Services und fügen Sie mit dem Button +Add Service einen neuen Service hinzu. Bei diesem wählen Sie dann im Service Dropdown CachingJivePrincipalResolution aus.
Jive Server URL | Basis URL des Jive Servers. |
User Agent | Der angegebene Wert wird im User-Agent Header bei HTTP-Requests mitgesendet. |
Read Timeout (Minutes) | Definiert den Read Timeout für ausgehende Verbindungen. |
Connect Timeout (Minutes) | Definiert den Connect Timeout für ausgehende Verbindungen. |
Jive Guest Access enabled | Ist bei Jive der Zugriff für nicht angemeldete Benutzer erlaubt, bitte diese Option aktivieren. |
Groups Containing All Users | Mit dieser Option können Gruppen definiert werden, sodass alle Benutzer so behandelt werden, als ob sie Mitglieder dieser Gruppen sind. |
Keep Groups Containing All Users in Memory | Mit der Aktivierung dieser Option, werden solche Gruppen bis zum nächsten Cacheupdate im RAM gehalten. |
Identity Encryption Credential | Mit dieser Option kann man die Benutzeridentität verschlüsselt in der app.telemetry anzeigen lassen. |
Cache In Memory Items Size | Anzahl der im Cache aufbewahrten Items. Abhängig vom verfügbaren Speicherplatz der JVM. |
Database Directory Path | Der Verzeichnispfad für den Cache. Beispiel: /data/principal_resolution_cache Falls man ein Mindbreeze Enterprise Produkt verwendet, muss ein Pfad gesetzt werden. Bei Verwendung von einem Mindbreeze InSpire Produkt muss der Pfad nicht gesetzt werden. |
Cache Update Interval (Minutes) | Diese Option bestimmt (in Minuten), wann der Cache aktualisiert werden soll. (Standardwert: 60 Minuten) Werte unter 0, deaktivieren das Cache Update. Beim Starten des Service wird die letzte (persistierte) Cache-Aktualisierungszeit berücksichtigt. Das bedeutet, dass der Cache z. B. nicht unbedingt aktualisiert wird, wenn der Service gestoppt/gestartet wird, sondern erst beim nächsten Zeitintervall. |
Clean Cache Update Schedule | In diesem Feld kann man das Cleanup und Update vom Cache mithilfe von Extended Cron Expressions zu bestimmten Zeiten konfigurieren (eine Dokumentation und Beispiele zu Cron Expressions finden Sie hier) |
Backup cache before cleaning | Wenn diese Option ausgewählt ist, wird eine Kopie des Cache im /data/currentservice/<Service Name>/temp Verzeichnis angelegt |
Retry Update Cache Run If Was Incomplete In (Minutes) | Diese Option bestimmt (in Minuten), wann der Cache einen neuen Aktualisierungsprozess durchführen soll, falls eine Aktualisierung unvollständig war. Werte unter 0, deaktivieren das Cache-Retry-Update. |
Diese Konfigurations-Optionen sind hier in der Dokumentation des Caching Principal Resolution Service beschrieben.
Use Parent Principals Cache Service | Wenn diese Option aktiviert ist, werden zusätzlich Gruppen des Benutzers in einem anderen Cache (Parent Cache) aufgelöst und geliefert. |
Parent Principals Cache Service Port | Der Port der für die Option „Use Parent Principals Cache Service“ verwendet wird falls diese aktiviert ist. |
Parent Cache Principals Include Patterns | Wenn leer, werden alle übergeordneten Cache-Principals einbezogen, andernfalls muss ein übergeordnetes Principal mindestens einem Pattern entsprechen (Groß- und Kleinschreibung wird nicht berücksichtigt), um einbezogen zu werden. |
Parent Cache Principals Exclude Patterns | Übergeordnete Cache-Principals, die mit mindestens einer Patternzeile übereinstimmen (Groß- und Kleinschreibung wird nicht berücksichtigt), werden ausgeschlossen. „exclude patterns“ haben Vorrang vor „include patterns“. |
Parent Principals Are Unique IDs | Wenn aktiviert, werden die eindeutigen IDs der übergeordnete principals aufgelöst, falls diese keine eindeutigen IDs sind. |
Webservice Port | Das Service ist am angegebenen Port verfügbar. Wenn mehrere Principal Resolution Services konfiguriert sind, stellen Sie sicher, dass die unterschiedliche „Webservice Port“ Parameter haben und diese verfügbar sind. |
Lowercase Principals | Mit dieser Option werden alle vom Cache gelieferten Principals kleingeschrieben. |
Case Insensitive Member Resolution | Diese Option bestimmt, ob Benutzer unabhängig von deren Groß- und Kleinschreibung geprüft werden. |
Suppress JIVE Service Calls | Wenn Benutzer bei einer Suchanfrage nicht aufgelöst werden können, wird eine Anfrage direkt an Jive abgesetzt, wenn diese Option nicht aktiviert ist. |
Hinweis: Um den Caching Principal Resolution Service zu testen, können Sie die Principal Resolution Service REST API verwenden.