Copyright ©
Mindbreeze GmbH, A-4020 Linz, 2024.
Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller.
Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet.
Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.
Mithilfe des Box Connectors können Dateien und Ordner von Box mit ihren Metadaten indiziert werden.
In der Box Dev Console können Sie eine neue App erstellen. Klicken Sie dafür unter My Apps auf Create New App und wählen Sie Custom App aus. Als Authentication Method wählen Sie Server Authentication (Client Credentials Grant) aus und vergeben Sie der App einen Namen. Klicken Sie anschließend auf „Create App“, um die App zu erstellen.
Im Configuration Bereich der erstellten App können Sie dann die Client ID und das Client Secret ansehen und abholen. Diese werden für die Option „OAuth Credential“ im MMC benötigt.
Darüber hinaus müssen im Configuration Bereich die Optionen „App Access Level“ und „Application Scopes“ eingestellt werden. Der Box Crawler benötigt dazu App + Enterprise Access und die folgenden „Application Scopes“:
Zusätzlich muss bei den “Advanced Features” die Option „Make API calls using the as-user header” aktiviert werden.
Danach können Sie im Authorization Bereich der App auf „Review and Submit“ klicken, damit die App vom Admin freigegeben werden kann. Die Autorisierung kann in der Admin Console unter dem Reiter Apps -> Custom Apps Manager gemacht werden.
Öffnen Sie das Mindbreeze Management Center im Browser, um mit der Konfiguration beginnen zu können.
Fügen Sie im Tab Indices mit dem Button +Add Index einen neuen Index hinzu. Wählen Sie den gewünschten Index Node und Client Service aus und geben Sie im Feld Data Source die Datenquelle Box an. Bestätigen Sie Ihre Eingaben anschließend mit dem Button Apply.
Konfigurieren Sie nun die Datenquelle.
Legende:
Enterprise Id* | Die Enterprise ID Ihrer Box Instanz. Diese finden Sie in der Box Admin Console under „Account & Billing“. Alternativ können Sie auch auf https://www.box.com/master/settings gehen und sich als Enterprise Admin einloggen. | ||||||||
Box Domain* | Die URL ihrer Box Instanz, z.B. https://mycompany.app.box.com/ | ||||||||
OAuth Credential* | Das im Network Tab erstellte OAuth 2 Credential.
| ||||||||
Page Size | Die Anzahl an Elementen die pro API Request maximal abgeholt werden. Wenn diese erhöht wird, müssen eventuell weniger Requests an die API gemacht werden, es kann aber zu einer erhöhten Arbeitsspeicherauslastung führen. Die Maximalanzahl ist 1000. | ||||||||
Log All Requests | Wenn aktiviert, werden alle Requests an die Box API in eine „request-log.csv“ Datei geschrieben. |
User Emails* | E-Mail-Adressen der Benutzer, deren Inhalte indiziert werden sollen. Es werden alle Inhalte indiziert, worauf die angegeben Benutzer Zugriff haben. Falls Sie genaue Kontrolle darüber haben wollen, welche Inhalte vom Crawler indiziert werden, können Sie einen separaten Benutzer erstellen, der alle zu indizierenden Inhalte sehen kann. Mehr dazu im Kapitel Erstellen eines Crawling Benutzers. |
Excluded Files/Folders (regex) | Regular Expression, mit der angegeben werden kann, welche Files und Folders exckludiert werden sollen. Das Regex wird auf den vollständigen Pfad angewendet, z.B. Parentfolder/Childfolder/MyFile.docx. Wenn diese Option konfiguriert wird, werden jene Dateien und Verzeichnisse ignoriert, welche dem angegebenen Muster (Regular Expression) entsprechen. Excludes haben höhere Priorität als Includes (d.h wenn ein Dokument sowohl inkludiert, als auch exkludiert wird, wird es nicht indiziert). |
Maximum File Size (MB) | Die maximale Größe von Dateien (in MB), deren Inhalt indiziert werden soll. Wenn eine Datei diese Größe überschreitet, wird sie ohne den Dateiinhalt und nur mit den Metadaten indiziert. |
Index Only Files | Wenn aktiviert, werden Ordner nicht als Dokumente indiziert. |
Wenn aktiviert, werden für alle Dateien und Ordner zusätzlich die benutzerdefinierten Metadaten abgeholt. Falls Sie diese nicht verwenden, sollten Sie diese Option deaktivieren, um den Crawlrun zu beschleunigen. | |
Included Files/Folders (regex) | Regular Expression, mit der angegeben werden kann, welche Files und Folders inkludiert werden sollen. Das Regex wird auf den vollständigen Pfad angewendet, z.B. Parentfolder/Childfolder/MyFile.docx. Wenn diese Option leer gelassen wird, wird alles inkludiert. Wenn diese Option konfiguriert wird, werden nur jene Dateien und Verzeichnisse indiziert, welche dem angegebenen Muster (Regular Expression) entsprechen. Die Regex wird auf den vollständigen Pfad angewendet, z.B. Parentfolder/Childfolder/MyFile.docx Wenn diese Option leer gelassen wird, wird alles inkludiert. Excludes haben höhere Priorität als Includes (d.h wenn ein Dokument sowohl inkludiert, als auch exkludiert wird, wird es nicht indiziert). |
Wählen Sie im neuen oder bestehenden Service in der Einstellung „Service“ die Option Box Principal Resolution Service aus. Für mehr Informationen über das Erstellen, das grundlegende Konfigurieren eines Cache für einen Principal Resolution Service und die verschiedenen Konfigurationsoptionen, siehe Installation & Konfiguration - Caching Principal Resolution Service.
Diese Konfigurationsoptionen sind im Kapitel Crawler Settings beschrieben.
Falls Sie genaue Kontrolle darüber haben wollen, welche Inhalte vom Crawler indiziert werden, können Sie einen separaten Benutzer erstellen, der alle zu indizierenden Inhalte sehen kann.
In der Admin Console im Menüpunkt Users & Groups kann ein neuer Benutzer erstellt werden.
Um diesem Benutzer Zugriff auf alle Ordner zu geben, die indiziert werden sollen, gibt es zwei Möglichkeiten:
Dieser Benutzer muss dann ebenfalls über ein Login aktiviert werden, damit er vom Box Crawler verwendet werden kann.