Copyright ©
Mindbreeze GmbH, A-4020 Linz, .
Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller.
Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet.
Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.
Dieses Video beschreibt, wie der Microsoft File Connector konfiguriert wird. Erfahren Sie, welche Voraussetzungen notwendig sind und wie Sie den Index konfigurieren. Zusätzlich wird auf Active Directory Based Authentication sowie LDAP eingegangen und Sie erfahren, wie man gecrawlte Dokumente und Crawl-Runs in app.telemetry analysiert.
https://www.youtube.com/watch?v=S2JCrM98W30
Klicken sie auf “Indices” und auf das “Add new index” Symbol um einen neuen Index zu erstellen.
Eingabe eines neuen Index Pfades z.B, “/data/indices/fileshare ”. Falls notwendig muss der Display Name des Index Services und des zugehörigen Filter Services geändert werden.
Mit “Add new custom source” unten rechts kann eine neue Datenquelle hinzugefügt werden.
Als Caching Principal Resolution Service kann ein CachingLdapPrincipalResoution ausgewählt werden. Es wird dann für das Auflösen der AD Gruppenmitgliedschaft eines Benutzers bei der Suche verwendet.
Für die Konfiguration von Caching Principal Resolution Service siehe Caching Principal Resolution Service.
In dieser Option können Sie festlegen, welche Verzeichnisse gecrawlt werden sollen. Hinweise:
| |
Supports SMBv2/v3 | Wenn deaktiviert, wird nur das SMBv1 Protokoll verwendet. Wenn aktiviert, werden ebenfalls SMBv2/v3 Protokolle verwendet. |
Disable SMB Packet Signing | Wenn aktiviert, wird für gesendete SMB-Pakete keine Signatur erzeugt und für empfangene Paketen wird die Signatur nicht verifiziert. |
Disable SMB2 Multi-Protocol Negotiate | Wenn aktiviert, können dadurch bessere Fehlermeldungen ausgegeben werden falls der Server nur SMBv1 unterstützt. |
SMB Client Transaction Timeout | Hier kann der Thread-Timeout (in Sekunden) für SMB Verbindungen festgelegt werden. |
SMB Client Socket Timeout | Hier kann der Socket-Timeout (in Sekunden) für SMB Verbindungen festgelegt werden. |
Crawl Last Modified Directory Files First | Wenn aktiviert, werden während der Traversierung eines Verzeichnisses, die Dateien und Unterverzeichnisse nach Änderungsdatums sortiert. Dadurch werden die zuletzt geänderten Dateien und Verzeichnisse zuerst gecrawlt. |
Root Traversal Threads Count | Hier kann die Anzahl von Threads festgelegt werden, die die Verzeichnisse vom “Root Directories” Feld parallel traversieren. |
Documents Dispatcher Threads Count | Hier kann die Anzahl von Threads festgelegt werden, die die Verzeichnisse und deren Dokumente, die sich in der „Documents Dispatcher Queue“ befinden, parallel an den Index senden. |
Documents Dispatcher Queue Size | Hier kann die maximale Anzahl der Verzeichnisse und deren Dokumente festgelegt werden, die sich in der Warteschlange befinden sollen, bevor diese durch „Document Dispatcher Threads“ von der Warteschlange entfernt und an Index geschickt werden. |
Directory Files Lister Threads Count | Hier kann die Anzahl von Threads festgelegt werden, welche die Dateien, Unterverzeichnisse und die ACLs eines Verzeichnisses vom Filesystem Share mittels SMB abrufen. Die Unterverzeichnisse werden in der „Directory Files Lister Queue“ abgelegt. Die Verzeichnisse und deren Dateien werden in der „Document Dispatcher Queue“ abgelegt. |
Directory Files Lister Queue Size | Hier kann die maximale Anzahl der Verzeichnisse für welche noch keine Dateien, Unterverzeichnisse und ACLs vom Filesystem Share abgerufen worden sind festgelegt werden, die in der Warteschlange stehen sollen. |
Document Size Limit (MB) | Hier kann die maximale Dokumentengröße eingestellt werden. Dokumente, die größer als dieser Wert sind, werden ignoriert. Hinweis: Wenn dieser Wert verändert wird, sollten auch die Optionen „Document Size Limit (MB)“ und „Filter RPC Timeout (non-streamed)“ im Filter Service angepasst werden. |
Maximum Crawled Content Length in MB. | Wenn Dokumente die in dieser Option festgelegte Größe (in MB) überschreiten, werden sie mit leerem Inhalt an den Filter gesendet. |
Includes (Regexp) | Wenn diese Option konfiguriert wird, werden nur jene Dateien und Verzeichnisse indiziert, welche dem angegebenen Muster (Regular Expression) entsprechen. Excludes haben höhere Priorität als Includes (d.h wenn ein Dokument sowohl inkludiert, als auch exkludiert wird, wird es nicht indiziert). |
Excludes (Regexp) | Wenn diese Option konfiguriert wird, werden jene Dateien und Verzeichnisse ignoriert, welche dem angegebenen Muster (Regular Expression) entsprechen. Excludes haben höhere Priorität als Includes (d.h wenn ein Dokument sowohl inkludiert, als auch exkludiert wird, wird es nicht indiziert). |
Include Patterns | Es werden nur jene Dateien und Verzeichnisse indiziert, welche dem angegebenen Muster (Regular Expression) entsprechen. Im Unterschied zum „Includes (Regexp)“ Feld, hat man hier die Möglichkeit mit der Verwendung von „regexpIgnoreCase:“, „case-insensitive“ und „regexp:“ „case-sensitive“ Muster (Reqular Expression) zu definieren oder mit dem „#“ Zeichen am Anfang der Zeile das Muster auskommentieren. |
Exclude Patterns | Es werden jene Dateien und Verzeichnisse ignoriert, welche dem angegebenen Muster (Regular Expression) entsprechen. Im Unterschied zum „Includes (Regexp)“ Feld, hat man hier die Möglichkeit mit der Verwendung von „regexpIgnoreCase:“, „case-insensitive“ und „regexp:“ „case-sensitive“ Muster (Reqular Expression) zu definieren oder mit dem „#“ Zeichen am Anfang der Zeile das Muster auskommentieren. |
Exclude Directories | Wenn aktiviert, werden Verzeichnisse nicht indiziert |
Full Traversal Interval (Hours) | Hier kann das Intervall (in Stunden) zwischen zwei vollständigen Traversierungen aller Dokumente im Fileshare definiert werden. Modifizierte Dokumente werden auch bei der inkrementellen Traversierung im Abstand von „Crawler Interval“ indiziert. Die Standardeinstellung (-1) ist für die meisten Anwendungsfälle ausreichend und es ist eine vollständige Traversierung aller Dokumente. Bei sehr großen Fileshares kann es sinnvoll sein die inkrementelle Traversierung durchzuführen um sie zu beschleunigen. Dabei werden gelöschte (aus dem File Share) Dokumente nicht aus dem Index entfernt. Diese Dokumente werden am Ende der vollständigen Traversierung aus dem Index entfernt. |
Remove Deleted Documents From Index | Wenn aktiviert, werden die Dokumente die vom Fileshare gelöscht wurden, am Ende einer vollständigen Traversierung aus dem Index gelöscht. |
Content Location Optimization | Die Beschreibung dieser Option, finden sie hier. |
|
|
|
|
|
|
|
|
|
|
Dabei handelt es sich um Plugins die von Mindbreeze zur Verfügung gestellt werden können um spezielle Anwendungsfälle abzudecken. Dabei werden die Files nicht durch klassiches „browsen“ durch die Dateibäume indiziert, sondern eine Datei oder eine Datenbank oder ähnliches angebunden, das eine Liste an zu indizierenden Dateien enthält. Es werden also nur die URLs Dateien dieser Listen indiziert anstelle durch alle Bäume zu „browsen“. Dieser Mechanismus ist ähnlich zu Sitemaps im Web Connector.
Um nur die Dokumente, die in einer Indexdatei gelistet bzw. mit zusätzlichen Attributen bereichert sind, zu indizieren bietet der Connector die IndexFileListerPlugin Schnittstelle in index-filelister-spi.jar. Diese SPI Datei wird mit dem Connector gemeinsam geliefert. Für die Implementierung werden noch zusätzlich die Dateien der Java Service API (protobuf-java-3.0.0.jar und messdk-generated.jar)benötigt.
public interface IndexFileListerPlugin {
boolean isIndexFile(ReadonlyFile file);
void init(Properties properties);
Collection<Map.Entry<ReadonlyFile, TypesProtos.Item>> listIndexFile(FilesystemContext context, ReadonlyFile indexFile);
}
Eine Implementierung der IndexFileListerPlugin Schnittstelle kann durch den Pfad Eingabe der JAR Datei im „Index File Lister Plugin“ Feld und optionalen Properties in den „Index File Lister Plugin Property“ Feldern, wie im folgenden Bild konfiguriert werden.
Die Index Dateien werden während des Traversierens der Verzeichnisse in einem Queue abgelegt „Queue Size“, die dann von mehreren Threads „Thread Count“ abgearbeitet werden. Die Option „Skip unchanged Index File Listing during Incremental Traversal“ soll nur dann ausgewählt werden, wenn die Option „Full Traversal Interval“ ebenfalls konfiguriert ist (einen Wert größer als 0 hat). Dadurch werden während des inkrementelles Traversals „Crawler Interval“ nur die geänderte Index Dateien behandelt.
Der Microsoft File Connector verwendet eine vorkonfigurierte Content Type Mapping Description XML Datei für die Extraction von File System Metadaten, die in der Connector Archivdatei vorhanden ist. Falls eine spezifische Änderung erwünscht ist kann diese Datei bearbeitet werden und in einem anderen Verzeichnis gespeichert werden. Um diese bearbeitete Konfiguration zu verwenden ist es notwendig im „Content Type Mapping Description File“ den Pfad zu diesen Datei zu konfigurieren.
Beim Indizieren von großen Dateien ist es sinnvoll die Content Location Optimization zu verwenden. Zum Beispiel bei Outlook PST-Dateien.
Konfigurieren Sie den Einhängepunkt (mount point) nach dem Muster im obigen Screenshot.
Folgende Einstellungen sind dazu notwendig:
Um Content Location Optimization zu verwenden, muss das Netzwerkdateisystem, das indiziert werden soll, lokal auf der Appliance eingehängt werden. Das kann über das Managementcenter konfiguriert werden:
Zusätzlich zur Konfiguration des Crawlers (siehe oben) ist es notwendig eine Outlook PST Datenquelle hinzuzufügen und „Default“ Category Instance löschen. um Outlook PST Dateien zu indizieren:
Zum Schluss ist es noch wichtig zu überprüfen ob ein Filter Plugin für die .pst Endung ausgewählt worden ist.
Der Benutzer muss für das freigegebene Verzeichnis, das gecrawlt werden soll Leserechte besitzen. Die Credentials dazu können im folgenden Bereich „Credentials“ konfiguriert werden.
|
|
|
|
|
|
|
Standardmäßig wird die NTLM-Authentisierung verwendet. Dazu ist es erforderlich, dass „Username“, „Domain“ und „Password“ konfiguriert werden müssen. Falls Kerberos-Authentisierung ausgewählt ist, muss für den Crawler ein Kerberos Keytab und Principal im „Authentication“-Tab ausgewählt werden. Weitere Informationen dazu finden sie hier. |
Suchresultaten aus einer Microsoft File Quelle (Microsoft Word, Microsoft Excel und Microsoft Powerpoint) werden ab Windows 10 direkt im jeweiligen Programm geöffnet, wenn der aktuelle Benutzer am jeweiligen Dateiserver angemeldet ist und Microsoft Office 2019 installiert ist.