Microsoft File Connector
Installation und Konfiguration
Copyright ©
Mindbreeze GmbH, A-4020 Linz, .
Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller.
Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet.
Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.
Video Tutorial „Set up a Microsoft File Connector”
Dieses Video beschreibt, wie der Microsoft File Connector konfiguriert wird. Erfahren Sie, welche Voraussetzungen notwendig sind und wie Sie den Index konfigurieren. Zusätzlich wird auf Active Directory Based Authentication sowie LDAP eingegangen und Sie erfahren, wie man gecrawlte Dokumente und Crawl-Runs in app.telemetry analysiert.
https://www.youtube.com/watch?v=S2JCrM98W30
Konfiguration von Mindbreeze
Klicken sie auf “Indices” und auf das “Add new index” Symbol um einen neuen Index zu erstellen.

Eingabe eines neuen Index Pfades z.B, “/data/indices/fileshare ”. Falls notwendig muss der Display Name des Index Services und des zugehörigen Filter Services geändert werden.
Mit “Add new custom source” unten rechts kann eine neue Datenquelle hinzugefügt werden.


- „Ignore Category Instance”: Wenn mehrere File Crawler auf einem Index konfiguriert sind, wird bei der Suche nicht auf konkrete Category Instances eingeschränkt.
- „Authorization Service“: aktuell wird für Microsoft File kein Authorization Service zur Verfügung gestellt.
Konfiguration der Datenquelle
Caching Principal Resoution Service
Als Caching Principal Resolution Service kann ein CachingLdapPrincipalResoution ausgewählt werden. Es wird dann für das Auflösen der AD Gruppenmitgliedschaft eines Benutzers bei der Suche verwendet.
Für die Konfiguration von Caching Principal Resolution Service siehe Caching Principal Resolution Service.
Sources









- “Root Directories (UNC Path)”: Verzeichnisse sollten durch Zeilenumbrüche getrennt werden (maximal 24 Verzeichnisse). Für das Crawling mit der Option „Content Location Optimization“ unter Linux stellen Sie bitte sicher, dass Root-Pfade gemountet sind.
- “Supports SMB 2”: Soll ausgewählt werden, wenn das SMB2 Protokoll verwendet werden soll.
- “Disable SMB Packet Signing”: Dadurch werden bei send von SMB Pakete keine Signatur erzeugt und bei empfangene Pakete die Signatur nicht verifiziert.
- “Disable SMB2 Multi-Protocol Negotiate”: Dadurch könne bessere Fehlermeldung ausgegeben werden wenn der Server nur SMB1 unterstützt.
- “SMB Client Transaction Timeout”: Ist der Thread Timeout in Sekunden für SMB Verbindungen.
- “SMB Client Socket Timeout”: Socket Timeout für alle SMB Verbindungen.
- “Crawl Last Modified Directory Files First”: Während der Traversierung eines Verzeichnisses, werden die Dateien und Unterverzeichnisse nach Änderungsdatums sortiert.
- “Root Traversal Threads Count”: Die Anzahl von Threads, welche die Verzeichnisse vom “Root Directories” Feld parallel traversieren.
- “Documents Dispatcher Threads Count”: Die maximale Anzahl von Threads, welche die im „Documents Dispatcher Queue“ befindliche Verzeichnisse und deren Dokumente parallel zum Index schicken.
- “Documents Dispatcher Queue Size”: Die maximale Länge der Warteschlange für die Verzeichnisse und deren Dokumente. Die Verzeichnisse und deren Dokumente werden durch „Document Dispatcher Threads“ von der Warteschlange entfernt und an Index geschickt.
- “Directory Files Lister Threads Count”: Die maximale Anzahl von Threads, welche die Dateien, Unterverzeichnisse und die ACLs eines Verzeichnisses vom Filesystem Share mittels SMB abrufen. Die Unterverzeichnisse werden in der „Directory Files Lister Queue“ abgelegt. Die Verzeichnisse und deren Dateien werden in der „Document Dispatcher Queue“ abgelegt.
- “Directory Files Lister Queue Size”: Die maximale Länge der Warteschlange der Verzeichnisse für welche noch keine Dateien, Unterverzeichnisse und ACLs vom Filesystem Share abgerufen worden sind.
- „Document Size Limit (MB)“: Dokumente die größer als dieser Wert sind, werden ignoriert. Wenn dieser Wert verändert wird, sollte auch das Limit und der RPC-Timeout am Filerservice angepasst werden.
- „Maximum Crawled Document Size in MB“: Dokumente die größer als dieser Wert sind, werden mit leerem Inhalt indiziert. Wenn kleiner als 0 gesetzt, wird keine Limitierung angewendet.
- „Includes”: Es werden nur die Dateien und Verzeichnisse gecrawled, welche diesem Muster entsprechen.
- „Include Patterns”: Es werden nur die Dateien und Verzeichnisse gecrawled, welche diesem Muster entsprechen. Im Unterschied zum „Includes“ Feld, hier hat man die Möglichkeit mit der Verwendung von „regexpIgnoreCase:“ „case-insensitive“ Muster zu definieren oder mit dem ‚#‘ Zeichen am Anfang der Zeile das Muster auskommentieren.
- “Excludes”: Es werden die Dateien und Verzeichnisse ignoriert, welche diesem Muster entsprechen.
- „Exclude Patterns”: Es werden die Dateien und Verzeichnisse ignoriert, welche diesem Muster entsprechen. Im Unterschied zum „Excludes“ Feld, hier hat man die Möglichkeit mit der Verwendung „regexpIgnoreCase:“ „case-insensitive“ Muster zu definieren oder das Muster mit ‚#‘ am Anfang der Zeile auszukommentieren.
- „Exclude Directories“: Mit dieser Option werden Verzeichnisse nicht indiziert.
- “Full Traversal Interval (Hours)l”: Intervall (Stunden) zwischen zwei vollständigen Traversierungen aller Dokumente im Fileshare. Modifizierte Dokumente werden auch bei der inkrementellen Traversierung im Abstand von „Crawler Interval“ indiziert. Die Standardeinstellung (-1) ist für die meisten Anwendungsfälle ausreichend und es ist eine vollständige Traversierung aller Dokumente. Bei sehr großen Fileshares kann es sinnvoll sein die inkrementelle Traversierung durchzuführen um sie zu beschleunigen. Dabei werden gelöschte (aus dem File Share) Dokumente nicht aus dem Index entfernt. Diese Dokumente werden am Ende der vollständigen Traversierung aus dem Index entfernt.
- “Remove Deleted Documents From Index”: Falls ausgewählt, werden die Dokumente die vom Fileshare gelöscht worden sind, am Ende einer vollständigen Traversierung vom Index gelöscht.
Security Rights Settings



- “ACL Security Level”: Drei Ebenen können ausgewählt werden: Share, Directory und File.
| - Die ACLs werden pro Dokument berechnet. Die Share Rechte werden nicht inkludiert.
|
| - Alle Dokumente bekommen nur die ACLs des entsprechenden Verzeichnisses. Die Share Rechte werden nicht inkludiert.
|
| - Alle Dokumente bekommen nur die ACLs des Shares. Für das Lesen der Share Rechte muss der Servicebenutzer Mitglied folgender lokalen (Share Server) Gruppen sein: Administrator, Power User, Print Operator oder Server Operator.
|
| - Dokumente bekommen keine ACLs. Darf nur gemeinsam mit der „Unrestricted Public Access“ Option des Index konfiguriert werden.
|
| - Die ACLs werden aus der Trustee Info Datei berechnet.
|
- “Resolve Local Group Members”: Manchmal beinhalten die ACLs von Dokumenten auch lokale Gruppen. Um die Domänenbenutzer oder Domänengruppen in diesen lokalen Gruppen aufzulösen, wird ein Zugriff auf LSA (Local Security Authority) und SAM (Service Account Manager) mittels RPC-SMB Protokoll benötigt. Falls der Crawler Service Benutzer die benötigten Rechte für LSA und SAM nicht hat, kann das Auflösen des Lokalen Gruppen hier deaktiviert werden. Dies wird jedoch grundsätzlich nicht empfohlen und sollte nur in Ausnahmefällen deaktiviert werden.
- “LSA/SAM Desired Access”: Die bevorzugte Zugriffsberechtigung des Crawler Service Benutzers auf LSA und SAM. Maximum allowed, Generic all, Generic execute, Generic Read oder Read Control. Für das Crawlen von NetApp Shares sollte Read Control als LSA/SAM Desired Access ausgewählt werden. Wenn der Zugriff mit der ausgewählten Berechtigung nicht erfolgreich ist, werden die anderen Zugriffsberechtigungen ausprobiert.
- “Resolve All Domains”: Um die Dateiberechtigungen (ACLs) verschiedener Domänen richtig zuordnen zu können muss die Option Resolve All Domains ausgewählt werden. Dafür ist es notwendig, dass entweder die LDAP Server dieser Domänen direkt unter „LDAP Server“ konfiguriert werden oder über DNS SRV Records von AD mittels LDAP aufgelöst werden können. Dafür sollen die Domänen im Network Tab unter LDAP Setting konfiguriert werden. Falls „Resolve All Domains“ nicht ausgewählt ist, werden nur die ACLs von der Domäne des File Share Servers richtig aufgelöst.
Trustee Information Settings

- “Trustee Information File Path”: Der Pfad zur Trustee Information Datei, welche in einem Freigegebene Ordner (UNC Pfad) oder in einem lokalen Ordner gespeichert sein kann.
- “Trustee Volume Path”: Der Volume-Pfad in der Trustee Information Datei zu konfiguriertes Root-Verzeichnis. Dieses Feld soll nicht konfiguriert werden, wenn das Root-Verzeichnis dem Volume-Pfad entspricht.
Extensions (Index File Lister)
Dabei handelt es sich um Plugins die von Mindbreeze zur Verfügung gestellt werden können um spezielle Anwendungsfälle abzudecken. Dabei werden die Files nicht durch klassiches „browsen“ durch die Dateibäume indiziert, sondern eine Datei oder eine Datenbank oder ähnliches angebunden, das eine Liste an zu indizierenden Dateien enthält. Es werden also nur die URLs Dateien dieser Listen indiziert anstelle durch alle Bäume zu „browsen“. Dieser Mechanismus ist ähnlich zu Sitemaps im Web Connector.
Um nur die Dokumente, die in einer Indexdatei gelistet bzw. mit zusätzlichen Attributen bereichert sind, zu indizieren bietet der Connector die IndexFileListerPlugin Schnittstelle in index-filelister-spi.jar. Diese SPI Datei wird mit dem Connector gemeinsam geliefert. Für die Implementierung werden noch zusätzlich die Dateien der Java Service API (protobuf-java-3.0.0.jar und messdk-generated.jar)benötigt.
public interface IndexFileListerPlugin {
boolean isIndexFile(ReadonlyFile file);
void init(Properties properties);
Collection<Map.Entry<ReadonlyFile, TypesProtos.Item>> listIndexFile(FilesystemContext context, ReadonlyFile indexFile);
}
Eine Implementierung der IndexFileListerPlugin Schnittstelle kann durch den Pfad Eingabe der JAR Datei im „Index File Lister Plugin“ Feld und optionalen Properties in den „Index File Lister Plugin Property“ Feldern, wie im folgenden Bild konfiguriert werden.



Die Index Dateien werden während des Traversierens der Verzeichnisse in einem Queue abgelegt „Queue Size“, die dann von mehreren Threads „Thread Count“ abgearbeitet werden. Die Option „Skip unchanged Index File Listing during Incremental Traversal“ soll nur dann ausgewählt werden, wenn die Option „Full Traversal Interval“ ebenfalls konfiguriert ist (einen Wert größer als 0 hat). Dadurch werden während des inkrementelles Traversals „Crawler Interval“ nur die geänderte Index Dateien behandelt.
Der Microsoft File Connector verwendet eine vorkonfigurierte Content Type Mapping Description XML Datei für die Extraction von File System Metadaten, die in der Connector Archivdatei vorhanden ist. Falls eine spezifische Änderung erwünscht ist kann diese Datei bearbeitet werden und in einem anderen Verzeichnis gespeichert werden. Um diese bearbeitete Konfiguration zu verwenden ist es notwendig im „Content Type Mapping Description File“ den Pfad zu diesen Datei zu konfigurieren.
Content Location Optimization
Beim Indizieren von großen Dateien ist es sinnvoll die Content Location Optimization zu verwenden. Zum Beispiel bei Outlook PST-Dateien.
Konfigurieren Sie den Einhängepunkt (mount point) nach dem Muster im obigen Screenshot.
Folgende Einstellungen sind dazu notwendig:

- “Root Directory (UNC Path)”: Verwenden Sie hier den selben Pfad wie bei der Crawling Root.
- “Root Directory (Mount Path)”: Der locale Pfad an dem das Netzwerkdateisystem eingehängt ist.
- “Files Pattern (Regex)”: Ein regulärer Ausdruck der jenen Dateien entspricht für die Content Location Optimization verwendet werden soll.
Um Content Location Optimization zu verwenden, muss das Netzwerkdateisystem, das indiziert werden soll, lokal auf der Appliance eingehängt werden. Das kann über das Managementcenter konfiguriert werden:
- Erstellen Sie einen lokalen Ordner mittels Filemin:


- Machen sie den Mindbreeze Benutzer (mes) zum Besitzer des Ordners:


- Fügen Sie einen CIFS mount mittels des “Disk and Network Filesystems” Moduls hinzu:

- Konfigurieren sie den Einhängepunkt (mount point):

- Nach einem Klick auf „create“ wird das Netzwerkdateisystem eingehängt und ist Betriebsbereit.
Indizieren von Outlook PST Dateien
Zusätzlich zur Konfiguration des Crawlers (siehe oben) ist es notwendig eine Outlook PST Datenquelle hinzuzufügen und „Default“ Category Instance löschen. um Outlook PST Dateien zu indizieren:

Zum Schluss ist es noch wichtig zu überprüfen ob ein Filter Plugin für die .pst Endung ausgewählt worden ist.


Credentials

Der Benutzer muss für das freigegebene Verzeichnis Leseberechtigung haben, welches gecrawled werden soll.
- “Username”: Der Name eines leseberichtigten Benutzers.
- “Domain”: Der Domainname dieses Benutzers.
- “Password”: Das Passwort.
- “LDAP Server”: Ist nur dann zu konfigurieren, wenn die LDAP-Einstellungen des Karteireiters „Network“ überschrieben werden sollen.
Additional Settings




- “Always Update Files Matching Regex”: Dokumente die mit dieser Regex matchen werden an den Filter/Index gesendet auch wenn sie nicht verändert wurden.
- “ Ignore Content of Documents without Extension”: Für Dokumente, die keine Extension haben, wird keine automatische Mimetypeerkennung durchgeführt. Die Inhalte von solchen Dokumenten werden nicht indiziert.
- “Disable Default Extension”: Dokumente die keine Extension haben und das Mimetype nicht automatisch erkannt werden kann haben keine Extension. Falls diese Option nicht ausgewählt ist, wird eine Default Extension verwendet.
- “Fetch Preview Content from Datasource”: Um eine PDF Vorschau für PDF Dokumente zu ermöglichen werden PDF Dokumente als binäre Dateien im Index gespeichert. Bei der Auswahl dieser Option, werden sie von der Datenquelle direkt geladen. Dadurch kann das Speichern im Index am PDF-Filter deaktiviert und somit der benötigte Speicherplatzbedarf des Index reduziert werden.
- “Enable Heap Dump On OutOfMemory”: Wenn der Crawler mehr Speicher benötigt als ihm zugewiesen wurde, wird ein Heapdump im Logverzeichnis für weitere Analyse erstellt. Wieviel Speicher der Crawler zur Verfügung hat steht im Connector Plugins.xml unter <vm_arg>.
- “Max. Retry Duration by Filter Connection Problems”: Die maximale Zeit für die versucht wird ein Dokument wiederholt an Filter zu senden, wenn dieser nicht verfügbar ist.
- “Retry Interval during Repository Connection Problems”: Die Zeit, die der Crawler wartet bevor er es bei einem Verbindungsproblem ein nächstes Mal versucht.
- “Max. Retry Duration during Repository Connection Problems”: Die Zeit, die der Crawler maximal bei einem Verbindungsproblem verwenden darf.
Öffnen von Suchresultaten
Suchresultaten aus einer Microsoft File Quelle (Microsoft Word, Microsoft Excel und Microsoft Powerpoint) werden ab Windows 10 direkt im jeweiligen Programm geöffnet, wenn der aktuelle Benutzer am jeweiligen Dateiserver angemeldet ist und Microsoft Office 2019 installiert ist.