Microsoft File Connector

Installation und Konfiguration

Copyright ©

Mindbreeze GmbH, A-4020 Linz, .

Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller.

Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet.

Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.

Konfiguration von MindbreezePermanenter Link zu dieser Überschrift

Klicken sie auf “Indices” und auf das “Add new index” Symbol um einen neuen Index zu erstellen.

Eingabe eines neuen Index Pfades z.B, “/data/indices/fileshare. Falls notwendig muss der Display Name des Index Services und des zugehörigen Filter Services geändert werden.

Mit “Add new custom source”  unten rechts kann eine neue Datenquelle hinzugefügt werden.

Konfiguration der DatenquellePermanenter Link zu dieser Überschrift

Caching Principal Resoution ServicePermanenter Link zu dieser Überschrift

Als Caching Principal Resolution Service kann ein CachingLdapPrincipalResoution ausgewählt werden. Es wird dann für das Auflösen der AD Gruppenmitgliedschaft eines Benutzers bei der Suche verwendet.

Für die Konfiguration von Caching Principal Resolution Service siehe Caching Principal Resolution Service.

SourcesPermanenter Link zu dieser Überschrift

  • “Root Paths”: Der Root-Pfad muss ein UNC-Pfad sein.
  • “Supports SMB 2”: Soll ausgewählt werden, wenn das SMB2 Protokoll verwendet werden soll.
  • “Disable SMB Packet Signing”: Dadurch werden bei send von SMB Pakete keine Signatur erzeugt und bei empfangene Pakete die Signatur nicht verifiziert.
  • “Thread Count”: Die Traversierung der Verzeichnisse und die Indizierung der Dokumente werden parallel durchgeführt.
  • “Batch Size”: Gibt die Größe der Warteschlange an, welche die zu crawlenden Dokumente enthält.
  • „Document Size Limit (MB)“: Dokumente die größer als dieser Wert sind, werden ignoriert. Wenn dieser Wert verändert wird, sollte auch das Limit und der RPC-Timeout am Filterservervie angepasst werden.
  • Includes”: Es werden nur die Dateien und Verzeichnisse gecrawled, welche diesem Muster entsprechen.
  • „Include Patterns”: Es werden nur die Dateien und Verzeichnisse gecrawled, welche diesem Muster entsprechen. Im Unterschied zum „Includes“ Feld, hier hat man die Möglichkeit mit der Verwendung von „regexpIgnoreCase:“ „case-insensitive“ Muster zu definieren oder mit dem ‚#‘ Zeichen am Anfang der Zeile das Muster auskommentieren.
  • “Excludes”: Es werden die Dateien und Verzeichnisse ignoriert, welche diesem Muster entsprechen.
  • „Exclude Patterns”: Es werden die Dateien und Verzeichnisse ignoriert, welche diesem Muster entsprechen. Im Unterschied zum „Excludes“ Feld, hier hat man die Möglichkeit mit der Verwendung „regexpIgnoreCase:“ „case-insensitive“ Muster zu definieren oder das Muster mit ‚#‘ am Anfang der Zeile auszukommentieren.
  • „Exclude Directories“: Mit dieser Option werden Verzeichnisse nicht indiziert.
  • “Always Use Directory Rights”: Falls ausgewählt, werden die Dateirechte ignoriert und nur die Dateirechte des übergeordneten Verzeichnisses verwendet.
  • Full Traversal Interval (Hours)l”: Intervall (Stunden) zwischen zwei vollständigen Traversierungen aller Dokumente im Fileshare. Modifizierte Dokumente werden auch bei der inkrementellen Traversierung im Abstand von „Crawler Interval“ indiziert.
  • Remove Deleted Documents From Index”: Falls ausgewählt, werden die Dokumente die vom Fileshare gelöscht worden sind, am Ende einer vollständigen Traversierung vom Index gelöscht.

Extensions (Index File Lister)Permanenter Link zu dieser Überschrift

Um nur die Dokumente, die in einer Indexdatei gelistet bzw. mit zusätzlichen Attributen bereichert sind, zu indizieren bietet der Connector die IndexFileListerPlugin Schnittstelle in index-filelister-spi.jar. Diese SPI Datei wird mit dem Connector gemeinsam geliefert. Für die Implementierung werden noch zusätzlich die Dateien der Java Service API (protobuf-java-3.0.0.jar und  messdk-generated.jar)benötigt.

public interface IndexFileListerPlugin {

boolean isIndexFile(ReadonlyFile file);

void init(Properties properties);

Collection<Map.Entry<ReadonlyFile, TypesProtos.Item>> listIndexFile(FilesystemContext context, ReadonlyFile  indexFile);

}

Eine Implementierung der IndexFileListerPlugin Schnittstelle kann mittel der Eingabe der JAR Datei im „Index File Lister Plugin“ Feld und optionalen Properties in den „Index File Lister Plugin Property“ Feldern, wie im folgenden Bild konfiguriert werden.

Content Location OptimizationPermanenter Link zu dieser Überschrift

Beim Indizieren von großen Dateien ist es sinnvoll die Content Location Optimization zu verwenden. Zum Beispiel bei Outlook PST-Dateien.

Konfigurieren Sie den Einhängepunkt (mount point) nach dem Muster im obigen Screenshot.
Folgende Einstellungen sind dazu notwendig:

  • “Root Directory (UNC Path)”: Verwenden Sie hier den selben Pfad wie bei der Crawling Root.
  • Root Directory (Mount Path)”: Der locale Pfad an dem das Netzwerkdateisystem eingehängt ist.
  • Files Pattern (Regex)”: Ein regulärer Ausdruck der jenen Dateien entspricht für die Content Location Optimization verwendet werden soll.

Um Content Location Optimization zu verwenden, muss das Netzwerkdateisystem, das indiziert werden soll, lokal auf der Appliance eingehängt werden. Das kann über das Managementcenter konfiguriert werden:

  1. Erstellen Sie einen lokalen Ordner mittels Filemin:

  1. Machen sie den Mindbreeze Benutzer (mes) zum Besitzer des Ordners:

  1. Fügen Sie einen CIFS mount mittels des “Disk and Network Filesystems” Moduls hinzu:

  1. Konfigurieren sie den Einhängepunkt (mount point):

  1. Nach einem Klick auf „create“ wird das Netzwerkdateisystem eingehängt und ist Betriebsbereit.

Indizieren von Outlook PST DateienPermanenter Link zu dieser Überschrift

Zusätzlich zur Konfiguration des Crawlers (siehe oben) ist es notwendig eine Outlook PST Datenquelle hinzuzufügen und „Default“ Category Instance löschen. um Outlook PST Dateien zu indizieren:

Zum Schluss ist es noch wichtig zu überprüfen ob ein Filter Plugin für die .pst Endung ausgewählt worden ist.

CredentialsPermanenter Link zu dieser Überschrift

Der Benutzer muss für das freigegebene Verzeichnis Leseberechtigung haben, welches gecrawled werden soll.

  • “Username”: Der Name eines leseberichtigten Benutzers.
  • “Domain”: Der Domainname dieses Benutzers.
  • “Password”: Das Passwort.
  • “LDAP Server”: Ist nur dann zu konfigurieren, wenn die LDAP-Einstellungen des Karteireiters „Network“ überschrieben werden sollen.

Additional SettingsPermanenter Link zu dieser Überschrift

  • Always Update Files Matching Regex”: Dokumente die mit dieser Regex matchen werden an den Filter/Index gesendet auch wenn sie nicht verändert wurden.
  • Enable Heap Dump On OutOfMemory”: Wenn der Crawler mehr Speicher benötigt als ihm zugewiesen wurde, wird ein Heapdump im Logverzeichnis für weitere Analyse erstellt. Wieviel Speicher der Crawler zur Verfügung hat steht im Connector Plugins.xml unter <vm_arg>.
  • “Max. Retry Duration by Filter Connection Problems”: Die maximale Zeit für die versucht wird  ein Dokument wiederholt an Filter zu senden, wenn dieser nicht verfügbar ist.
  • “Retry Interval during Repository Connection Problems”: Die Zeit, die der Crawler wartet bevor er es bei einem Verbindungsproblem ein nächstes Mal versucht.
  • Max. Retry Duration during Repository Connection Problems”: Die Zeit, die der Crawler maximal bei einem Verbindungsproblem verwenden darf.

Öffnen von SuchresultatenPermanenter Link zu dieser Überschrift

Suchresultaten aus einer Microsoft File Quelle können nur geöffnet werden, wenn der aktuelle Benutzer am jeweiligen Dateiserver bereits angemeldet ist.