Konfiguration

HANLP Text Tokenizer Plugin

Copyright ©

Mindbreeze GmbH, A-4020 Linz, 2018.

Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller.

Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet.

Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.

EinleitungPermanenter Link zu dieser Überschrift

Dieses Dokument beschäftigt sich mit dem HANLP Text Tokenizer Plugin. Dieses ermöglicht Mindbreeze InSpire chinesische Inhalte zu crawlen und zu verstehen. So können in etwa Sätze in einzelne zusammengehörige Teile (Token) zerteilt werden, um eine optimierte Sucherfahrung zur Verfügung zu stellen. Das Tokenizer Plugin benötigt dazu einen Tokenizer Service (nicht enthalten).

RequirementsPermanenter Link zu dieser Überschrift

Vor der Verwendung des Plugins muss ein Tokenizer Service bereits konfiguriert sein.

SetupPermanenter Link zu dieser Überschrift

Um den HANLP Tokenizer zu aktivieren müssen folgende Schritte durchgeführt werden:

  • Setup des Postfilters
  • Setup des QueryTransformationServices
  • Reindizierung der Inhalte, die bereits vor der Tokenizer-Installation indiziert wurden

Setup des PostfiltersPermanenter Link zu dieser Überschrift

Der Postfilter dient beim Tokenizer dazu, die Inhalte zur Crawlingzeit zu tokenizen (zerlegen), bevor sie in den Index gespeichert werden.

  • Navigieren Sie dazu zum Management Center
  • Wählen Sie den Tab Filter aus, aktivieren Sie die „Advanced Settings“ und öffnen Sie den gewünschten Filter, der die chinesischen Inhalte tokenizen soll:
  • Suchen Sie danach nach der Option Post Filter Transformation Services und fügen sie das Tokenizerpostfilterplugin (TextPlugin.HANLP) hinzu:
  • EndPoint URL: URL des /parse servlets des Tokenizer Services
  • Tokenize ISO-8859-1 Text: Wenn diese Option aktiviert ist, wird auch ISO-8859-1 enkodierter Text durch den Tokenizer bearbeitet.
  • Excluded Properties Pattern: Die hier mittels regular Expression konfigurierten Properties werden nicht vom Tokenizer bearbeitet.

Setup des Query Transformation ServicesPermanenter Link zu dieser Überschrift

Das Query Transformation Service dient beim Tokenizer dafür, dass auch der vom Endbenutzer in das Suchfeld eingegebene Text vor der Abfrage „tokenized“ wird. Ist dies nicht der Fall, stimmt die Tokenization des Indexes nicht mit der des Suchqueries überein. Dies würde denselben Effekt haben, als hätten Sie keinen Tokeinzer konfiguriert.

  • Navigieren Sie dazu zum Management Center
  • Wählen Sie den Tab Indices
  • Aktivieren Sie die „Advanced Settings“ und öffnen Sie den Index, der die chinesischen Inhalte enthält. Wählen Sie jenen Filter aus, auf dem Sie den Postfilter konfiguriert haben:

  • Suchen Sie nach der Einstellung Query Transformation Services und fügen Sie das Service des Tokenizers hinzu:
  • Öffnen Sie Anschließend die Einstellungen des Query Transformation Services durch Betätigung des „Plus“-Buttons und konfigurieren  äquivalent zum Postfilter die EndPoint URL des Tokenizer Services.

Reindizierung der InhaltePermanenter Link zu dieser Überschrift

Sind in Ihrem Index bereits Dokumente vorhanden, so müssen diese neu indiziert werden, da die bereits vorhandenen Dokumente noch nicht „tokenized“ wurden.