Home
Home
Englische Version
Support
Impressum
25.2 Release ►

Start Chat with Collection

Hauptnavigation

  • Vorbereitung
  • Datenquellen
  • Konfiguration
  • Betrieb
  • Anwenderhandbuch
  • SDK
  • Release Notes
  • Sicherheit
  • Produktinformation
Home

Pfad

Ressourcenengpass oder zeitlicher Stress?
Überlassen Sie unseren Experten die Wartung, während Sie sich auf Ihr Geschäft konzentrieren.
Consulting Services ansehen

Konfiguration
CJK Text Tokenizer Plugin

EinleitungPermanenter Link zu dieser Überschrift

Dieses Dokument beschäftigt sich mit dem CJK Tokenizer Plugin. Dieses ermöglicht Mindbreeze InSpire chinesische und japanische Inhalte zu crawlen und zu verstehen. So können in etwa Sätze in einzelne zusammengehörige Teile (Token) zerteilt werden, um eine optimierte Sucherfahrung zur Verfügung zu stellen. Das Tokenizer Plugin unterstützt mehrere Tokenizer. Es wird auch ein externer Tokenizer Service unterstützt (nicht enthalten).

VoraussetzungenPermanenter Link zu dieser Überschrift

Falls ein externer Tokenizer Service genutzt werden soll, muss dieser Service bereits konfiguriert sein.

SetupPermanenter Link zu dieser Überschrift

Um den CJK Tokenizer zu aktivieren müssen folgende Schritte durchgeführt werden:

  • Setup des Postfilters
  • Setup des QueryTransformationServices
  • Reindizierung der Inhalte, die bereits vor der Tokenizer-Installation indiziert wurden

Setup des Launched ServicePermanenter Link zu dieser Überschrift

Das CJK Tokenizer Plugin wird als einzelnes Launched Service konfiguriert. Nur so kann eine hohe Leistung erreicht werden. Dieses Launched Service wird nach der Konfiguration als Postfilter- und QueryTransformationService referenziert.

Zur Einrichtung des CJK Tokenizer Plugin Launched Service wechseln Sie in der Konfiguration in den „Index“ Tab und fügen Sie im Abschnitt „Services“ einen neuen Service hinzu.

Base ConfigurationPermanenter Link zu dieser Überschrift

Bind port

Ein freier TCP-Port auf der Appliance, auf dem er Launched Service läuft.

Tokenizer

Wählt den Tokenizer Modus. Unterstützt werden die Modi:

Jieba

interner Tokenizer, Chinesisch

[Deprecated] HANLP

externer Tokenizer Service

Kuromoji

interner Tokenizer, Japanisch

Separation character

Zeichen, welches zur Trennung der Token verwendet wird. Der Standardwert ist \uFEFF. Zum Testen kann dieser Wert auch geändert werden. Damit die Suche korrekt funktioniert muss jedoch der Standardwert beibehalten werden.

Tokenize ISO-8859-1 Text

Wenn diese Option aktiviert ist, wird auch ISO-8859-1 enkodierter Text durch den Tokenizer bearbeitet

Enable Text Normalization

Text wird normalisiert, sodass z.B. Dokumente mit Full-Width-Characters gefunden werden können, obwohl bei der Suche normale westliche Buchstaben verwendet wurden. Die verwendete Normalisierungsform ist NFKC.

Excluded Properties Pattern

Die hier mittels regular Expression konfigurierten Properties werden nicht vom Tokenizer bearbeitet.

Jieba ConfigurationPermanenter Link zu dieser Überschrift

Anmerkung: nur relevant, wenn bei Tokenizer der Wert Jieba ausgewählt wird.

Segmentation Dictionary

Das Wörterbuch, welches für das Tokenizing verwendet wird:

Default

kleinerer Wortschatz

Enhanced Support for traditional Chinese (Large)

größerer Wortschatz

Segmentation Mode

Je nachdem, ob das Service als QueryExprTransformation Service oder als Post-Filter verwendet wird, können unterschiedliche Einstellungen verwendet werden. Der Standardwert „Index“ ist jedoch für beide Servicearten ausreichend.

Index

Für Post-Filter oder QueryExprTransformation Service

Search

Für QueryExprTransformation Service

HANLP Configuration (Deprecated)Permanenter Link zu dieser Überschrift

Anmerkung: nur relevant, wenn bei Tokenizer der Wert HANLP ausgewählt wird.

EndPoint URL

URL des /parse servlets des Tokenizer Services

Kuromoji ConfigurationPermanenter Link zu dieser Überschrift

Anmerkung: nur relevant, wenn bei Tokenizer der Wert Kuromoji ausgewählt wird.

Tokenizermode

Kuromoji Tokenizer Modus, siehe auch Javadoc

Setup des PostfiltersPermanenter Link zu dieser Überschrift

Der Postfilter dient beim Tokenizer dazu, die Inhalte zur Crawlingzeit zu tokenizen (zerlegen), bevor sie in den Index gespeichert werden.

  • Navigieren Sie dazu zum Management Center
  • Wählen Sie den Tab Filter aus, aktivieren Sie die „Advanced Settings“ und öffnen Sie den gewünschten Filter, der die chinesischen Inhalte tokenizen soll:
  • Suchen Sie danach nach der Option Post Filter Transformation Services und fügen Sie die Referenz auf das CJK Tokenizer PostFilter Plugin (TextPlugin.CJKTokenizer) hinzu (Erkennbar am „@“ im Namen):

Setup des Query Transformation ServicesPermanenter Link zu dieser Überschrift

Das Query Transformation Service dient beim Tokenizer dafür, dass auch der vom Endbenutzer in das Suchfeld eingegebene Text vor der Abfrage „tokenized“ wird. Ist dies nicht der Fall, stimmt die Tokenization des Indexes nicht mit der des Suchqueries überein. Dies würde denselben Effekt haben, als hätten Sie keinen Tokeinzer konfiguriert.

  • Navigieren Sie dazu zum Management Center
  • Wählen Sie den Tab Indices
  • Aktivieren Sie die „Advanced Settings“ und öffnen Sie den Index, der die chinesischen Inhalte enthält. Wählen Sie jenen Filter aus, auf dem Sie den Postfilter konfiguriert haben:

  • Suchen Sie nach der Einstellung Query Transformation Services und fügen Sie die Referenz auf das CJK Tokenizer QueryTransformation Plugin (TextPlugin.CJKTokenizer) hinzu (Erkennbar am „@“ im Namen):

Reindizierung der InhaltePermanenter Link zu dieser Überschrift

Sind in Ihrem Index bereits Dokumente vorhanden, so müssen diese neu indiziert werden, da die bereits vorhandenen Dokumente noch nicht „tokenized“ wurden.

FehlerdiagnosePermanenter Link zu dieser Überschrift

Das CJK Tokenizer Plugins betreibt auf dem BindPort ein Test-Servlet, welches zur Diagnosezwecke verwendet werden kann. Sie können Beispielsweise im Webbrowser beliebigen Textfragmente „tokenizen“ lassen.

Z.B. ergibt der Aufruf:

https://myappliance:8443/index/{{BindPort}}/tokenize?text=清洁技术

das Resultat:

清洁{{Separation character}}技术

Hinweis: Der Standard Separation Character ist nicht sichtbar. Um diese Trennzeichen sichtbar zu machen, können Sie das Resultat in einen Editor kopieren.

PDF herunterladen

  • Konfiguration - CJK Tokenizer Plugin

Inhalt

  • Einleitung
  • Voraussetzungen
  • Setup

PDF herunterladen

  • Konfiguration - CJK Tokenizer Plugin