Home
Home
Englische Version
Support
Impressum
20.5 Release ►

    Main Navigation

    • Vorbereitung
      • Einrichten InSpire G7 Primärsystem und Standby Appliances
      • Initiale Inbetriebnahme für G6 Appliances (vor Jänner 2018 ausgeliefert)
      • Initiale Inbetriebnahme für G7 Appliances
      • Konnektoren
    • Datenquellen
      • Anleitung zur Datenintegration mithilfe eines SQL Datenbank-Beispiels
      • Indizierung benutzerspezifischer Eigenschaften (SharePoint 2013 Connector)
      • Indizierung benutzerspezifischer Objekttypen (Documentum)
      • Installation & Konfiguration - Atlassian Confluence Sitemap Generator Add-On
      • Installation & Konfiguration - Caching Principal Resolution Service
      • Installation & Konfiguration - Jive Sitemap Generator
      • Konfiguration - Atlassian Confluence Connector
      • Konfiguration - Best Bets Connector
      • Konfiguration - Data Integration Connector
      • Konfiguration - Documentum Connector
      • Konfiguration - Dropbox Connector
      • Konfiguration - Egnyte Connector
      • Konfiguration - GitHub Connector
      • Konfiguration - Google Drive Connector
      • Konfiguration - GSA Adapter Service
      • Konfiguration - HL7 Connector
      • Konfiguration - IBM Connections Connector
      • Konfiguration - IBM Lotus Connector
      • Konfiguration - Jira Connector
      • Konfiguration - JiveSoftware Jive Connector
      • Konfiguration - JVM Launcher Service
      • Konfiguration - LDAP Connector
      • Konfiguration - Microsoft Dynamics CRM Connector
      • Konfiguration - Microsoft Exchange Connector
      • Konfiguration - Microsoft File Connector (Legacy)
      • Konfiguration - Microsoft File Connector
      • Konfiguration - Microsoft SharePoint Connector
      • Konfiguration - Salesforce Connector
      • Konfiguration - SAP KMC Connector
      • Konfiguration - SemanticWeb Connector
      • Konfiguration - ServiceNow Connector
      • Konfiguration - SharePoint Online Connector
      • Konfiguration - Web Connector
      • Konfiguration - Yammer Connector
      • Mindbreeze InSpire Insight Apps in Microsoft SharePoint Online
      • Mindbreeze InSpire Suchanwendungen in Microsoft SharePoint 2010
      • Mindbreeze InSpire Suchanwendungen in Microsoft SharePoint 2013
      • Mindbreeze Web Parts in Microsoft SharePoint
    • Konfiguration
      • CAS Authentifizierung
      • Cognito JWT Authentifizierung
      • Cookie Authentifizierung
      • I18n Item Transformation
      • Konfiguration - Alternative Suchvorschläge und automatische Sucherweiterung
      • Konfiguration - Backend Credentials
      • Konfiguration - Benachrichtigungen
      • Konfiguration - CJK Tokenizer Plugin
      • Konfiguration - CSV Metadata Mapping Item Transformation Service
      • Konfiguration - Entity Recognition
      • Konfiguration - Export Funktionalität
      • Konfiguration - Gesammelte Ergebnisse
      • Konfiguration - GSA Late Binding Authorization
      • Konfiguration - Index-Servlets
      • Konfiguration - Item Property Generator
      • Konfiguration - Kerberos Authentfizierung
      • Konfiguration - Management Center Menü
      • Konfiguration - Metadata Reference Builder Plugin
      • Konfiguration - Metadaten Anreicherung
      • Konfiguration - Microsoft SharePoint Connector
      • Konfiguration - Mindbreeze InSpire
      • Konfiguration - Outlook Add-In
      • Konfiguration - Personalisierte Relevanz
      • Konfiguration - Plugin Installation
      • Konfiguration - Principal Validation Plugin
      • Konfiguration - Profile
      • Konfiguration - Reporting Query Log
      • Konfiguration - Reporting Query Performance Tests
      • Konfiguration - Request Header Session Authentisierung
      • Konfiguration - Vokabulare für Synonyme und Autovervollständigung
      • Konfiguration von Vorschaubildern
      • Mindbreeze Personalization
      • Mindbreeze Prediction Service mit Beispiel Textklassifizierung
      • Mindbreeze Property Expression Language
      • Mindbreeze Query Expression Transformation
      • Non-Inverted Metadata Item Transformer
      • SAML Authentifizierung
      • Spracherkennung mit dem LanguageDetector Plugin
      • Trusted Peer Authentication für Mindbreeze InSpire
      • Verwendung von InSpire-Snapshots in einer CI_CD-Umgebung
    • Betrieb
      • app.telemetry Statistiken zu Suchanfragen
      • Bereitstellen von app.telemetry Informationen mittels SNMPv3 auf G7 Appliances
      • Handbuch - Filemanager
      • Handbuch - Indizierungs- und Suchlogs
      • Handbuch - Kommandozeilenwerkzeuge
      • Handbuch - Sichern & Wiederherstellen
      • Handbuch - Synchronisierter Betrieb (G6)
      • Handbuch - Verteilter Betrieb (G7)
      • Index Betriebskonzepte
      • Inspire Diagnose und Ressourcen Monitoring
      • Konfiguration - Nutzungsanalyse
      • Löschung der Festplatten
      • Mindbreeze InSpire SFX Update
      • Wiederherstellen des Lieferzustandes
    • Anwenderhandbuch
      • Cheat Sheet
      • iOS App
      • Tastaturbedienung
    • SDK
      • api.v2.alertstrigger Schnittstellenbeschreibung
      • api.v2.export Schnittstellenbeschreibung
      • api.v2.personalization Schnittstellenbeschreibung
      • api.v2.search Schnittstellenbeschreibung
      • api.v2.suggest Schnittstellenbeschreibung
      • api.v3.admin.SnapshotService Schnittstellenbeschreibung
      • Entwicklung eines API V2 Search Request Response Transformer
      • Entwicklung von Insight Apps
      • Java API Schnittstellenbeschreibung
      • SDK Übersicht
    • Release Notes
      • Release Notes 20.1 Release - Mindbreeze InSpire
      • Release Notes 20.2 Release - Mindbreeze InSpire
      • Release Notes 20.3 Release - Mindbreeze InSpire
      • Release Notes 20.4 Release - Mindbreeze InSpire
      • Release Notes 20.5 Release - Mindbreeze InSpire
      • Release Notes 2018 Spring - Mindbreeze InSpire
      • Release Notes 2018 Winter - Mindbreeze InSpire
      • Release Notes 2019 Fall - Mindbreeze InSpire
      • Release Notes 2019 Winter - Mindbreeze InSpire
    • Sicherheit
      • Bekannte Schwachstellen
    • Produktinformation
      • Produktinformation - Mindbreeze InSpire - Standby
      • Produktinformation - Mindbreeze InSpire
    Home

    Path

    Konfiguration

    CJK Text Tokenizer Plugin

    Copyright ©

    Mindbreeze GmbH, A-4020 Linz, 2020.

    Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller.

    Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet.

    Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.

    EinleitungPermanenter Link zu dieser Überschrift

    Dieses Dokument beschäftigt sich mit dem CJK Tokenizer Plugin. Dieses ermöglicht Mindbreeze InSpire chinesische und japanische Inhalte zu crawlen und zu verstehen. So können in etwa Sätze in einzelne zusammengehörige Teile (Token) zerteilt werden, um eine optimierte Sucherfahrung zur Verfügung zu stellen. Das Tokenizer Plugin unterstützt mehrere Tokenizer. Es wird auch ein externer Tokenizer Service unterstützt (nicht enthalten).

    VoraussetzungenPermanenter Link zu dieser Überschrift

    Falls ein externer Tokenizer Service genutzt werden soll, muss dieser Service bereits konfiguriert sein.

    SetupPermanenter Link zu dieser Überschrift

    Um den CJK Tokenizer zu aktivieren müssen folgende Schritte durchgeführt werden:

    • Setup des Postfilters
    • Setup des QueryTransformationServices
    • Reindizierung der Inhalte, die bereits vor der Tokenizer-Installation indiziert wurden

    Setup des Launched ServicePermanenter Link zu dieser Überschrift

    Das CJK Tokenizer Plugin wird als einzelnes Launched Service konfiguriert. Nur so kann eine hohe Leistung erreicht werden. Dieses Launched Service wird nach der Konfiguration als Postfilter- und QueryTransformationService referenziert.

    Zur Einrichtung des CJK Tokenizer Plugin Launched Service wechseln Sie in der Konfiguration in den „Index“ Tab und fügen Sie im Abschnitt „Services“ einen neuen Service hinzu.

    Name

    Beschreibung

    Bind port

    Ein freier TCP-Port auf der Appliance, auf dem er Launched Service läuft.

    Tokenizer

    Wählt den Tokenizer Modus. Unterstützt wird der Modus „Jieba“ (interner Tokenizer, Chinesisch), „HANLP“ (externer Tokenizer Service) und „Kuromoji“ (interner Tokenizer, Japanisch)

    Separation character

    Zeichen, welches zur Trennung der Token verwendet wird. Der Standardwert ist \uFEFF . Zum Testen kann dieser Wert auch geändert werden. Damit die Suche korrekt funktioniert muss jedoch der Standardwert beibehalten werden.

    Tokenizer ISO-8859-1 Text

    Wenn diese Option aktiviert ist, wird auch ISO-8859-1 enkodierter Text durch den Tokenizer bearbeitet

    Excluded Properties Pattern

    Die hier mittels regular Expression konfigurierten Properties werden nicht vom Tokenizer bearbeitet.

    EndPoint URL

    URL des /parse servlets des Tokenizer Services (nur HANLP)

    Tokenizermode

    Kuromoji Tokenizer Modus (nur Kuromoji)

    Setup des PostfiltersPermanenter Link zu dieser Überschrift

    Der Postfilter dient beim Tokenizer dazu, die Inhalte zur Crawlingzeit zu tokenizen (zerlegen), bevor sie in den Index gespeichert werden.

    • Navigieren Sie dazu zum Management Center
    • Wählen Sie den Tab Filter aus, aktivieren Sie die „Advanced Settings“ und öffnen Sie den gewünschten Filter, der die chinesischen Inhalte tokenizen soll:
    • Suchen Sie danach nach der Option Post Filter Transformation Services und fügen Sie die Referenz auf das CJK Tokenizer PostFilter Plugin (TextPlugin.CJKTokenizer) hinzu (Erkennbar am „@“ im Namen):

    Setup des Query Transformation ServicesPermanenter Link zu dieser Überschrift

    Das Query Transformation Service dient beim Tokenizer dafür, dass auch der vom Endbenutzer in das Suchfeld eingegebene Text vor der Abfrage „tokenized“ wird. Ist dies nicht der Fall, stimmt die Tokenization des Indexes nicht mit der des Suchqueries überein. Dies würde denselben Effekt haben, als hätten Sie keinen Tokeinzer konfiguriert.

    • Navigieren Sie dazu zum Management Center
    • Wählen Sie den Tab Indices
    • Aktivieren Sie die „Advanced Settings“ und öffnen Sie den Index, der die chinesischen Inhalte enthält. Wählen Sie jenen Filter aus, auf dem Sie den Postfilter konfiguriert haben:

    • Suchen Sie nach der Einstellung Query Transformation Services und fügen Sie die Referenz auf das CJK Tokenizer QueryTransformation Plugin (TextPlugin.CJKTokenizer) hinzu (Erkennbar am „@“ im Namen):

    Reindizierung der InhaltePermanenter Link zu dieser Überschrift

    Sind in Ihrem Index bereits Dokumente vorhanden, so müssen diese neu indiziert werden, da die bereits vorhandenen Dokumente noch nicht „tokenized“ wurden.

    FehlerdiagnosePermanenter Link zu dieser Überschrift

    Das CJK Tokenizer Plugins betreibt auf dem BindPort ein Test-Servlet, welches zur Diagnosezwecke verwendet werden kann. Sie können Beispielsweise im Webbrowser beliebigen Textfragmente „tokenizen“ lassen.

    Z.B. ergibt der Aufruf:

    https://myappliance:8443/index/{{BindPort}}/tokenize?text=清洁技术

    das Resultat:

    清洁{{Separation character}}技术

    Hinweis: Das Standard Separation character ist nicht sichtbar. Um diese Trennzeichen sichtbar zu machen, können Sie das Resultat in einen Editor kopieren.

    PDF herunterladen

    • Konfiguration - CJK Tokenizer Plugin

    Inhalt

    • Einleitung
    • Voraussetzungen
    • Setup

    PDF herunterladen

    • Konfiguration - CJK Tokenizer Plugin