Home
Home
Englische Version
Support
Impressum
23.1 Release ►

    Main Navigation

    • Vorbereitung
      • Einrichten InSpire G7 Primärsystem und Standby Appliances
      • Initiale Inbetriebnahme für G7 Appliances
      • Konnektoren
    • Datenquellen
      • Anleitung zur Datenintegration mithilfe eines SQL Datenbank-Beispiels
      • Handbuch - Mindbreeze InSpire Insight Apps in Salesforce
      • Indizierung benutzerspezifischer Eigenschaften (SharePoint 2013 Connector)
      • Indizierung benutzerspezifischer Objekttypen (Documentum)
      • Installation & Konfiguration - Atlassian Confluence Sitemap Generator Add-On
      • Installation & Konfiguration - Caching Principal Resolution Service
      • Installation & Konfiguration - Jive Sitemap Generator
      • Installation & Konfiguration - Mindbreeze InSpire Insight Apps in Microsoft SharePoint On-Prem
      • Konfiguration - Atlassian Confluence Connector
      • Konfiguration - Best Bets Connector
      • Konfiguration - Box Connector
      • Konfiguration - COYO Connector
      • Konfiguration - Data Integration Connector
      • Konfiguration - Documentum Connector
      • Konfiguration - Dropbox Connector
      • Konfiguration - Egnyte Connector
      • Konfiguration - GitHub Connector
      • Konfiguration - Google Drive Connector
      • Konfiguration - GSA Adapter Service
      • Konfiguration - HL7 Connector
      • Konfiguration - IBM Connections Connector
      • Konfiguration - IBM Lotus Connector
      • Konfiguration - Jira Connector
      • Konfiguration - JiveSoftware Jive Connector
      • Konfiguration - JVM Launcher Service
      • Konfiguration - LDAP Connector
      • Konfiguration - Microsoft Azure Principal Resolution Service
      • Konfiguration - Microsoft Dynamics CRM Connector
      • Konfiguration - Microsoft Exchange Connector
      • Konfiguration - Microsoft File Connector (Legacy)
      • Konfiguration - Microsoft File Connector
      • Konfiguration - Microsoft Graph Connector
      • Konfiguration - Microsoft Project Connector
      • Konfiguration - Microsoft SharePoint Connector
      • Konfiguration - Microsoft SharePoint Online Azure Principal Resolution Service
      • Konfiguration - Microsoft SharePoint Online Connector
      • Konfiguration - Microsoft Stream Connector
      • Konfiguration - Microsoft Teams Connector
      • Konfiguration - Salesforce Connector
      • Konfiguration - SAP KMC Connector
      • Konfiguration - SemanticWeb Connector
      • Konfiguration - ServiceNow Connector
      • Konfiguration - Sitecore Connector
      • Konfiguration - Web Connector
      • Konfiguration - Yammer Connector
      • Konfiguration - Zoho Connector
      • Mindbreeze InSpire Insight Apps in Microsoft SharePoint Online
      • Mindbreeze Web Parts in Microsoft SharePoint
      • Whitepaper - Web Connector Erweiterte JavaScript Anwendungsfälle
    • Konfiguration
      • CAS Authentifizierung
      • Cognito JWT Authentifizierung
      • Cookie Authentifizierung
      • Handbuch - MMC_ Services
      • Handbuch - SSO mit Microsoft AAD oder AD FS
      • Handbuch - Text Classification Insight Services
      • I18n Item Transformation
      • Konfiguration - Alternative Suchvorschläge und automatische Sucherweiterung
      • Konfiguration - Backend Credentials
      • Konfiguration - Benachrichtigungen
      • Konfiguration - Box Connector
      • Konfiguration - CJK Tokenizer Plugin
      • Konfiguration - CSV Metadata Mapping Item Transformation Service
      • Konfiguration - Entity Recognition
      • Konfiguration - Export Funktionalität
      • Konfiguration - External Query Service
      • Konfiguration - Filter Plugins
      • Konfiguration - Gesammelte Ergebnisse
      • Konfiguration - GSA Late Binding Authorization
      • Konfiguration - Identity Conversion Service - Replacement Conversion
      • Konfiguration - InceptionImageFilter
      • Konfiguration - Index-Servlets
      • Konfiguration - Item Property Generator
      • Konfiguration - Kerberos Authentfizierung
      • Konfiguration - Management Center Menü
      • Konfiguration - Metadata Reference Builder Plugin
      • Konfiguration - Metadaten Anreicherung
      • Konfiguration - Mindbreeze InSpire
      • Konfiguration - Mindbreeze Proxy Umgebung (Remote Connector)
      • Konfiguration - NLQA Plugin
      • Konfiguration - Outlook Add-In
      • Konfiguration - Personalisierte Relevanz
      • Konfiguration - Plugin Installation
      • Konfiguration - Principal Validation Plugin
      • Konfiguration - Profile
      • Konfiguration - QueryExpr Label Transformer Service
      • Konfiguration - Reporting Query Log
      • Konfiguration - Reporting Query Performance Tests
      • Konfiguration - Request Header Session Authentisierung
      • Konfiguration - Verteilte Konfiguration (Windows)
      • Konfiguration - Vokabulare für Synonyme und Autovervollständigung
      • Konfiguration von Vorschaubildern
      • Mindbreeze Personalization
      • Mindbreeze Property Expression Language
      • Mindbreeze Query Expression Transformation
      • Non-Inverted Metadata Item Transformer
      • SAML Authentifizierung
      • Spracherkennung mit dem LanguageDetector Plugin
      • Trusted Peer Authentication für Mindbreeze InSpire
      • Verwendung von InSpire-Snapshots in einer CI_CD-Umgebung
    • Betrieb
      • app.telemetry Statistiken zu Suchanfragen
      • Bereitstellen von app.telemetry Informationen mittels SNMPv3 auf G7 Appliances
      • Handbuch - Filemanager
      • Handbuch - Indizierungs- und Suchlogs
      • Handbuch - Kommandozeilenwerkzeuge
      • Handbuch - Sichern & Wiederherstellen
      • Handbuch - Updates und Downgrades
      • Handbuch - Verteilter Betrieb (G7)
      • Index Betriebskonzepte
      • Inspire Diagnose und Ressourcen Monitoring
      • Konfiguration - app.telemetry Dashboards für Nutzungsanalyse
      • Konfiguration - Nutzungsanalyse
      • Löschung der Festplatten
      • Mindbreeze InSpire SFX Update
      • Wiederherstellen des Lieferzustandes
    • Anwenderhandbuch
      • Browser Extension
      • Cheat Sheet
      • iOS App
      • Tastaturbedienung
    • SDK
      • api.v2.alertstrigger Schnittstellenbeschreibung
      • api.v2.export Schnittstellenbeschreibung
      • api.v2.personalization Schnittstellenbeschreibung
      • api.v2.search Schnittstellenbeschreibung
      • api.v2.suggest Schnittstellenbeschreibung
      • api.v3.admin.SnapshotService Schnittstellenbeschreibung
      • Einbetten des Insight App Designers
      • Entwicklung eines API V2 Search Request Response Transformer
      • Entwicklung von Insight Apps
      • Java API Schnittstellenbeschreibung
      • SDK Übersicht
    • Release Notes
      • Release Notes 20.1 Release - Mindbreeze InSpire
      • Release Notes 20.2 Release - Mindbreeze InSpire
      • Release Notes 20.3 Release - Mindbreeze InSpire
      • Release Notes 20.4 Release - Mindbreeze InSpire
      • Release Notes 20.5 Release - Mindbreeze InSpire
      • Release Notes 21.1 Release - Mindbreeze InSpire
      • Release Notes 21.2 Release - Mindbreeze InSpire
      • Release Notes 21.3 Release - Mindbreeze InSpire
      • Release Notes 22.1 Release - Mindbreeze InSpire
      • Release Notes 22.2 Release - Mindbreeze InSpire
      • Release Notes 22.3 Release - Mindbreeze InSpire
      • Release Notes 23.1 Release - Mindbreeze InSpire
    • Sicherheit
      • Bekannte Schwachstellen
    • Produktinformation
      • Produktinformation - Mindbreeze InSpire - Standby
      • Produktinformation - Mindbreeze InSpire
    Home

    Path

    Sure, you can handle it. But should you?
    Let our experts manage the tech maintenance while you focus on your business.
    See Consulting Packages

    Konfiguration

    CJK Text Tokenizer Plugin

    Copyright ©

    Mindbreeze GmbH, A-4020 Linz, 2023.

    Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller.

    Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet.

    Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.

    EinleitungPermanenter Link zu dieser Überschrift

    Dieses Dokument beschäftigt sich mit dem CJK Tokenizer Plugin. Dieses ermöglicht Mindbreeze InSpire chinesische und japanische Inhalte zu crawlen und zu verstehen. So können in etwa Sätze in einzelne zusammengehörige Teile (Token) zerteilt werden, um eine optimierte Sucherfahrung zur Verfügung zu stellen. Das Tokenizer Plugin unterstützt mehrere Tokenizer. Es wird auch ein externer Tokenizer Service unterstützt (nicht enthalten).

    VoraussetzungenPermanenter Link zu dieser Überschrift

    Falls ein externer Tokenizer Service genutzt werden soll, muss dieser Service bereits konfiguriert sein.

    SetupPermanenter Link zu dieser Überschrift

    Um den CJK Tokenizer zu aktivieren müssen folgende Schritte durchgeführt werden:

    • Setup des Postfilters
    • Setup des QueryTransformationServices
    • Reindizierung der Inhalte, die bereits vor der Tokenizer-Installation indiziert wurden

    Setup des Launched ServicePermanenter Link zu dieser Überschrift

    Das CJK Tokenizer Plugin wird als einzelnes Launched Service konfiguriert. Nur so kann eine hohe Leistung erreicht werden. Dieses Launched Service wird nach der Konfiguration als Postfilter- und QueryTransformationService referenziert.

    Zur Einrichtung des CJK Tokenizer Plugin Launched Service wechseln Sie in der Konfiguration in den „Index“ Tab und fügen Sie im Abschnitt „Services“ einen neuen Service hinzu.

    Base ConfigurationPermanenter Link zu dieser Überschrift

    Bind port

    Ein freier TCP-Port auf der Appliance, auf dem er Launched Service läuft.

    Tokenizer

    Wählt den Tokenizer Modus. Unterstützt werden die Modi:

    Jieba

    interner Tokenizer, Chinesisch

    [Deprecated] HANLP

    externer Tokenizer Service

    Kuromoji

    interner Tokenizer, Japanisch

    Separation character

    Zeichen, welches zur Trennung der Token verwendet wird. Der Standardwert ist \uFEFF. Zum Testen kann dieser Wert auch geändert werden. Damit die Suche korrekt funktioniert muss jedoch der Standardwert beibehalten werden.

    Tokenize ISO-8859-1 Text

    Wenn diese Option aktiviert ist, wird auch ISO-8859-1 enkodierter Text durch den Tokenizer bearbeitet

    Enable Text Normalization

    Text wird normalisiert, sodass z.B. Dokumente mit Full-Width-Characters gefunden werden können, obwohl bei der Suche normale westliche Buchstaben verwendet wurden. Die verwendete Normalisierungsform ist NFKC.

    Excluded Properties Pattern

    Die hier mittels regular Expression konfigurierten Properties werden nicht vom Tokenizer bearbeitet.

    Jieba ConfigurationPermanenter Link zu dieser Überschrift

    Anmerkung: nur relevant, wenn bei Tokenizer der Wert Jieba ausgewählt wird.

    Segmentation Dictionary

    Das Wörterbuch, welches für das Tokenizing verwendet wird:

    Default

    kleinerer Wortschatz

    Enhanced Support for traditional Chinese (Large)

    größerer Wortschatz

    Segmentation Mode

    Je nachdem, ob das Service als QueryExprTransformation Service oder als Post-Filter verwendet wird, können unterschiedliche Einstellungen verwendet werden. Der Standardwert „Index“ ist jedoch für beide Servicearten ausreichend.

    Index

    Für Post-Filter oder QueryExprTransformation Service

    Search

    Für QueryExprTransformation Service

    HANLP Configuration (Deprecated)Permanenter Link zu dieser Überschrift

    Anmerkung: nur relevant, wenn bei Tokenizer der Wert HANLP ausgewählt wird.

    EndPoint URL

    URL des /parse servlets des Tokenizer Services

    Kuromoji ConfigurationPermanenter Link zu dieser Überschrift

    Anmerkung: nur relevant, wenn bei Tokenizer der Wert Kuromoji ausgewählt wird.

    Tokenizermode

    Kuromoji Tokenizer Modus, siehe auch Javadoc

    Setup des PostfiltersPermanenter Link zu dieser Überschrift

    Der Postfilter dient beim Tokenizer dazu, die Inhalte zur Crawlingzeit zu tokenizen (zerlegen), bevor sie in den Index gespeichert werden.

    • Navigieren Sie dazu zum Management Center
    • Wählen Sie den Tab Filter aus, aktivieren Sie die „Advanced Settings“ und öffnen Sie den gewünschten Filter, der die chinesischen Inhalte tokenizen soll:
    • Suchen Sie danach nach der Option Post Filter Transformation Services und fügen Sie die Referenz auf das CJK Tokenizer PostFilter Plugin (TextPlugin.CJKTokenizer) hinzu (Erkennbar am „@“ im Namen):

    Setup des Query Transformation ServicesPermanenter Link zu dieser Überschrift

    Das Query Transformation Service dient beim Tokenizer dafür, dass auch der vom Endbenutzer in das Suchfeld eingegebene Text vor der Abfrage „tokenized“ wird. Ist dies nicht der Fall, stimmt die Tokenization des Indexes nicht mit der des Suchqueries überein. Dies würde denselben Effekt haben, als hätten Sie keinen Tokeinzer konfiguriert.

    • Navigieren Sie dazu zum Management Center
    • Wählen Sie den Tab Indices
    • Aktivieren Sie die „Advanced Settings“ und öffnen Sie den Index, der die chinesischen Inhalte enthält. Wählen Sie jenen Filter aus, auf dem Sie den Postfilter konfiguriert haben:

    • Suchen Sie nach der Einstellung Query Transformation Services und fügen Sie die Referenz auf das CJK Tokenizer QueryTransformation Plugin (TextPlugin.CJKTokenizer) hinzu (Erkennbar am „@“ im Namen):

    Reindizierung der InhaltePermanenter Link zu dieser Überschrift

    Sind in Ihrem Index bereits Dokumente vorhanden, so müssen diese neu indiziert werden, da die bereits vorhandenen Dokumente noch nicht „tokenized“ wurden.

    FehlerdiagnosePermanenter Link zu dieser Überschrift

    Das CJK Tokenizer Plugins betreibt auf dem BindPort ein Test-Servlet, welches zur Diagnosezwecke verwendet werden kann. Sie können Beispielsweise im Webbrowser beliebigen Textfragmente „tokenizen“ lassen.

    Z.B. ergibt der Aufruf:

    https://myappliance:8443/index/{{BindPort}}/tokenize?text=清洁技术

    das Resultat:

    清洁{{Separation character}}技术

    Hinweis: Der Standard Separation Character ist nicht sichtbar. Um diese Trennzeichen sichtbar zu machen, können Sie das Resultat in einen Editor kopieren.

    PDF herunterladen

    • Konfiguration - CJK Tokenizer Plugin

    Inhalt

    • Einleitung
    • Voraussetzungen
    • Setup

    PDF herunterladen

    • Konfiguration - CJK Tokenizer Plugin