Home
Home
Englische Version
Support
Impressum
25.2 Release ►

Start Chat with Collection

    Main Navigation

    • Vorbereitung
      • Einrichten InSpire G7 Primärsystem und Standby Appliances
      • Erstellen einer InSpire-VM auf Hyper-V
      • Initiale Inbetriebnahme für G7 Appliances
      • Konnektoren
    • Datenquellen
      • Anleitung zur Datenintegration mithilfe eines SQL Datenbank-Beispiels
      • Handbuch - Mindbreeze InSpire Insight Apps in Salesforce
      • Indizierung benutzerspezifischer Eigenschaften (SharePoint 2013 Connector)
      • Indizierung benutzerspezifischer Objekttypen (Documentum)
      • Installation & Konfiguration - Atlassian Confluence Sitemap Generator Add-On
      • Installation & Konfiguration - Caching Principal Resolution Service
      • Installation & Konfiguration - Mindbreeze InSpire Insight Apps in Microsoft SharePoint On-Prem
      • Konfiguration - Atlassian Confluence Connector
      • Konfiguration - Best Bets Connector
      • Konfiguration - Box Connector
      • Konfiguration - COYO Connector
      • Konfiguration - Data Integration Connector
      • Konfiguration - Documentum Connector
      • Konfiguration - Dropbox Connector
      • Konfiguration - Egnyte Connector
      • Konfiguration - GitHub Connector
      • Konfiguration - Google Drive Connector
      • Konfiguration - GSA Adapter Service
      • Konfiguration - HL7 Connector
      • Konfiguration - IBM Connections Connector
      • Konfiguration - IBM Lotus Connector
      • Konfiguration - Jira Connector
      • Konfiguration - JVM Launcher Service
      • Konfiguration - LDAP Connector
      • Konfiguration - Microsoft Azure Principal Resolution Service
      • Konfiguration - Microsoft Dynamics CRM Connector
      • Konfiguration - Microsoft Exchange Connector
      • Konfiguration - Microsoft File Connector (Legacy)
      • Konfiguration - Microsoft File Connector
      • Konfiguration - Microsoft Graph Connector
      • Konfiguration - Microsoft Loop Connector
      • Konfiguration - Microsoft Project Connector
      • Konfiguration - Microsoft SharePoint Connector
      • Konfiguration - Microsoft SharePoint Online Connector
      • Konfiguration - Microsoft Stream Connector
      • Konfiguration - Microsoft Teams Connector
      • Konfiguration - Salesforce Connector
      • Konfiguration - SCIM Principal Resolution Service
      • Konfiguration - SemanticWeb Connector
      • Konfiguration - ServiceNow Connector
      • Konfiguration - Web Connector
      • Konfiguration - Yammer Connector
      • Mindbreeze InSpire Insight Apps in Microsoft SharePoint Online
      • Mindbreeze Web Parts in Microsoft SharePoint
      • Whitepaper - Web Connector Erweiterte JavaScript Anwendungsfälle
    • Konfiguration
      • CAS Authentifizierung
      • Cookie Authentifizierung
      • Handbuch - AI Chat
      • Handbuch - Erstellung einer AWS 10M InSpire Applikation
      • Handbuch - Erstellung einer AWS 1M InSpire Applikation
      • Handbuch - Erstellung einer AWS 2M InSpire Applikation
      • Handbuch - Erstellung einer Google Compute Cloud Virtual Machine InSpire Applikation
      • Handbuch - Erstellung einer Oracle Cloud 10M InSpire Applikation
      • Handbuch - Erstellung einer Oracle Cloud 1M InSpire Applikation
      • Handbuch - MMC_ Services
      • Handbuch - Natural Language Question Answering (NLQA)
      • Handbuch - SSO mit Microsoft AAD oder AD FS
      • Handbuch - Text Classification Insight Services
      • I18n Item Transformation
      • JWT Authentifizierung
      • Konfiguration - Alternative Suchvorschläge und automatische Sucherweiterung
      • Konfiguration - Backend Credentials
      • Konfiguration - Benachrichtigungen
      • Konfiguration - CJK Tokenizer Plugin
      • Konfiguration - CSV Metadata Mapping Item Transformation Service
      • Konfiguration - Entity Recognition
      • Konfiguration - Export Funktionalität
      • Konfiguration - External Query Service
      • Konfiguration - Filter Plugins
      • Konfiguration - Gesammelte Ergebnisse
      • Konfiguration - GSA Late Binding Authorization
      • Konfiguration - Identity Conversion Service - Replacement Conversion
      • Konfiguration - InceptionImageFilter
      • Konfiguration - Index-Servlets
      • Konfiguration - InSpire AI Chat und Insight Services für Retrieval Augmented Generation
      • Konfiguration - Item Property Generator
      • Konfiguration - Kerberos Authentfizierung
      • Konfiguration - Management Center Menü
      • Konfiguration - Metadata Reference Builder Plugin
      • Konfiguration - Metadaten Anreicherung
      • Konfiguration - Mindbreeze InSpire
      • Konfiguration - Mindbreeze Proxy Umgebung (Remote Connector)
      • Konfiguration - Outlook Add-In
      • Konfiguration - Personalisierte Relevanz
      • Konfiguration - Plugin Installation
      • Konfiguration - Principal Validation Plugin
      • Konfiguration - Profile
      • Konfiguration - Reporting Query Log
      • Konfiguration - Reporting Query Performance Tests
      • Konfiguration - Request Header Session Authentisierung
      • Konfiguration - Verteilte Konfiguration (Windows)
      • Konfiguration - Vokabulare für Synonyme und Autovervollständigung
      • Konfiguration von Vorschaubildern
      • Mindbreeze Personalization
      • Mindbreeze Property Expression Language
      • Mindbreeze Query Expression Transformation
      • SAML Authentifizierung
      • Spracherkennung mit dem LanguageDetector Plugin
      • Trusted Peer Authentication für Mindbreeze InSpire
      • Verwendung von InSpire-Snapshots in einer CI_CD-Umgebung
    • Betrieb
      • Anpassung der InSpire Host OpenSSH Einstellungen - LoginGraceTime auf 0 setzen (Mitigation für CVE-2024-6387)
      • app.telemetry Statistiken zu Suchanfragen
      • Bereitstellen von app.telemetry Informationen mittels SNMPv3 auf G7 Appliances
      • CIS Level 2 Hardening - SELinux in den Modus Enforcing versetzen
      • Handbuch - Administration von Insight Services für Retrieval Augmented Generation
      • Handbuch - Filemanager
      • Handbuch - Indizierungs- und Suchlogs
      • Handbuch - Kommandozeilenwerkzeuge
      • Handbuch - Sichern & Wiederherstellen
      • Handbuch - Updates und Downgrades
      • Handbuch - Verteilter Betrieb (G7)
      • Index Betriebskonzepte
      • Inspire Diagnose und Ressourcen Monitoring
      • Konfiguration - app.telemetry Dashboards für Nutzungsanalyse
      • Konfiguration - Nutzungsanalyse
      • Löschung der Festplatten
      • Wiederherstellen des Lieferzustandes
    • Anwenderhandbuch
      • Browser Extension
      • Cheat Sheet
      • iOS App
      • Tastaturbedienung
    • SDK
      • api.chat.v1beta.generate Schnittstellenbeschreibung
      • api.v2.alertstrigger Schnittstellenbeschreibung
      • api.v2.export Schnittstellenbeschreibung
      • api.v2.personalization Schnittstellenbeschreibung
      • api.v2.search Schnittstellenbeschreibung
      • api.v2.suggest Schnittstellenbeschreibung
      • api.v3.admin.SnapshotService Schnittstellenbeschreibung
      • Debugging (Eclipse)
      • Einbetten des Insight App Designers
      • Entwicklung eines API V2 Search Request Response Transformer
      • Entwicklung eines Query Expression Transformer
      • Entwicklung von Insight Apps
      • Entwicklung von Item Transformation und Post Filter Plugins mit der Mindbreeze SDK
      • Java API Schnittstellenbeschreibung
      • OpenAPI Schnittstellenbeschreibung
      • SDK Übersicht
    • Release Notes
      • Release Notes 20.1 Release - Mindbreeze InSpire
      • Release Notes 20.2 Release - Mindbreeze InSpire
      • Release Notes 20.3 Release - Mindbreeze InSpire
      • Release Notes 20.4 Release - Mindbreeze InSpire
      • Release Notes 20.5 Release - Mindbreeze InSpire
      • Release Notes 21.1 Release - Mindbreeze InSpire
      • Release Notes 21.2 Release - Mindbreeze InSpire
      • Release Notes 21.3 Release - Mindbreeze InSpire
      • Release Notes 22.1 Release - Mindbreeze InSpire
      • Release Notes 22.2 Release - Mindbreeze InSpire
      • Release Notes 22.3 Release - Mindbreeze InSpire
      • Release Notes 23.1 Release - Mindbreeze InSpire
      • Release Notes 23.2 Release - Mindbreeze InSpire
      • Release Notes 23.3 Release - Mindbreeze InSpire
      • Release Notes 23.4 Release - Mindbreeze InSpire
      • Release Notes 23.5 Release - Mindbreeze InSpire
      • Release Notes 23.6 Release - Mindbreeze InSpire
      • Release Notes 23.7 Release - Mindbreeze InSpire
      • Release Notes 24.1 Release - Mindbreeze InSpire
      • Release Notes 24.2 Release - Mindbreeze InSpire
      • Release Notes 24.3 Release - Mindbreeze InSpire
      • Release Notes 24.4 Release - Mindbreeze InSpire
      • Release Notes 24.5 Release - Mindbreeze InSpire
      • Release Notes 24.6 Release - Mindbreeze InSpire
      • Release Notes 24.7 Release - Mindbreeze InSpire
      • Release Notes 24.8 Release - Mindbreeze InSpire
      • Release Notes 25.1 Release - Mindbreeze InSpire
      • Release Notes 25.2 Release - Mindbreeze InSpire
    • Sicherheit
      • Bekannte Schwachstellen
    • Produktinformation
      • Produktinformation - Mindbreeze InSpire - Standby
      • Produktinformation - Mindbreeze InSpire
    Home

    Path

    Sure, you can handle it. But should you?
    Let our experts manage the tech maintenance while you focus on your business.
    See Consulting Packages

    Handbuch
    Text Classification Insight Service

    Motivation und ÜberblickPermanenter Link zu dieser Überschrift

    Noch nie war Textklassifizierung mit Mindbreeze InSpire so einfach wie heute. Kennzeichnen Sie einen Teil Ihrer Dokumente mit vorab definierten Labels. Mithilfe von Mindbreeze Insight Services und Machine Learning ist Mindbreeze InSpire in der Lage ihr Wissen zu erweitern und es für künftige Anwendungsfälle abzuspeichern. Auf Basis dieses Wissens können in weiterer Folge sämtliche anderen Dokumente voll automatisch klassifiziert werden.

    Das Labeling kann ohne vordefiniertes Datenset einfach und direkt über die Insight App durchgeführt werden. Somit kann man starten, ohne ein vordefiniertes Datenset zu haben.

    Die wichtigsten Schritte zur Durchführung dieses Anwendungsfalls sind:

    1. Vorbereitung des Trainingsdatasets
      1. Definieren Sie die möglichen Labels für die Dokumente.
      2. Manuelles Labeling via der Insight App für Dokumente und Erstellung des Datasets zum Trainieren des Klassifikationsmodells.
    2. Trainieren eines Klassifizierungsmodells
    3. Labeling der Dokumente aus einem Index unter Verwendung des Klassifizierungsmodells in der Semantic Pipeline (Item Transformation).

    VorbereitungPermanenter Link zu dieser Überschrift

    Überblick der benötigten ServicesPermanenter Link zu dieser Überschrift

    Um die Textklassifizierung nutzen zu können, sind gewisse Konfigurationsschritte notwendig. Konfigurieren Sie dazu folgende Services:

    • Prediction Service
    • Text Classification Insight Service

    Zusätzlich müssen Sie noch Konfigurationsanpassungen im Client Service und in den Index Services vornehmen.

    Details dazu finden Sie in den nächsten Abschnitten.

    Konfiguration des Prediction ServicesPermanenter Link zu dieser Überschrift

    Navigieren Sie im Mindbreeze Management Center zum „Configuration“ Menü und wechseln Sie zum „Indices“ Tab. Fügen Sie anschließend ein neues Service hinzu.

    Vergeben Sie einen „Display Name“ und wählen Sie bei „Service“ das „PredictionService“ aus.

    Für die zusätzliche minimale Konfiguration, füllen Sie in den folgenden Konfigurationsabschnitten folgende Felder aus:

    Base Path

    Dieser Parameter gibt den Pfad an, der vom Prediction Service verwendet werden soll, um die Trainings/Testdaten zu erhalten und wo die Modelle, die das Service erlernt, abgelegt werden sollen. Der Basepath ist frei wählbar.

    Bind Port

    Gibt den TCP-Port an, unter dem das Prediction Service erreichbar sein wird. Wichtig hierbei ist, dass der Port nicht bereits von einem anderen Service (z.B. Principal Resolution, Index oder Client Service) in Gebrauch ist.

    Falls Sie speziellere Anwendungsfälle haben, finden Sie weitere Informationen im Abschnitt Detaillierte Konfiguration des Prediction Service.

    Konfiguration des Text Classification Insight ServicesPermanenter Link zu dieser Überschrift

    Fügen Sie nun den „Text Classification Insight Service” hinzu. Vergeben Sie dazu wieder einen „Display Namen“ und wählen Sie bei „Service“ das „TextClassificationInsightService“ aus.

    Für eine minimale Konfiguration, füllen Sie in den folgenden Konfigurationsabschnitten folgende Felder aus:

    • Prediction Service
      • URL: die URL des Prediction Service. Z.B. http://localhost:23910, wenn Sie 23910 als „Bind Port“ im Prediction Service ausgewählt haben
      • Project ID: der Name des Klassifizierungsprojekts
      • Tenant ID: z.B. der Firmenname oder die Organisationseinheit
    • Dataset Index Ports: Die Ports der Indices, in denen die zu klassifizierenden Dokumente liegen
    • Persisted Resources Feedback Processing
      • JDBC URL, Database Credentials, Database Table Prefix: konfigurieren Sie hier die gleichen Werte wie bei „Resource Persistence Settings“ im Client Service

    Falls Sie speziellere Anwendungsfälle haben, finden Sie weitere Informationen im Abschnitt Detaillierte Konfiguration des Text Classification Insight Service.

    Weitere benötigte KonfigurationsänderungenPermanenter Link zu dieser Überschrift

    Zusätzlich zum Prediction Service und zum Text Classification Insight Service benötigen Sie noch Änderungen in der Konfiguration des Client Service und der Index Services.

    Client ServicePermanenter Link zu dieser Überschrift

    Damit Benutzer in der Standard Insight App Dokumente Labeln können, müssen Sie noch Konfigurationsänderungen im Client Service vornehmen.

    Aktivieren Sie die Advanced Settings und konfigurieren Sie die Resource Persistence Settings. Aktivieren Sie anschließend das Document Labeling, indem Sie folgende Option aktivieren:

    Enable Document Labeling

    Aktiviert das Labeling in der Insight App. Aktivieren Sie diese Option (Standardwert: deaktiviert)

    Die anderen Optionen im „Document Labeling“ Konfigurationabschnitt müssen Sie nur ändern, wenn Sie bestimmte Standardwerte im Text Classification Insight Service geändert haben:

    Label Property

    Der gleiche Wert wie bei „Label Property Name“ im Text Classification Insight Service

    Labeling Feedback Collection

    Der gleiche Wert wie bei „Feedback Collection“ im Text Classification Insight Service

    Available Labels Collection

    Der gleiche Wert wie bei „Label Collection“ im Text Classification Insight Service

    Index Service(s)Permanenter Link zu dieser Überschrift

    Die Dokumente werden klassifiziert, wenn Sie die Semantic Pipeline durchlaufen – genauer gesagt im „Item Transformation“ Schritt.

    Fügen Sie den vorher erstellen „Text Classification Insight Service“ am Index bei den „Item Transformation Services“ hinzu. Falls Sie mehrere Indices verwenden, wiederholen Sie bitte diesen Schritt auf allen Index Services.

    Definition der Labels und manuelles LabelingPermanenter Link zu dieser Überschrift

    Wenn die Konfiguration abgeschlossen wurde, können Sie Labels definieren. Diese Label können Benutzer verwenden um Dokumente in der Insight App zu kennzeichnen.

    Definition der LabelsPermanenter Link zu dieser Überschrift

    Navigieren Sie im Mindbreeze Management Center zum Menü „Insight Services“ „Text Classification“. Klicken Sie anschließend auf „Edit“ bei „Label Definitions“.

    Definieren Sie nun Ihre Labels, nach denen Sie Ihre Dokumente klassifizieren wollen.

    Definieren Sie Übersetzungen für die Sprachen, die Sie in Ihrer Insight App unterstützen wollen. Wenn es für Sprachen keine Übersetzung gibt, wird die ID zur Anzeige in der Insight App verwendet. Mit dem „Save“ Button können Sie ihre Eingaben bestätigen.

    Weitere Details:

    • Wenn „Ignored“ angehakt wird, werden Dokumente mit diesem Label beim Training des Modells ignoriert.
    • Mit dem Papierkorbsymbol können Sie Labels löschen.
    • Bitte beachten Sie, dass Sie die ID von Labels nicht ändern, wenn diese bereits gewissen Dokumenten zugewiesen sind. (Die zugewiesenen Label-IDs am Dokument bleiben unverändert, was zu negativen Effekten führt)

    Manuelles LabelingPermanenter Link zu dieser Überschrift

    Nun haben die Benutzer die Möglichkeit, Dokumente mit den gerade definierten Labels zu kennzeichnen. Nachdem in der Insight App gesucht wurde, können die gefundenen Dokumente gelabelt werden, indem das gewünschte Label im Dropdown-Menü ausgewählt wird.

    Angemeldete Benutzer können Labels lesen und zuweisen. Anonyme Benutzer, die in der Insight App nicht angemeldet sind, können (automatische zugewiesene) Labels lesen. (Manuell zugewiesene Labels sind für anonyme Benutzer nicht sichtbar)

    Wenn mehrere Benutzer Labels für dasselbe Dokument zuweisen, werden alle Zuweisungen gespeichert, aber effektiv wird nur das Label der letzten Zuweisung verwendet.

    Benutzer haben außerdem die Möglichkeit, ihr eigenes Feedback wieder zu entfernen (Papierkorbsymbol). Falls das Dokument vorher schon von einem anderen Benutzer gelabelt wurde, ist nun das vorherige Label effektiv.

    Erstellen / Aktualisieren des TrainingsdatensatzPermanenter Link zu dieser Überschrift

    Wenn nun die benötigten Dokumente mit Labels gekennzeichnet wurden, können Sie den Trainingsdatensatz erstellen, der später zum Erstellen des Modells als Datengrundlage verwendet wird. Navigieren Sie dazu im Mindbreeze Management Center zum Menü „Insight Services“ „Text Classification“. Klicken Sie anschließend auf „Edit“ bei „Labeled Data“.

    Sie können nun kontrollieren, ob die Benutzer die Dokumente manuell richtig gelabelt haben. Falls Labels falsch zugewiesen wurden, können diese Zuweisungen hier geändert werden oder sogar ignoriert werden. Klicken Sie anschließend auf „Create or Update Dataset“, um Ihre Änderungen zu speichern und den Trainingsdatensatz zu erstellen.

    Modelle zur Textklassifizierung vorbereitenPermanenter Link zu dieser Überschrift

    In den nächsten Schritten kann nun aus dem Trainingsdatensatz ein Modell erstellt und getestet werden.

    Modell trainierenPermanenter Link zu dieser Überschrift

    Navigieren Sie im Mindbreeze Management Center zum Menü „Insight Services“ „Text Classification“. Klicken Sie anschließend auf „Train“ bei „Models“.

    Klicken Sie nun auf „Train Model“, um ein Modell zu trainieren. Die Standardparameter sind für die meisten Use-Cases ausreichend. Sie können jedoch auch ein Fine-Tuning vornehmen, wenn Ihr Use-Case dies verlangt. Folgende Parameter können angepasst werden:

    Label Property

    Muss nur geändert werden, wenn in der Konfiguration des Text Classification Insight Service die Option „Dataset Label Property Name“ geändert wurde. Der hier angegebene Wert muss mit dem in der Konfiguration übereinstimmen.

    Training Query

    Eine Such-Query, um Dokumente im Trainingsdatensatz zu filtern, mit denen das Modell dann trainiert wird. Wenn leer, werden alle Dokumente, die einen Content haben, zum Trainieren verwendet.

    Train/Test Split

    Die Aufteilung des Datensets in Trainings- und Testdaten. Z.B.: „0.8“ bedeutet, dass 80% der Daten zum Trainieren verwendet werden, 20% zum Testen.

    Token Pattern

    Siehe Mindbreeze Prediction Service – Trainieren und validieren eines Modells „token_pattern“.

    Wenn “Custom Regex” ausgewählt ist, erscheint das Feld “Custom Pattern”, indem eine eigene Regex angegeben werden kann

    Word Ngram Length

    If a value greater than 1 is set, for example 3, adjacent words are collected and stored during the inversion of the index:

    Single words with value > = 1

    Additional adjacent pairs of words with a value > = 2

    Additional adjacent word triplets with a value of >= 3

    Siehe Configuration - Alternative Search Suggestions and Automatic Search Expansion - Multi-word capacity of the term lexicon.

    Modell testen und verwendenPermanenter Link zu dieser Überschrift

    Im nächsten Schritt können Sie nun das Modell testen, um Auskunft über die Qualität des soeben trainierten Modells zu erhalten. Scrollen Sie zu „Test Model“. Das gerade vorher trainierte Modell sollte bereits ausgewählt sein. Wenn Sie nun auf „Test Model“ klicken, wird das Modell mit den Testdaten getestet und Sie erhalten Kennzahlen, die Ihnen Auskunft über die Qualität des Modells geben, wie z.B. „Accuracy“.

    Klicken Sie anschließend auf „Set Default“, damit dieses Modell zur Klassifizierung verwendet wird.

    Automatisiertes Dokument-LabelingPermanenter Link zu dieser Überschrift

    Wie bereits erwähnt, werden die Dokumente automatisch klassifiziert, wenn Sie die Semantic Pipeline durchlaufen wird – genauer gesagt im Item Transformation Schritt. Wenn nicht explizit in der Servicekonfiguration anders konfiguriert, wird zur Klassifizierung das Default Model verwendet, welches Sie im vorherigen Schritt mit „Set Default“ gesetzt haben.

    Da die Semantic Pipeline nur bei neuen oder geänderten Dokumenten vollständig durchlaufen wird, werden nur neuen oder geänderten Dokumente klassifiziert. Damit jedoch auch bereits indizierte Dokumente klassifiziert werden, haben Sie zwei Möglichkeiten, die in den nächsten Abschnitten genauer beschrieben sind:

    1. Reindex: empfohlen für kleine Indizes, bei denen eine vollständige Indizierung sehr schnell geht (z.B. auf Testsystemen)
    2. Reinvert: empfohlen für große Indizes, bei denen einen vollständige Indizierung lange dauert

    ReindexPermanenter Link zu dieser Überschrift

    Wenn der Index klein ist und eine vollständige Indizierung sehr schnell durchgeführt werden kann, wird eine Re-Indizierung empfehlen, um eine Klassifizierung aller Dokumente anzustoßen. Navigieren Sie dazu im Mindbreeze Management Center zu „Services“. Klicken Sie dann bei dem Index, den Sie re-indizieren wollen auf das Zahnradsymbol und anschließend auf „Reindex“. Sobald die Re-Indizierung erfolgreich abgeschlossen ist, sind Ihre Dokumente klassifiziert.

    ReinvertPermanenter Link zu dieser Überschrift

    Wenn der Index groß ist und eine vollständige Indizierung lange dauert, wird eine Re-Invertierung empfohlen, um eine Klassifizierung aller Dokumente anzustoßen. Navigieren Sie dazu im Management Center zu „Configuration“ und wechseln Sie auf den „Indices“ Tab. Aktivieren Sie die „Advanced Settings“ und ändern Sie die „Aggregated Metadata Keys“. Eine Änderung dieser Option führt automatisch zu einer Re-Invertierung des Indizes. Sie können beispielsweise „label“ angeben, was dazu führt, dass in der Insight App nach dem Label gefiltert werden kann. Sie können jedoch auch einen nicht existierenden Metadatum Key angeben, z.B. „V1“. Speichern Sie die Konfiguration anschließend.

    Sobald die Re-Invertierung erfolgreich abgeschlossen ist, sind Ihre Dokumente klassifiziert.

    AppendixPermanenter Link zu dieser Überschrift

    Iterative Verbesserung des ModellsPermanenter Link zu dieser Überschrift

    Sobald Ihre Dokumente klassifiziert sind, können Benutzer in der Insight App auch weithin Feedback geben und das Labeling der Dokumente ändern, falls z.B. die automatische Klassifizierung ungenau und in manchen Fällen nicht korrekt war (siehe auch Manuelles Labeling).

    Dieses Feedback kann dann verwendet werden, um den Trainingsdatensatz zu aktualisieren (siehe Erstellen / Aktualisieren des Trainingsdatensatz).

    Anschließend kann ein neues Modell trainiert (siehe Modell trainieren), getestet und verwendet werden (siehe Modell testen und verwenden).

    Wenn sich nun ein Dokument ändert oder ein neues Dokument indiziert wird, wird für die Klassifizierung bereits das neue, soeben trainierte Modell verwendet. Falls Sie alle Dokumente, inklusive auch der bereits indizierten Dokumente, mit dem neuen, verbesserten Modell klassifizieren wollen, müssen Sie einen Reindex oder Reinvert anstoßen.

    Diese Schritte zur iterativen Verbesserung des Modells können Sie beliebig oft durchführen, bis Sie mit der Qualität Ihres Klassifizierungsmodells zufrieden sind.

    Detaillierte Konfiguration des Text Classification Insight Service (erweiterte Anwendungsfälle)Permanenter Link zu dieser Überschrift

    In diesem Abschnitt werden alle Optionen beschrieben, die im Text Classification Insight Service verfügbar sind. Dieser Abschnitt ist für Sie nur dann relevant, wenn Sie spezielle Anwendungsfälle haben, die eine spezielle Konfiguration erfordern.

    Base ConfigurationPermanenter Link zu dieser Überschrift

    Bind port

    Der TCP Port des Service

    Max Request Handling Threads

    Anzahl der Threads, die maximal zum Verarbeiten der HTTP-Serveranfragen verwendet werden

    Max Feedback Processing Threads (advanced)

    Anzahl der Threads, die zum Prozessieren der Benutzer-Feedbacks („Labeled Data“) verwendet werden

    Prediction ServicePermanenter Link zu dieser Überschrift

    URL

    Die URL des Prediction Service. Z.B. http://localhost:23910, wenn Sie 23910 als „Bind Port“ im Prediction Service ausgewählt haben

    Project ID

    Die Projekt ID, die zur Strukturierung von Datensätzen im Prediction Service verwendet wird. Abgelegt in: <PredictionService-Data-Directory>/tenants/<TenantID>/projects/<ProjectID>

    Tenant ID

    Die Tenant ID, die zur Strukturierung von Datensätzen im Prediction Service verwendet wird. Abgelegt in: <PredictionService-Data-Directory>/tenants/<TenantID>/projects/<ProjectID>

    Label Property Name

    Der Name des Metadatums, welches für die Label-Eigenschaft am Dokument verwendet wird.

    Dataset Label Property Name

    Der Name der Property im Dataset

    Default Label Value

    Dokumente, die aus gewissen Gründen von der Klassifizierung ausgeschlossen werden (z.B. weil die „Minimum Content Length“ unterschritten wurde), bekommen einen Standardwert als Label zugewiesen. Dieser Standardwert kann hier definiert werden.

    Model ID (optional)

    Wenn leer, wird das „Default Model“ verwendet (kann im Management Center unter „Text Classification“ „Models“ gesetzt werden). Hier kann jedoch auch explizit eine Model ID angegeben werden, welches dann für die Klassifizierung verwendet wird.

    Additional Labeling Models (optional)

    Hier können weitere Modelle angegeben werden, die bei der Klassifizierung verwendet werden.

    Model ID

    Wie oben, ist jedoch hier ein Pflichtfeld

    Label Property Name

    Siehe oben

    Dataset Label Property Name

    Siehe oben

    Default Label Value

    Siehe oben

    Weitere Details zum Prediction Service finden Sie in der Dokumentation Mindbreeze Prediction Service mit Beispiel Textklassifizierung.

    Text Classification SourcesPermanenter Link zu dieser Überschrift

    Content Length Limit (Characters)

    Die Maximale Anzahl an Zeichen des Dokumentinhalts, die zur Klassifizierung herangezogen werden. Überschreitet die Anzahl der Zeichen diesen konfigurierten Wert, werden die darüberhinausgehenden Zeichen aus Performance-Gründen während der Klassifizierung nicht herangezogen. Der Wert „0“ oder ein leerer Wert deaktiviert die Zeichenlimitierung.

    Minimum Content Length (Characters) (optional)

    Die minimale Anzahl an Zeichen des Dokumentinhalts, die benötigt wird, damit das Dokument klassifiziert wird. Dokumente, die diese Anforderung nicht erfüllen, werden mit dem konfigurierten „Default Label Value“ klassifiziert. Der Wert „0“ oder ein leerer Wert deaktiviert diesen Filter.

    Source Metadata Keys (optional)

    Standardmäßig wird nur anhand des Dokumentinhalts (Content) klassifiziert. Hier können zusätzliche Metadaten angegeben werden, welche bei der Klassifizierung miteinbezogen werden.

    Add annotations

    Sollte immer aktiviert sein

    Trainings Link Extraction (optional)

    Links in Dokumenten (HTML Anchor-Tags) werden beim Training und bei der Klassifizierung standardmäßig nicht miteinbezogen. Um gewisse Links, die fürs Labeling aussagekräftig sind, trotzdem miteinzubeziehen, können hier Regeln definiert werden.

    Name

    Ein beliebiger, eindeutiger Name, der die Art der Links beschreibt.

    Regex

    Ein Regex-Pattern zum Selektieren von gewissen Links.

    Unique

    Wenn aktiv, wird diese Regel pro Dokument nur einmal angewendet.

    Rule Based Labels (optional)Permanenter Link zu dieser Überschrift

    Hier können Regeln definiert werden, um gewisse Dokumente zu labeln, ohne dass das Prediction Service aufgerufen wird. Sie können damit z.B. alle Dokumente als „Documentation“ klassifizieren, die im Titel „Doku“ oder „Dokumentation“ enthalten.

    Es wird immer die erste Regel angewendet, die auf ein Dokument matcht. Wenn keine Regel matcht, dann wird das Prediction Service verwendet um das Label zu setzen.

    Property Name

    Zum Selektieren der Dokumente, auf denen die Regel angewendet wird. Es werden jene Dokumente selektiert, bei denen das „Value Pattern“ auf den Wert des Metadatums mit dem Key „Property Name“ matchen.

    Value Pattern (Regex)

    Siehe oben. Value Pattern ist eine Java Regex, wobei Groß- und Kleinschreibung beachtet wird (wird nicht beachtet, wenn das Pattern mit (?i) beginnt)

    Action

    Welche Aktion durgeführt werden soll:

    • „Predict Label“: Prediction Service wird zum Labeling verwendet (Default, auch wenn keine Rule matcht)
    • „Set Label“: Setzt das Label auf den in „Label Value“ konfigurierten Wert

    Label Value

    Nur relevant, wenn „Action“ auf „Set Label“ gesetzt ist (siehe oben)

    Dataset Index PortsPermanenter Link zu dieser Überschrift

    Dataset Index Port

    Die Ports der Indices, in denen die zu klassifizierenden Dokumente liegen

    Persisted Resources Feedback ProcessingPermanenter Link zu dieser Überschrift

    Konfigurieren Sie für die folgenden Optionen die gleichen Werte wie bei „Resource Persistence Settings“ im Client Service: „JDBC URL“, „Database Credentials“, „Database Table Prefix“

    Siehe dazu auch Resource Persistence Settings.

    JDBC URL

    siehe Client Service

    Database Credentials

    siehe Client Service

    Database Table Prefix

    siehe Client Service

    Owner Encryption Credential

    Wenn Sie „Identity Encryption“ im Client Service verwenden, müssen Sie hier ein Credential auswählen. Bitte wählen Sie in diesem Fall das gleiche Credential wie in der Client Service Option „Identity Encryption Credential“ aus.

    Feedback Collection

    Der Name der Collection in den „itemdata“ Persisted Resources, in der das Label-Feedback der Benutzer gespeichert wird.

    Label Collection

    Der Name der Collection in den „labeldefinition“ Persisted Resources, in der die Label-Definitionen gespeichert werden.

    CSV Feedback Processing (optional)Permanenter Link zu dieser Überschrift

    Zusätzlich zum User Feedback (über die Insight App) kann eine CSV Datei verwendet werden, um Labels für Dokumente zu setzen. Diese Labels werden in der Insight App nicht angezeigt, können aber zum Trainieren des Klassifizierungsmodell verwendet werden.

    Beispiel:

    Fqcategory;Key;LabelValue;IgnoreFeedback

    Web:helpmindbreeze;http://help.mindbreeze.com/de/index.php?topic=doc/Konfiguration---Microsoft-File-Connector/index.htm;performancetest;false

    Web:helpmindbreeze;http://help.mindbreeze.com/de/index.php?topic=doc/Installation--Konfiguration---Caching-Principal-Resolution-Service/index.htm;performancetest;false

    Enable CSV Processing

    Zum Aktivieren des CSV Feedback Processings

    CSV File Path

    Der Pfad zur CSV-Datei (Schreibrechte notwendig)

    Detaillierte Konfiguration des Prediction Service (erweiterte Anwendungsfälle)Permanenter Link zu dieser Überschrift

    In diesem Abschnitt werden alle weiteren speziellen Optionen beschrieben, die im Prediction Service neben den Pflichtfeldern verfügbar sind. Dieser Abschnitt ist für Sie nur dann relevant, wenn Sie spezielle Anwendungsfälle haben, die eine spezielle Konfiguration erfordern. In diesem Abschnitt sind außerdem diejenigen Optionen, die nicht durch „(Pflichtfeld)“ oder „(Advanced)“ markiert sind, automatisch als Advanced zu betrachten.

    Prediction Service ParameterPermanenter Link zu dieser Überschrift

    Base Path (Pflichtfeld)

    Dieser Parameter gibt den Pfad an, der vom Prediction Service verwendet werden soll um die Trainings/Testdaten zu erhalten und den Pfad wo die Modelle die das Service erlernt abgelegt werden sollen. Der Basepath ist frei wählbar.

    Bind Port (Pflichtfeld)

    Gibt den TCP-Port an, unter dem das Prediction Service erreichbar sein wird. Wichtig hierbei ist dass der Port nicht bereits von einem anderen Service (Cache, Index, Client,… -Service) in Gebrauch ist.

    Dump Request/Responses (Advanced)

    Hier kann angegeben werden unter welchen Umständen ein Dump Requests/Responses des Prediction Service in den Dump Path geschrieben werden sollen. Dabei kann man die folgenden Optionen auswählen:
    „Never“ – Nie

    „Always“ – immer

    „On Error“ – im Fehlerfall

    Dump Path (Advanced)

    Hier kann man den Pfad definieren, indem die Dumps geschrieben werden. Hierbei ist lediglich zu beachten, dass diese Daten in der „/data/“ Partition liegen. Die Unterordner sind dabei selbstdefinierbar.

    Dataset SettingsPermanenter Link zu dieser Überschrift

    Dataset Source Query

    Damit kann das Trainingsset mit einer Query eingeschränkt werden (z.B. nur PDFs). Wird das Text Classification Insight Service eingesetzt, sollte diese Einstellung leer gelassen werden.

    Dataset Source Property

    Aktuell kann nur “UNIFORM_ITEM_ID” ausgewählt werden.

    Train Dataset Source Ratio

    Legt fest wieviel % aller Dokumente für das Training verwendet werden. Wird das Text Classification Insight Service eingesetzt, sollte diese Einstellung leer gelassen werden.

    Label Alias CSV (optional)

    Mit dieser Erweiterung kann man die Label Values übersetzen, falls im Datenset ein anderer Wert enthalten ist als für die Klassifizierung benötigt.

    Tenant ID

    Der Firmenname oder die Organisationseinheit.

    Project ID

    Der Name des Klassifizierungsprojekts.

    CSV Path

    Hier kann man den Pfad der CSV-File angeben um das „SourceLabel“ auf das gewünschte „DestinationLabel“ umzuschreiben.

    PDF herunterladen

    • Handbuch - Text Classification Insight Services

    Inhalt

    • Motivation und Überblick
    • Vorbereitung
    • Definition der Labels und manuelles Labeling
    • Modelle zur Textklassifizierung vorbereiten
    • Automatisiertes Dokument-Labeling
    • Appendix

    PDF herunterladen

    • Handbuch - Text Classification Insight Services