Home
Home
Englische Version
Support
Impressum
25.2 Release ►

Start Chat with Collection

    Main Navigation

    • Vorbereitung
      • Einrichten InSpire G7 Primärsystem und Standby Appliances
      • Erstellen einer InSpire-VM auf Hyper-V
      • Initiale Inbetriebnahme für G7 Appliances
      • Konnektoren
    • Datenquellen
      • Anleitung zur Datenintegration mithilfe eines SQL Datenbank-Beispiels
      • Handbuch - Mindbreeze InSpire Insight Apps in Salesforce
      • Indizierung benutzerspezifischer Eigenschaften (SharePoint 2013 Connector)
      • Indizierung benutzerspezifischer Objekttypen (Documentum)
      • Installation & Konfiguration - Atlassian Confluence Sitemap Generator Add-On
      • Installation & Konfiguration - Caching Principal Resolution Service
      • Installation & Konfiguration - Mindbreeze InSpire Insight Apps in Microsoft SharePoint On-Prem
      • Konfiguration - Atlassian Confluence Connector
      • Konfiguration - Best Bets Connector
      • Konfiguration - Box Connector
      • Konfiguration - COYO Connector
      • Konfiguration - Data Integration Connector
      • Konfiguration - Documentum Connector
      • Konfiguration - Dropbox Connector
      • Konfiguration - Egnyte Connector
      • Konfiguration - GitHub Connector
      • Konfiguration - Google Drive Connector
      • Konfiguration - GSA Adapter Service
      • Konfiguration - HL7 Connector
      • Konfiguration - IBM Connections Connector
      • Konfiguration - IBM Lotus Connector
      • Konfiguration - Jira Connector
      • Konfiguration - JVM Launcher Service
      • Konfiguration - LDAP Connector
      • Konfiguration - Microsoft Azure Principal Resolution Service
      • Konfiguration - Microsoft Dynamics CRM Connector
      • Konfiguration - Microsoft Exchange Connector
      • Konfiguration - Microsoft File Connector (Legacy)
      • Konfiguration - Microsoft File Connector
      • Konfiguration - Microsoft Graph Connector
      • Konfiguration - Microsoft Loop Connector
      • Konfiguration - Microsoft Project Connector
      • Konfiguration - Microsoft SharePoint Connector
      • Konfiguration - Microsoft SharePoint Online Connector
      • Konfiguration - Microsoft Stream Connector
      • Konfiguration - Microsoft Teams Connector
      • Konfiguration - Salesforce Connector
      • Konfiguration - SCIM Principal Resolution Service
      • Konfiguration - SemanticWeb Connector
      • Konfiguration - ServiceNow Connector
      • Konfiguration - Web Connector
      • Konfiguration - Yammer Connector
      • Mindbreeze InSpire Insight Apps in Microsoft SharePoint Online
      • Mindbreeze Web Parts in Microsoft SharePoint
      • Whitepaper - Web Connector Erweiterte JavaScript Anwendungsfälle
    • Konfiguration
      • CAS Authentifizierung
      • Cookie Authentifizierung
      • Handbuch - AI Chat
      • Handbuch - Erstellung einer AWS 10M InSpire Applikation
      • Handbuch - Erstellung einer AWS 1M InSpire Applikation
      • Handbuch - Erstellung einer AWS 2M InSpire Applikation
      • Handbuch - Erstellung einer Google Compute Cloud Virtual Machine InSpire Applikation
      • Handbuch - Erstellung einer Oracle Cloud 10M InSpire Applikation
      • Handbuch - Erstellung einer Oracle Cloud 1M InSpire Applikation
      • Handbuch - MMC_ Services
      • Handbuch - Natural Language Question Answering (NLQA)
      • Handbuch - SSO mit Microsoft AAD oder AD FS
      • Handbuch - Text Classification Insight Services
      • I18n Item Transformation
      • JWT Authentifizierung
      • Konfiguration - Alternative Suchvorschläge und automatische Sucherweiterung
      • Konfiguration - Backend Credentials
      • Konfiguration - Benachrichtigungen
      • Konfiguration - CJK Tokenizer Plugin
      • Konfiguration - CSV Metadata Mapping Item Transformation Service
      • Konfiguration - Entity Recognition
      • Konfiguration - Export Funktionalität
      • Konfiguration - External Query Service
      • Konfiguration - Filter Plugins
      • Konfiguration - Gesammelte Ergebnisse
      • Konfiguration - GSA Late Binding Authorization
      • Konfiguration - Identity Conversion Service - Replacement Conversion
      • Konfiguration - InceptionImageFilter
      • Konfiguration - Index-Servlets
      • Konfiguration - InSpire AI Chat und Insight Services für Retrieval Augmented Generation
      • Konfiguration - Item Property Generator
      • Konfiguration - Kerberos Authentfizierung
      • Konfiguration - Management Center Menü
      • Konfiguration - Metadata Reference Builder Plugin
      • Konfiguration - Metadaten Anreicherung
      • Konfiguration - Mindbreeze InSpire
      • Konfiguration - Mindbreeze Proxy Umgebung (Remote Connector)
      • Konfiguration - Outlook Add-In
      • Konfiguration - Personalisierte Relevanz
      • Konfiguration - Plugin Installation
      • Konfiguration - Principal Validation Plugin
      • Konfiguration - Profile
      • Konfiguration - Reporting Query Log
      • Konfiguration - Reporting Query Performance Tests
      • Konfiguration - Request Header Session Authentisierung
      • Konfiguration - Verteilte Konfiguration (Windows)
      • Konfiguration - Vokabulare für Synonyme und Autovervollständigung
      • Konfiguration von Vorschaubildern
      • Mindbreeze Personalization
      • Mindbreeze Property Expression Language
      • Mindbreeze Query Expression Transformation
      • SAML Authentifizierung
      • Spracherkennung mit dem LanguageDetector Plugin
      • Trusted Peer Authentication für Mindbreeze InSpire
      • Verwendung von InSpire-Snapshots in einer CI_CD-Umgebung
    • Betrieb
      • Anpassung der InSpire Host OpenSSH Einstellungen - LoginGraceTime auf 0 setzen (Mitigation für CVE-2024-6387)
      • app.telemetry Statistiken zu Suchanfragen
      • Bereitstellen von app.telemetry Informationen mittels SNMPv3 auf G7 Appliances
      • CIS Level 2 Hardening - SELinux in den Modus Enforcing versetzen
      • Handbuch - Administration von Insight Services für Retrieval Augmented Generation
      • Handbuch - Filemanager
      • Handbuch - Indizierungs- und Suchlogs
      • Handbuch - Kommandozeilenwerkzeuge
      • Handbuch - Sichern & Wiederherstellen
      • Handbuch - Updates und Downgrades
      • Handbuch - Verteilter Betrieb (G7)
      • Index Betriebskonzepte
      • Inspire Diagnose und Ressourcen Monitoring
      • Konfiguration - app.telemetry Dashboards für Nutzungsanalyse
      • Konfiguration - Nutzungsanalyse
      • Löschung der Festplatten
      • Wiederherstellen des Lieferzustandes
    • Anwenderhandbuch
      • Browser Extension
      • Cheat Sheet
      • iOS App
      • Tastaturbedienung
    • SDK
      • api.chat.v1beta.generate Schnittstellenbeschreibung
      • api.v2.alertstrigger Schnittstellenbeschreibung
      • api.v2.export Schnittstellenbeschreibung
      • api.v2.personalization Schnittstellenbeschreibung
      • api.v2.search Schnittstellenbeschreibung
      • api.v2.suggest Schnittstellenbeschreibung
      • api.v3.admin.SnapshotService Schnittstellenbeschreibung
      • Debugging (Eclipse)
      • Einbetten des Insight App Designers
      • Entwicklung eines API V2 Search Request Response Transformer
      • Entwicklung eines Query Expression Transformer
      • Entwicklung von Insight Apps
      • Entwicklung von Item Transformation und Post Filter Plugins mit der Mindbreeze SDK
      • Java API Schnittstellenbeschreibung
      • OpenAPI Schnittstellenbeschreibung
      • SDK Übersicht
    • Release Notes
      • Release Notes 20.1 Release - Mindbreeze InSpire
      • Release Notes 20.2 Release - Mindbreeze InSpire
      • Release Notes 20.3 Release - Mindbreeze InSpire
      • Release Notes 20.4 Release - Mindbreeze InSpire
      • Release Notes 20.5 Release - Mindbreeze InSpire
      • Release Notes 21.1 Release - Mindbreeze InSpire
      • Release Notes 21.2 Release - Mindbreeze InSpire
      • Release Notes 21.3 Release - Mindbreeze InSpire
      • Release Notes 22.1 Release - Mindbreeze InSpire
      • Release Notes 22.2 Release - Mindbreeze InSpire
      • Release Notes 22.3 Release - Mindbreeze InSpire
      • Release Notes 23.1 Release - Mindbreeze InSpire
      • Release Notes 23.2 Release - Mindbreeze InSpire
      • Release Notes 23.3 Release - Mindbreeze InSpire
      • Release Notes 23.4 Release - Mindbreeze InSpire
      • Release Notes 23.5 Release - Mindbreeze InSpire
      • Release Notes 23.6 Release - Mindbreeze InSpire
      • Release Notes 23.7 Release - Mindbreeze InSpire
      • Release Notes 24.1 Release - Mindbreeze InSpire
      • Release Notes 24.2 Release - Mindbreeze InSpire
      • Release Notes 24.3 Release - Mindbreeze InSpire
      • Release Notes 24.4 Release - Mindbreeze InSpire
      • Release Notes 24.5 Release - Mindbreeze InSpire
      • Release Notes 24.6 Release - Mindbreeze InSpire
      • Release Notes 24.7 Release - Mindbreeze InSpire
      • Release Notes 24.8 Release - Mindbreeze InSpire
      • Release Notes 25.1 Release - Mindbreeze InSpire
      • Release Notes 25.2 Release - Mindbreeze InSpire
    • Sicherheit
      • Bekannte Schwachstellen
    • Produktinformation
      • Produktinformation - Mindbreeze InSpire - Standby
      • Produktinformation - Mindbreeze InSpire
    Home

    Path

    Sure, you can handle it. But should you?
    Let our experts manage the tech maintenance while you focus on your business.
    See Consulting Packages

    Metadaten-Anreicherung
    Konfiguration

    AllgemeinPermanenter Link zu dieser Überschrift

    Damit die Anreicherungsverfahren angewendet werden, müssen die neuen Metadaten zuerst am Index zu den Aggregated Metadata Keys hinzugefügt werden.

    Zum Beispiel:

    Entity RecognitionPermanenter Link zu dieser Überschrift

    EinführungPermanenter Link zu dieser Überschrift

    Dieses Kapitel beschäftigt sich mit dem Konzept, dem Setup und den Troubleshooting-Methoden für die Konfiguration von Entity Recognition.

    Konfiguration - Entity RecognitionPermanenter Link zu dieser Überschrift

    In diesem Kapitel wird das Konzept von Entity Recognition anhand eines einfachen Beispiels erklärt. Führen Sie zum Einrichten folgende Schritte durch:

    • Verbinden Sie sich zum Management Center
    • Navigieren Sie zu dem Configuration Menü und dann zum Index Tab.
    • Aktivieren Sie die Advanced Settings und öffnen Sie die Indexeinstellungen des Index, den Sie mit Entity Recognition konfigurieren möchten.
    • Suchen Sie nach den „Entity Recognition Parameter“-Einstellungen.
    • Definieren Sie ihre Entity Recognition Regeln im Feld „Pattern-Rules“, die Ihrem Metadatum matchen sollen.
    • Folgende Regelformate werden unterstützt: https://github.com/google/re2/wiki/Syntax
    • In unserem konkreten Beispiel:
      rule=/\// digits /\//. 
      digits=/\d+/.

    Erklärung:

    Die erste Regel definiert, dass alle Zahlen zwischen zwei Slashes matchen sollen (Regex).:
    Beispiel: test/1234test1234/test/543/test (543 wird extrahiert)

    Fügen Sie nun eine neue „Metadata Definition“ hinzu, um die Regeln für Metadaten anzuwenden.

    Beispiel:

    In diesem Beispiel sucht Mindbreeze im String des existierenden Metadatums "fullstring“ nach Zahlen zwischen 2 Slashes. Sind Zahlen zwischen 2 Slashes vorhanden, dann nimmt Mindbreeze den Teil der Matches, der in der Subregel „digits" konfiguriert ist und schreibt diesen als String in das neue Metadatum „myextractedVal“.

    Beispiel: 

    fullstring: xyz/1234/herbert543/345test
    Match der Regel “rule”: /1234/
    Wert der Regel “digits”: 1234
    Wert des Metadatums myextractedVal==1234

    Hinweise zur Konfiguration im Management CenterPermanenter Link zu dieser Überschrift

    Bei der Konfiguration als Metadatum in Mindbreeze InSpire müssen folgende Felder befüllt werden:

    • „If Rule Matches“: Name der Regel
    • „Name“: Name des Metadatums
    • „Value“: Wert der Regel. Beispiel: „{{Monat}}“ – kann auch normaler Text sein oder zusammengesetzt sein Bsp.: „Datum {{Tag}}.{{Monat}}.{{Jahr}}“.
    • „Format“: Format der Regel. „String“, „Date“, „Number“
    • „Format Options“: Formatierungs-Optionen – vor allem bei Datum wie bei Simpledateformat
    • „In Existing Metadata“: Bereich, wo die Regel angewendet wird z.B.: content, title, datasource/mes:key, <eigenes Metadatum>, …)
    • „Scope“: Mit der Einstellung Scope ist es möglich, einen Bereich/mehrere Bereiche mit einer Entity Recognition Regel zu selektieren, in denen die Regeln für die Extraktion angewendet werden sollen. Dazu wird der Name der Regel für die Selektierung des Bereiches/der Bereiche in das Feld „Scope“ eingetragen. Im Gegensatz zur Werteextraktion müssen Sie hier den Namen ohne {{}} eingeben.

    Entity Recognition (Beispiel: Filesystem)Permanenter Link zu dieser Überschrift

    Dieses Kapitel beschäftigt sich mit der Einrichtung und Erklärung von Entity Recognition mit Mindbreeze unter Anlehnung an ein einfaches Beispiel.

    Konfiguration von Entity Recognition für ein Filesystem:Permanenter Link zu dieser Überschrift

    Pattern Rules:

    host=/[^\\]+/.

    share=/[^\\]+/.

    directory=/[^\\]+/.

    UNCPath="\\\\" host "\\" share "\\" directory "\\".

    Metadata-Definition 1:

    If Rule Matches: UNCPath
    Name: Laufwerk
    Value: {{share}}
    In Existing Metadata: datasource/mes:key

    Metadata-Definition 2:

    If Rule Matches: UNCPath
    Name: Projektpfad
    Value: {{directory}}
    In Existing Metadata: datasource/mes:key

    Aggregated Metadata Keys (; separated): Laufwerk;Projektpfad

    Datums-Formate für Entity Recognition basieren auf den ICU-Patterns (z.B. Locale … de_AT)

    Konfiguration für Entity Recognition für Filesystem Pfade (2 Varianten) – mit Ausnahmen:Permanenter Link zu dieser Überschrift

    Sind die Regeln mehrdeutig, kann über alternative Regeln und einer Reihung durch Benennung sowie die korrekte Reihung der mehrfachen Metadaten-Extraktion auch solch ein komplexer Fall erreicht werden. Der Pfad (path) als Metadatum ist lower-case und somit besser für CSV-Mapping.

    Hinweis: Ein ODER (|) von Sub-Regeln funktioniert nicht!

    • Einfache Lösung ohne Ausnahme:

    Pattern Rules:

    LWPath=/\\\\[^\\]+\\[^\\]+\\[^\\]+\\[^\\]+/.

    FilePath=/[^\\]+/.

    FullPath=LWPath "\\" FilePath.

    Lösung mit einer Ausnahme (data\it):

    Pattern Rules:

    ASpecialPath="data\\it".

    OtherPath=/[^\\]+/.

    BaseShare=/\\\\[^\\]+\\[^\\]+\\[^\\]+/.

    LWPathA= BaseShare "\\" ASpecialPath.

    LWPathOther= BaseShare "\\" OtherPath.

    FilePathA=/[^\\].*/.

    FilePathOther=/[^\\].*/.

    FullPathA=LWPathA "\\" FilePathA.

    FullPathOther=LWPathOther "\\" FilePathOther.

    Im nachstehenden Screenshot wird die Konfiguration der Regeln visualisiert.

    EntityRecognition-Laufwerkspfade1 EntityRecognition-Laufwerkspfade2

    EntityRecognition-Laufwerkspfade-3_CSV

    CSV-Transform: der extrahierte Wert (fileshare) muss case-sensitive matchen, somit sollte der path als Quell-Metadatum verwendet werden.

    fileshare;letter
    \\fileserver.myorganization.com\qa\fstest\projekte;U:
    \\fileserver.myorganization.com\qa\fstest\vorlagen;T:
    \\fileserver.myorganization.com\qa\fstest\allgemein;G:
    \\fileserver.myorganization.com\qa\fstest\spezial;M:
    \\fileserver.myorganization.com\qa\fstest\data\it;H:
    \\fileserver.myorganization.com\qa\fstest\data;H:
    \\fileserver.myorganization.com\qa\fstest\data-services;H:
    \\fileserver.myorganization.com\qa\fstest\allgemein-retail;G:

    Hinweis: Match auf mes:key geht in CSV-Transformation (sowie in ER-rules) nur mit: In Property = datasource/mes:key.

    Achtung: /documents-Servlet liefert keine Werte, die nur über Index Re-Invert entstehen!

    Troubleshooting Entity RecognitionPermanenter Link zu dieser Überschrift

    Dieses Kapitel beschäftigt sich mit dem Troubleshooting der Entity Recognition Regeln.

    Wichtige HinweisePermanenter Link zu dieser Überschrift

    1. In Mindbreeze InSpire werden die regulären Ausdrücke zusätzlich mit einem „/“ umschlossen.
    2. Dabei muss jeder Regeleintrag durch einen Punkt getrennt sein.
    3. Regelnamen dürfen keine „_“ beinhalten
    4. Regeln sind greedy (gierig – matchen so viel wie möglich Achtung bei „.*“ bzw. „.+“ Konfigurationen)
    5. Regeln werden alphabetisch abgearbeitet (Groß-/Kleinschreibung beachten!)
      Zuerst kommen Großbuchstaben von A bis Z, danach Kleinbuchstaben a bis z.
    6. Trifft eine Regel einen Bereich, so kann keine zweite Regel treffen Annahme: Befindet sich sowohl in Gremium als auch in Schlagwort das Wort „Vorstand“, so wird nur das Metadatum mit der Regel „Gremium“, das Wort „Vorstand“ beinhalten
    7. Entity Recognition Rules können nur pro Index, also über alle darin befindlichen Datenquellen angelegt werden.

    IndexPermanenter Link zu dieser Überschrift

    Index-Status prüfen über http://localhost:8443/index/<Indexport>/statistics

    Privileged ServletsPermanenter Link zu dieser Überschrift

    • Verbinden Sie sich mit dem Mindbreeze Management Center
    • Navigieren Sie zu dem Configuration Menü und dann zum Index Tab.
    • Aktivieren Sie die Advanced Settings und öffnen Sie die Indexeinstellungen des Index, den Sie mit Entity Recognition testen möchten.
    • Deaktivieren Sie die Checkbox "Disable Unrestricted Privileged Servlets"
    • Anschließend speichern Sie die Einstellungen und starten Sie die Services neu
    • Nachdem die Services neugestartet sind:
      • Öffnen Sie https://yourappliance:8443/index/<<Indexport>>/processitems
      • In unserem Beispiel ist der Index-Port 23101: https://yourappliance:8443/index/23101/processitems
      • Auf dieser Seite können Sie die Regeln (Pattern-Rules) mit einer bestimmten Abfrage (z.B.: ALL) testen
      • Klicken Sie dazu nach dem Ausfüllen auf process. Wenn der Syntax der Regeln valide ist, haben Sie nach Betätigung des Knopfes mehr Optionen zum Testen zur Verfügung.
      • Wählen Sie die Regel aus, die Sie matchen möchten und konfigurieren Sie die Werte der Regel(n).
      • Klicken Sie anschließend auf process, um das Testen der Regel(n) anzustoßen:

    Deaktivierung von gierigem Verhalten der Entity Recognition RegelnPermanenter Link zu dieser Überschrift

    Entity Recognition Regeln sind normalerweise gierig. Im folgenden Beispiel werden die markierten Zeilen gematcht:

    Regel

    R1=/ (?s)(test)(?P<line>.+)\s+(.*Page) /.

    Match:

    Wird gierig deaktiviert würde jedoch nicht mehr alles gematchet werden, sondern nur jene Blöcke die mit test beginnen und mit Page enden:

    Regel:

    (?U)(?s)(test)(?P<line>.+)\s+(.*Page)(?U)

    Match:

    Häufige FehlerursachenPermanenter Link zu dieser Überschrift

    Bei der folgenden Fehlermeldung ist ein Fehler beim Parsen der ER-Regeln aufgetreten:

    “MesQuery::Text::RE2Tokenizer ERROR: Matched empty (epsilon) token, pattern is”

    … z.B. wird ein „\“ am Ende einer Regex nicht unterstützt (LWPath=/\\\\[^\\]+\\/. … und liefert einen Fehler. Besser: LWPath=/\\\\[^\\]+/ “\\“.).

    Eventuell kann es auch zu Problemen mit “.*“ in Regeln kommen.

    Entity Recognition Rules werden in alphabetischer Reihenfolge ausgewertet und der erste vollständige Match gewinnt.

    Regex-Rules nach deutschen Wörtern treffen mit \w nicht alle Zeichen (Umlaute, etc.). Stattdessen können Sie mit \pL alle Unicode-Buchstaben matchen.

    Typische AnwendungsfällePermanenter Link zu dieser Überschrift

    Personal InformationPermanenter Link zu dieser Überschrift

    SVNRPermanenter Link zu dieser Überschrift

    RegEx

    \d{4}(\s|\.|\-)\d{6}

    Beispiel

    1237 010180
    1237.010180
    1237-010180

    Telephone numberPermanenter Link zu dieser Überschrift

    RegEx

    (\+)([\s.\(\)]*\d{1}){8,13}(-)?(\d{1,5})

    Beispiel

    +43 732 606162-0
    +43 732 606162-609
    +49(732)606162-609

    Number (With delimiters)Permanenter Link zu dieser Überschrift

    RegEx

    z1=/\d/.z2=/\d/. (…)Dlmtr=/[\s\-_.:]?/.

    z1 Dlmtr z2 Dlmtr z3 Dlmtr z4 Dlmtr z5 Dlmtr z6.

    Example

    12-34567
    12 34 56-7
    1-2 3456.7

    AmountPermanenter Link zu dieser Überschrift

    RegEx

    ((\d{1,3}(\.(\d){3})*)|\d*)(,\d{1,2})

    Example

    0,84
    100.000,49
    100.000,00
    1.000.000.000.000,00

    DatumPermanenter Link zu dieser Überschrift

    Handbuch zu den Datumsformaten: http://userguide.icu-project.org/formatparse/datetime

    • dd(.|-|/)MM(.|-|/)yyyy
      • RegEx
        ((0[1-9])|[1-9]|([1-3][0-9]))(\.|\/|-)((0[1-9])|[1-9]|10|11|12)(\.|\/|-)((19|20)\d{2})
      • Beispiel
        11.03.2014
        11.3.2014
        3.3.2014
        03.2.2010
        11/03/2014
        11/3/2014
        3/3/2014
        03/2/2010
        11-03-2014
        11-3-2014
        3-3-2014
        03-2-2010
    • dd. MMM yyyy
      • RegEx
        ((0[1-9])|[1-9]|([1-3][0-9]))\..(|Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember).((19|20)\d{2})
      • Example
        3. Jänner 2014
        4. Februar 2012
        30. November 2013
    • MMM yyyy
      • RegEx
        (Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember).((19|20)\d{2})
      • Example
        Februar 2014
        September 2014
    • MM(.|-|/)yyyy
      • RegEx
        (Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember).((19|20)\d{2})|((0[1-9])|[1-9]|10|11|12)(\.|\/|-)((19|20)\d{2})
      • Example
        03-2014
        03.2014
        03/2014
    • yyyy(.|-|/)mm(.|-|/)dd
      • RegEx
        ((19|20)\d{2})(\.|\/|-)((0[1-9])|[1-9]|10|11|12)(\.|\/|-)((([1-3][0-9]|0[1-9])|[1-9]))
      • Example
        2014-03-21
    • Datums-Regex Gesamt
      ((0[1-9])|[1-9]|([1-3][0-9]))(\.|\/|-)((0[1-9])|[1-9]|10|11|12)(\.|\/|-)((19|20)\d{2})|((0[1-9])|[1-9]|([1-3][0-9]))\..(Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember).((19|20)\d{2})|(Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember).((19|20)\d{2})|((0[1-9])|[1-9]|10|11|12)(\.|\/|-)((19|20)\d{2})|((19|20)\d{2})(\.|\/|-)((0[1-9])|[1-9]|10|11|12)(\.|\/|-)((([1-3][0-9]|0[1-9])|[1-9]))
    • Datums-Regex Gesamt II
      ((((0?[1-9]|[12]\d|3[01])[\.\-\/](0?[13578]|1[02])[\.\-\/]((1[6-9]|[2-9]\d)?\d{2}))|((0?[1-9]|[12]\d|30)[\.\-\/](0?[13456789]|1[012])[\.\-\/]((1[6-9]|[2-9]\d)?\d{2}))|((0?[1-9]|1\d|2[0-8])[\.\-\/]0?2[\.\-\/]((1[6-9]|[2-9]\d)?\d{2}))|(29[\.\-\/]0?2[\.\-\/]((1[6-9]|[2-9]\d)?(0[48]|[2468][048]|[13579][26])|((16|[2468][048]|[3579][26])00)|00)))|(((0[1-9]|[12]\d|3[01])(0[13578]|1[02])((1[6-9]|[2-9]\d)?\d{2}))|((0[1-9]|[12]\d|30)(0[13456789]|1[012])((1[6-9]|[2-9]\d)?\d{2}))|((0[1-9]|1\d|2[0-8])02((1[6-9]|[2-9]\d)?\d{2}))|(2902((1[6-9]|[2-9]\d)?(0[48]|[2468][048]|[13579][26])|((16|[2468][048]|[3579][26])00)|00))))
    • Example
      31.12.2005
      12.12.12
      1.2.2003
      1.3.98
      04-05-2004

    ZeitPermanenter Link zu dieser Überschrift

    RegEx

    (([0-1]?[0-9])|([2][0-3])):([0-5]?[0-9])(:([0-5]?[0-9]))?

    Example

    11:00:23
    12:30

    EmailPermanenter Link zu dieser Überschrift

    RegEx

    ([a-zA-Z0-9_\-\.]+)@([a-zA-Z0-9_\-\.]+)\.([a-zA-Z]{2,5})

    Example

    david.porter@inspire.mindbreeze.com
    egov@mindbreeze.com

    IBANPermanenter Link zu dieser Überschrift

    RegEx

    AT\d{18}

    Example

    AT002105017000123456

    Kommagetrennte Liste von InhaltenPermanenter Link zu dieser Überschrift

    In diesem Beispiel wird eine Liste von Inhalten getrennt mit einem Beistrich als Liste in Mindbreeze interpretiert.

    Input: Liste aus Wort, Wort,

    Wert=/[^\s,][^,]*[^,\s]?/.
    Regel= /\s*/ Wert /\s*(,\s*|$)/.

    KataloganreicherungPermanenter Link zu dieser Überschrift

    Es werden neue Metadaten zu einem Dokument hinzugefügt. Die neuen Metadaten werden mithilfe eines „Katalogs“ (z.B. CSV-Datei) erzeugt.

    Hier werden folgende Möglichkeiten beschrieben:

    • Index CSV-Transformation (Funktionalität im Index bereits vorhanden)
    • HierarchicalCSVEnricher (separates ItemTransformation Plugin)
    • FileMetadataEnricher (separates ItemTransformation Plugin)

    Index CSV-TransformationPermanenter Link zu dieser Überschrift

    Dieser Abschnitt beschäftigt sich mit der Anreicherung der Metadaten mithilfe eines CSV-Files. Dabei ist es möglich einen Wert eines Metadatums mit dem Wert einer bestimmten Spalte im CSV zu vergleichen. Stimmt der Wert aus dem Metadatum mit dem Wert aus der Spalte überein kann man den Wert einer anderen Spalte aus derselben Zeile in ein neues Metadatum schreiben und dem Resultat anfügen.

    Einrichtung der CSV-TransformationPermanenter Link zu dieser Überschrift

    Dieses Kapitel beschäftigt sich mit der Einrichtung von CSV Transformation anhand eines konkreten Beispiels. Für die Konfiguration müssen folgende Schritte durchgeführt werden:

    Verbinden sie sich mit dem Mindbreeze Management Center (Default: https://IhreAppliance:8443 )

    Navigieren sie zum Indices Tab, aktivieren sie die Advanced Settings und Erweitern sie den gewünschten Index

    Suchen sich nach der Einstellung „CSV Transformation“ und richten sie die Funktion wie im nachstehenden Beispiel ein

     

    Example:

    Einstellung

    Beschreibung

    Beispiel

    CSV File Path

    Pfad des von Ihnen kopierten CSV-Files am Server.

    /data/MedicationsActiveIngredientsUTF8_UNIX.csv

    Add Metadata Definition

    If Expression Matches

    Name der Spalte im CSV, die mit dem Wert eines Metadatums übereinstimmen muss, damit die Transformation ausgeführt wird.

    {{Medication}}

    In Property

    Das existierende Metadatum, das mit dem Wert aus der Spalte im CSV vergleicht werden soll.

    medication

    Name

    Name des Metadatums, welches den neu angereicherten Wert enthalten soll.

    ATC_CODE

    Value

    Name der Spalte, dessen Wert in das neue Metadatum „Name“ geschrieben werden soll um das Resultat damit anzureichern

    • Kopieren sie ein beliebiges CSV-File in das Verzeichnis /data/ auf ihre Mindbreeze InSpire.

    {{ATC_CODE}}

    Wie funktioniert es:Permanenter Link zu dieser Überschrift

    Der Wert des existierenden Metadatums(„medication“) wird mit dem Wert aus der Spalte „Medikament“ verglichen. Wurde eine Zeile gefunden, bei der beide Werte äquivalent sind, so wird der Wert aus der Spalte ATC_CODE extrahiert und dem Metadatum ATC_CODE hinzugefügt.

    Änderungen im CSV-File mittels TabellenverarbeitungsprogrammPermanenter Link zu dieser Überschrift

    Wenn Sie das CSV mit einem Tabellenverarbeitungsprogramm wie Microsoft Excel bearbeiten, müssen Sie sicherstellen, dass das CSV nach der Bearbeitung immer noch im Format UTF8 und nicht UTF8-BOM ist.

    Dies können sie mit einem beliebigen Texteditor, wie zum Beispiel Notepad++, überprüfen und gegebenenfalls zurück in das Format UTF8 umwandeln.

    Synthesized MetadataPermanenter Link zu dieser Überschrift

    Mithilfe von Synthesized Metadata Definitions können Regeln erstellt werden, um Dokumente mit Metadaten anzureichern. Diese Regeln werden zum Zeitpunkt der Suche dynamisch ausgewertet.

    Name

    Name des synthetisierten Metadatums

    Property Expression

    Ausdruck in Mindbreeze Property Expression Language, der zum synthetisieren des Metadatumwerts verwendet wird.

    Precomputed Synthesized MetadataPermanenter Link zu dieser Überschrift

    Mithilfe von Precomputed Synthesized Metadata Definitions können Regeln erstellt werden, um Dokumente mit Metadaten anzureichern. Diese Regeln werden während der Index-Invertierung ausgewertet, um Metadaten zu synthetisieren.

    Bitte beachten Sie, dass bei Precomputed Synthesized Metadata Definitions nur eine Teilmenge der Mindbreeze Property Expression Language unterstützt wird. Alle Ausdrücke in Mindbreeze Property Expression Language - Spezifische Sprachelemente für die Suche werden nicht unterstützt, was auch Ausdrücke, die Referenzen enthalten, wie Pfade oder inverse Referenzen betrifft. Wenn Sie Ausdrücke mit Referenzen verwenden wollen, können Sie stattdessen Synthesized Metadata Definitions erstellen.

    Bitte beachten Sie, das vordefinierte Metadaten, wie mes:key, Category, CategoryInstance und FQCategory nicht für Precomputed Synthesized Metadata Definitions verfügbar sind. Stattdessen können Synthesized Metadata verwendet werden.

    Folgende Optionen stehen zur Verfügung

    Name

    Name des synthetisierten Metadatums

    Property Expression

    Ausdruck in Mindbreeze Property Expression Language, der zum synthetisieren des Metadatumwerts verwendet wird.

    Transformation Pipeline Slot

    Definiert, an welcher Stelle das Metadatum in der Semantic Pipeline synthetisiert werden soll. Folgende Optionen stehen zur Verfügung:

    • Before Entity Recognition
    • After Entity Recognition
    • After CSV Transformation

    Merge Strategy

    Folgende Optionen stehen zur Verfügung:

    • Keep Existing: ist das Metadatum zum Zeitpunkt der Synthetisierung bereits vorhanden, wird es nicht ersetzt
    • Replace Existing: das Metadatum wird immer ersetzt
    • Merge On Root Item Using Name as Prefix (Item Values only):
      mit dieser Option werden Items ausgeflacht, indem neue Metadaten mit einem Prefix (kommt von der Option „Name“) erzeugt werden. Kann beispielsweise mit dem Ausdruck json_parse(json) hilfreich sein. Die erzeugten Metadaten können jedoch momentan nur mit Einschränkungen verwendet werden und können beispielsweise bei einer Suchanfrage so nicht angefordert werden.

    Aggregatable

    Definiert, ob das synthetisierte Metadatum aggregierbar sein soll. Folgende Optionen stehen zur Verfügung:

    • Dynamic Aggregatable (Included in Document Info): bei neu indizierten Dokumenten ist das synthetisierte Metadatum aggregierbar. Das betroffene Metadatum der bereits indizierten Dokumente ist jedoch weiterhin nicht aggregierbar. Es ist keine Index-Reinvertierung notwendig.
    • Static Aggregatable (Included in Document Info and Schema): das synthetisierte Metadatum ist aggregierbar (auch rückwirkend für bereits bestehende Dokumente). Es ist eine Index-Reinvertierung notwendig.
    • Non-Aggregatable (Excluded from Document Info): nicht aggregierbar, keine Index-Reinvertierung notwendig.

    Hierarchical CSV Enricher (ItemTransformer.HierarchicalCsvEnricher)Permanenter Link zu dieser Überschrift

    EinleitungPermanenter Link zu dieser Überschrift

    Dieses Plugin annotiert in PDF Dokumenten spezielle Wörter, die in einer CSV-Datei angegeben sind. Diese annotierten Wörter (Matches) werden in der PDF-Vorschau als klickbare Hyperlinks dargestellt. An diese Hyperlinks können in einen Custom-Client eigene Aktionen gekoppelt werden. Beispielsweise kann bei einem Mouse-Over über ein spezielles Wort eine Erklärung als Tooltipp eingeblendet werden. Zusätzlich kann das Plugin für Matches Metadaten generieren und Entities annotieren.

    InstallationPermanenter Link zu dieser Überschrift

    Um das Plugin zu benutzen, muss das MetadataTransformationService Plugin zu Ihrer Mindbreeze-Installation hinzugefügt werden, in dem das entsprechende Plugin geladen wird.

    KonfigurationPermanenter Link zu dieser Überschrift

    Das Plugin wird grundsätzlich als eigenständiger Service gestartet. (Ähnlich zu Caching Principal Resolution Services). In den Indices werden Referenzen auf den Service konfiguriert. Das Plugin selbst wird im Abschnitt „Services“ konfiguriert:

    • Aktivieren Sie das Plugin für jeden gewünschten Index mithilfe der Management UI:
      • Wechseln Sie zum Tab „Indices“ und akivieren Sie „Advanced Settings“.
      • Scrollen Sie runter zum Abschnitt „Services”.
      • Wählen Sie das Plugin “ItemTransformationServicePlugin.HierarchicalCsvEnricher“ aus und klicken Sie auf „Add“.

    GrundeinstellungenPermanenter Link zu dieser Überschrift

    „Display Name“

    Für eine einfache Zuordnung zum Index wählen Sie hier einen möglichst beschreibenden Namen.

    „Nodes“

    Wählen Sie die Node aus, auf dem der Service laufen soll. Nur Indices auf derselben Node können den Service nutzen.

    „Bind port“

    Ein freier TCP-Port, welcher von keinem anderen Service belegt ist.

    „Max Threads“

    Die maximale Anzahl von Threads, die der Dienst bei der Bearbeitung von Anfragen verwenden darf.

    CSV Transformation ConfigurationPermanenter Link zu dieser Überschrift

    Transformation Timeout (ms)

    (Advanced Setting)

    Definiert das Timeout (in ms), wo nach dem Ablaufen der Zeit die Transformation abgebrochen wird. Die bis zu diesem Zeitpunkt transformierten Metadaten bleiben erhalten.

    Standardwert: 250000 ms.

    Document Exclusion Rules

    Regeln, welche die Transformation von Dokumenten mit gewissen Metadaten überspringen. Siehe Abschnitt unten

    CSV File Path

    Pfade zu den CSV Dateien. In der ersten Zeile der CSV Datei werden Spaltenbeschriftungen erwartet. Mit dem Knopf „Add“ können mehrere CSV Dateien hinzugefügt werden. Die CSV Dateien werden nach einer Änderung automatisch neu eingelesen.

    CSV Delimiter Character

    Das CSV-Trennzeichen. Ein Buchstabe. (Üblicherweise Semikolon)

    Term Colum Name

    Name der CSV-Spalte, welche für das „Matching“ in den Dokumenten verwendet wird.

    Entity Column Name

    Name der CSV Spalte, welche für das annotieren von Entities in den Dokumenten verwendet wird. (Nicht kompatibel mit „Entity Value“)

    Entity Value

    Statischer Wert, welcher bei allen Matches als Entity-Annotation hinzugefügt wird. (Nicht kompatibel mit „Entity Column Name“)

    Source Metadata Name

    Bestimmt das Metadatum, aus dem der Text für das „Matching“ stammt.

    Wenn diese Einstellung leer ist, so wird der Text des Dokuments für das „Matching“ verwendet (Standard).

    Enable Build Hierarchy

    Das Plugin kann mit dieser Option in einen Hierarchie-Modus geschaltet werden. Dazu muss das CSV eine Eltern-Kind-Beziehung zwischen den Einträgen besitzen, welche über eine weitere Spalte, die zum Eltern-Eintrag zeigt abgebildet ist. Als Metadatum-Wert wird dann die Hierarchie selbst verwendet.

    Parent Column Name

    Name der CSV-Spalte, die zum Eltern-Eintrag (dort die Term-Column) zeigt.

    Diese Option ist nur wirksam, wenn Enable Build Hierarchy aktiviert ist.

    Skip Root Element

    Wenn diese Option aktiviert ist, wird die Wurzel (root) der Hierarchie nicht zum Metadatum-Wert hinzugefügt.

    Target Metadata Name

    Name des Metadatums, welches erzeugt wird.

    Target Metadata Name Pattern

    Vorlage-Muster aus dem der Name des Metadatums erzeugt wird. In Platzhaltern können die CSV-Spaltennamen in doppelt geschwungenen Klammern verwendet werden, zum Beispiel: {{Meta Name}}.

    Target Metadata Value Pattern

    Vorlage-Muster aus dem der Wert des Metadatums erzeugt wird. In Platzhaltern können die CSV-Spaltennamen in doppelt geschwungenen Klammern verwendet werden, zum Beispiel: {{Term Name}} (nicht Hierarchie-Modus).

    Merge Strategy

    Hier kann die Lösungsstrategie definiert werden, falls es schon ein Metadatum mit dem gleichen Namen gibt. Entweder „Keep Existing“ oder „Overwrite Existing“

    Overlapping Match Strategy

    Wenn an einer Stelle im Dokument mehrere, sich überlappende, Übereinstimmungen gefunden werden, wird mit dieser Option bestimmt, welche Übereinstimmungen schlussendlich verwendet werden. Es stehen 2 Strategien zur Verfügung:

    „Longest“ verwendet nur die längste Übereinstimmung (Anzahl Buchstaben).
    „All“ verwendet alle Übereinstimmungen.

    Hinweis: wenn „All“ verwendet wird, können in Kombination mit der Option „Link HREF Pattern“ sich überlagernde Annotationen entstehen.

    Target Metadata Property Constraints

    Hier können Bedingungen angegeben werden, unter welche ein Metadatum-Wert hinzugefügt wird. Die Bedingungen entsprechen den Item Properties und werden als eine kommagetrennte Liste von Key-Value Paaren konfiguriert, wobei die Key-Value Paare mit einem Gleichheitszeichen getrennt werden, zum Beispiel: name=bob,person=true.

    Diese Funktion wird üblicherweise verwendet, um zu verhindern, dass Metadatum-Werte, die ohnehin in den Attribut-Metadaten enthalten sind, zu den („normalen“) Metadaten hinzugefügt werden. Der Standardwert ist leer. (alle Werte werden hinzugefügt)

    Target Metadata Item Name

    Name des „Item“ Metadatums. Das Plugin kann zusätzlich ein komplexes Metadatum erzeugen, welches für alle Matches die zugehörigen CSV-Einträge beinhaltet. Zusätzlich werden für jeden CSV-Eintrag eine Liste von Vorkommnissen mit Properties geführt.

    Target Metadata Item Default Properties

    Hier können für das Metadatum Item die Standardwerte der Properties im Vorkommnis definiert werden. Die Properties werden als eine Komma-getrennte Liste von Key-Value Paaren konfiguriert, wobei die Key-Value Paare mit einem Gleichheitszeichen getrennt werden.
    Z.B. name=bob,person=true

    Link HREF Pattern

    Vorlage-Muster aus dem die URL erzeugt wird, mit der das PDF-Dokument annotiert wird. Die CSV-Spaltennamen können in Platzhaltern mit doppelt geschwungenen Klammern verwendet werden, zum Beispiel: http://www.example.com/{{Term Name}}.

    Hinweis: Die URL muss valide sein. Der Wert des Platzhalters wird URL-encoded. Damit die URL auch in der PDF Vorschau angezeigt wird, muss in den Einstellungen des jeweiligen Index bei „Aggregated Metadata Keys“ der Wert „@content“ hinzugefügt werden.

    Add Additional HREF Link HTML Annotation

    Wenn diese Option aktiviert ist, werden für HREF Links zusätzliche HTML-Tags erstellt. Dadurch funktionieren die Links auch in anderen Dokument-Previews als PDF, wie z.B. HTML oder docx. Dabei werden auch alle Annotationen aggregiert.

    Wenn diese Option aktiviert werden soll, muss zusätzlich in dem jeweiligen Index ein Precomputed Synthesized Metadatum über den Content gesetzt werden:

    • Name: @content
    • Property Expression: ““
    • Merge Strategy: Replace Existing

    „Transformation Pipeline Slot“ und „Aggregatable” können auf dem Default Wert belassen werden.

    Enable Stemmer

    Aktiviert den Stemmer. Dadurch erhöht sich die Matching-Anzahl, da auch die abgewandelten Formen von Wörtern Matches erzeugen.

    Stemmer Language

    Sprache des Stemmers. Z.B. german, english, russian

    Stemmer Skip Short Roots Length

    Beim Einsatz des Stemmers können False-Positive Matches entstehen, wenn Wörter in der Stammform zu kurz werden. Diese Einstellung bestimmt, dass der Stemmer bei sehr kurzen Stammformen nicht verwendet wird. Definiert wird die minimale Länge der Stammform, ab der der Stemmer nicht mehr verwendet wird.

    Stopword Vocabulary Path

    Pfad zu einer Textdatei mit Stoppwörter. Stoppwörter werden ignoriert und übersprungen. In der Textdatei gilt ein Wort pro Zeile. Case-sensitiv.

    Replacement Patterns

    Ersetzungsregeln, um beliebige Zeichenketten mit einer anderen Zeichenregel zu ersetzen. Eine Regel pro Zeile. Eine Regel besteht aus zwei Teilen, die mit der Zeichenfolge „|>“ getrennt werden. Die linke Seite ist ein regulärer Ausdruck (Java Regular Expression), die rechte Seite ist eine beliebige Zeichenfolge.

    Hinweis: Diese Ersetzungsregeln ändern nicht den eigentlichen Dokument-Inhalt, sondern beeinflussen nur das generieren neuer Metadaten, zum Beispiel:

    „(?i:ö)|>oe“ ersetzt das Zeichen „ö“ mit der Zeichenkette „oe“.

    Attributes

    Regeln, um unter bestimmten Bedingungen Properties zu den Metadaten hinzuzufügen. Siehe nächster Abschnitt.

    Filter Patterns

    Regeln aus regulären Ausdrücken (Java Regular Expression), um Matches zu entfernen. Dies wird verwendet, um False-Positives zu entfernen. Eine Regel pro Zeile. Eine Regel besteht aus bis zu drei Teilen. Die Teile werden getrennt mit <| und |> . Die drei Teile entsprechen einem „Prefix“-, „Infix“- und „Postfix“-Ausdruck von regulären Ausdrücken, die rund um einen Match angewendet werden. Treffen alle angegebenen Ausdrücke zu, dann ist die Regel aktiv und der Match wird entfernt.

    Z.B. die Regel John\s$<|^Joe$|>^\sDoe entfernt den Match „Joe“, wenn dieser z.B. im Zusammenhang: „His name is John Joe Doe, she said.“ vorkommt. Zur Vereinfachung können Teile der Regel auch weggelassen werden.
    Z.B. sind folgende Regeln auch erlaubt: ^Joe$|>^\sDoe oder John\s$<| . Die Regeln sind Case-sensitiv.

    Document Exclusion RulesPermanenter Link zu dieser Überschrift

    Üblicherweise wird jedes Dokument in einem Index mit einem konfigurierten Transformation Service transformiert. Mit dieser Regel können bestimmte Dokumente anhand von Metadaten ausgelassen werden und bleiben unverändert.

    „Metadata Name“

    Name des Metadatums, auf das sich die Regel bezieht.

    „Exclusion Pattern“

    Regulärer Ausdruck (Java Regular Expression), welcher auf den Wert des Metadatums gematcht wird. Bei einer Übereinstimmung wird das Dokument nicht transformiert.

    AttributesPermanenter Link zu dieser Überschrift

    Anhand von Regeln für reguläre Ausdrücke können Metadaten modifiziert werden, wenn der reguläre Ausdruck matcht. Dazu fügen Sie Attributes mit dem Plus-Symbol hinzu.

    „PatternPosition“

    Die Regel gilt unmittelbar vor dem eigentlichen Match („Prefix“) oder unmittelbar nach dem eigentlichen Match („Postfix“)

    „Patterns“

    Liste von regulären Ausdrücken (Java Regular Expression). Ein Ausdruck pro Zeile. Die regulären Ausdrücke werden direkt vor („Prefix“) oder nach („Postfix“) dem eigentlichen Match angewendet. Stimmt ein Ausdruck überein, ist die Regel aktiv. Die Regeln sind Case-insensitive. Zum Beispiel wird die Regel „no\s+$“ beim Match „animal“ aktiv, wenn es im folgenden Kontext auftritt: „no animal was hurt.“

    „Add Metadatum Name“

    Ist die Regel aktiv, wird ein Metadatum mit diesem Namen erzeugt. Der Wert des Metadatums ist derselbe wie in „Target Metadata“.

    „Append HREF Value“

    Ist die Regel aktiv, wird diese Zeichenkette an das „Link HREF Pattern“ angehängt. Hinweis: die URL muss dadurch valide bleiben. Es wird kein automatisches URL-Escaping durchgeführt.

    „Target Metadata Item Properties“

    Ist die Regel aktiv, werden diese Properties zum Metadata Item im Vorkommnis hinzugefügt bzw. überschrieben. Die Properties werden als eine Komma-getrennte Liste von Key-Value Paaren konfiguriert, wobei die Key-Value Paare mit einem Gleichheitszeichen getrennt werden. Z.B. name=printer,person=false

    Index KonfigurationPermanenter Link zu dieser Überschrift

    Damit der Index den konfigurierten Service auch verwendet, muss in den Indexeinstellungen im Bereich „Item Transformation Services“ der Service referenziert werden. Klicken Sie dazu auf „Add“ und wählen Sie den von Ihnen benannten Service aus.

    Es wird automatisch eine Property „launchedserviceid“ erstellt. Diese brauchen Sie nicht zu ändern.

    Verwendung als ContentFilter ServicePermanenter Link zu dieser Überschrift

    Mit der Installation des MetadataTransformationService-Plugins wird auch ein Filter Plugin „FilterPlugin.HierarchicalCsvEnricher“ registriert, welches für die Erweiterung „textcatalogenricher“ aktiviert werden kann. Navigieren Sie dazu in den Einstellungen ins „Filter“-Tab. Die Konfiguration geschieht analog zum „ItemTransformer.HierarchicalCsvEnricher“-Plugin. Es müssen folgende Metadaten im Filter-Request gesetzt werden:

    „extension“

    Muss auf „textcatalogenricher“ gesetzt werden

    „contentextension“

    Bestimmt die Erweiterung, welche das Plugin nach der Verarbeitung setzt. Z.B. „txt“

    Aktivieren Sie die „Advanced Settings“ und fügen sie unter „Global Filter Plugin Properties“ Einstellungen für das „FilterPlugin.HierarchicalCsvEnricher – Plugin“ hinzu.

    File Metadata EnricherPermanenter Link zu dieser Überschrift

    Dieses Kapitel beschäftigt sich mit der Verwendung des File Metadata Enrichers. Dieses Plugin ermöglicht es indizierte Dokumente (z.B.: PDF-Dateien) mit externen Quellen, wie einem XML-File oder einem CSV-File anzureichern. Dabei wird in diesem Kapitel zwischen XML File Metadata Enrichment und Catalog Settings unterschieden.

    AktivierungPermanenter Link zu dieser Überschrift

    Der File Metadata Enricher ist als ItemTransformationService Plugin und als PostFilter Plugin verfügbar.

    Als ItemTransformationService Plugin kann dieser als ein Index Service konfiguriert werden:

    Als PostFilter Plugin kann der File Metadata Enricher als ein Filter konfiguriert werden. Die Transformation passiert dann nach filtern.


    XML File Metadata EnrichmentPermanenter Link zu dieser Überschrift

    Dieser Mechanismus ist dem Mechanismus der CSV-Transformation sehr ähnlich. Im Wesentlichen handelt es sich hierbei um die Möglichkeit, den Wert eines Metadatums mit einem Wert aus einer XML-Datei zu vergleichen. Enthält eine Datenquelle beispielsweise eine Datei mit Inhalten (z.B.: mindbreeze.pdf) und eine Datei, in der sich getrennt die zugehörigen Metadaten befinden (Bsp.: mindbreeze.xml), können diese zu einem einzigen Ergebnis zusammengeführt werden, um den Inhalt mit den Metadaten zu verknüpfen. Dieser Mechanismus wird anhand des nachstehenden Beispiels näher erläutert.

    Beispiel KonfigurationPermanenter Link zu dieser Überschrift

    ErklärungPermanenter Link zu dieser Überschrift

    File Path Source: Name eines Metadatums, welches als Quelle für die Anreicherung verwendet wird. Zum Beispiel kann ein Metadatum verwendet werden, das den Pfad des aktuellen Resultats enthält. Dies ist beim Microsoft File Connector datasource/mes:key, welches smb://myserver/testdaten/Content/ enthält.

    File Path Pattern: Schränkt den Anwendungsbereich des Enrichers ein. Alle Resultate, bei denen die mes:key-Werte nicht dem Regex aus File Path Pattern matchen, werden ignoriert (der Enricher wird nicht angewendet).

    File Path Replacement: Hier wird der Dateienpfad angegeben, wo die Metadaten der Datei enthalten sind. Die Dateien müssen dabei lokal auf der Appliance liegen oder zumindest auf dieser gemountet sein. Hier ist es möglich, einen Wert als Variable zu referenzieren, sofern dieser Wert mit dem in File Path Pattern angegebenen Regex matcht. Dabei können die matchenden Gruppen (REGEX) mit $1 aufsteigend referenziert werden (Bsp.: $1, $2, $3, …). Die Gruppe (.*) kann daher mit $1 referenziert werden. In unserem Fall wird der Name der Datei aus dem Filepath-String extrahiert, der mit dem File Path Pattern matcht.

    Metadata Node XPath: Jeder XML-Node, der durch dieses XPATH gematcht wird, wird vom Enricher als ein Objekt mit Metadaten interpretiert.

    Metadata Key XPath: Der String, der von diesem XPATH Ausdruck gematcht wird, wird vom Enricher als Name für das neue Metadatum verwendet.

    Metadata Value XPath: Der String der von diesem XPATH Ausdruck gematcht wird, wird vom Enricher als Wert des neuen Metadatums verwendet.

    Date Format: Wird hier im Java Simple Date Format ein Format angegeben, versucht der Enricher jeden String, der von Metadata Value XPath gematched wird, als Datum im Angegebenen Format zu interpretieren. Ist der String nicht im angegebenen Format, dann wird dieser vom Enricher als ein String (nicht als Datum) interpretiert.

    Beispiel:Permanenter Link zu dieser Überschrift

    In diesem Kapitel werden weitere Funktionen des Enrichers anhand eines konkreten Beispiels erläutert.

    KonfigurationPermanenter Link zu dieser Überschrift

    XML-Datei (1.xml)Permanenter Link zu dieser Überschrift

    <?xml version="1.0" encoding="utf-8"?>

    <Document>

    <UserID>4711_12</UserID>

    <DocID>PDF_4711_12_CV_001.pdf</DocID>

    <DocType>CV</DocType>

    </Document>

    ErklärungPermanenter Link zu dieser Überschrift

    Das Metadatum datasource/mes:key (File Path Source) jedes Dokuments wird betrachtet. Wenn der Wert von datasource/mes:key dem Regex aus „File Path Pattern“ entspricht, dann wird der gematchte Wert mit allen lokalen oder gemounteten Filenamen aus dem Pfad von „File Path Replacement“ verglichen. Dabei wird der Dateiname, der beim „File Path Pattern“ als Regex-Gruppe definiert wurde [(.*).pdf], im „File Path Replacement“ an der Referenzstelle ($1.xml) eingefügt.

    Beispiel:

    Quelldatei: …/1.pdf File Path Replacement: …/1.xml

    Stimmen die Pfade überein, so wird im .xml nach dem XML-Node /<Document>/* gesucht und alle Kind-Nodes des Knotens werden als relevante Information interpretiert. Der Name des Knotens wird dabei als Metadatumname für das neue, zu erstellende Metadatum interpretiert. Ist im aktuellen Kind-Node ein text() enthalten, dann wird dieser Text als Wert für das neu erstelle Metadatum gesetzt und das Metadatum wird dem aktuellen Resultat im Index angeheftet.

    Beispiel:

    In unserem Fall würde daher der bereits indizierten Datei „1.pdf“ folgende Metadaten angeheftet werden:
    UserID: 4711_12
    DocID: PDF_4711_12_CV_001.pdf
    DocType: CV

    Catalog SettingsPermanenter Link zu dieser Überschrift

    Bei diesem Mechanismus wird eine CSV-Datei wie zum Anreichern verwendet. Dabei werden, wie auch bei CSV-Transformation, Informationen aus einem Mindbreeze-Index mit dem Wert einer Spalte im CSV verglichen. Im Gegensatz zu CSV Transformation kann das Metadatum zum Vergleichen nicht gewählt werden, da das Plugin aktiv im Inhalt (content) des Files nach Übereinstimmungen sucht. Eine weitere wichtige Funktion des Plugins ist die Erkennung der Negationen. Gibt es Beispielsweise die Übereinstimmung „Nierenversagen“, und kommt in dem Text „Kein Nierenversagen“ vor, so wird „Nierenversagen“ als Negation in einem eigenen Metadatum am Resultat angeheftet. Weiters ermöglicht dieses Feature, dass automatische Links hinter den Treffern angeheftet werden und diese in der PDF-Vorschau visualisiert werden. Die detaillierte Funktionsweise dieser Funktion wird im nachstehenden Abschnitt erläutert.

    Beispiel KonfigurationPermanenter Link zu dieser Überschrift

    ErklärungPermanenter Link zu dieser Überschrift

    Catalog File: Diese Einstellung beinhaltet den Pfad der CSV-Datei, die zur Anreicherung verwendet werden soll. Die Datei muss sich dabei entweder lokal auf der Mindbreeze InSpire Appliance befinden, oder auf dieser gemountet vorzufinden sein.

    Catalog Match On: Diese Einstellung gibt an, welche Spalte des CSV-Files mit der Information aus dem Inhalt der Resultate verglichen wird, um eine Übereinstimmung zu erkennen.

    Extract Metadata: In diesem Feld wird der Name des Metadatums angegeben, in welches der Text der Spalte Metadata Value bei Übereinstimmung eingefügt wird. Das Metadatum wird zum Resultat angeheftet.

    Extract Negated Metadata: Bei dieser Einstellung legen Sie den Namen des Metadatums fest, welches den Text der Spalte „Metadata Value“ bei Übereinstimmung im Falle einer Negation beinhaltet. Dieses Metadatum wird dem Resultat angeheftet. Dabei muss die Übereinstimmung wie folgt erkannt werden:

    Negation Prefix Pattern + Catalog Match On (String zur Übereinstimmung) + Negation Postfix Pattern

    Extract Metadata Item: Dieses Metadatum enthält eine strukturierte Form des gesamten angewendeten CSVs. Dieses Metadatum ist nicht als Filter vorgesehen und dient lediglich der Unterstützung für die Entwicklung von Insight Apps.

    Metadata Value: In diesem Feld muss der Spaltenname des CSVs angegeben werden, das in der Einstellung „Catalog File“ definierten wurde. Wenn der Wert der Spalte „Catalog Match On“ mit einem String aus dem Inhalt eines Resultates übereinstimmt, so wird dem Dokument das Metadatum mit dem Namen von „Extract Metadata“, als String mit dem Wert aus „Medata Value“, angefügt.

    Link HREF Pattern: In dieser Einstellung kann ein Link mithilfe der extrahierten Metadaten zusammengebaut werden. Dieser Link ist anschließend in der PDF-Vorschau des Clients verfügbar. Dieser Link kann vom Entwickler der Insight Apps interpretiert werden. Das Format des Links kann dabei wie folgt angegeben werden:

    https://entity.mindbreeze.com/?code={{pt_code}}

    Hierbei wird Anstelle des Platzhalters {{pt_code}} der tatsächlich extrahierte Wert, der Spalte pt_code aus dem CSV zur Invertierungszeit eingefügt.

    https://help.mindbreeze.com/en/documents/Development-of-Insight-Apps/media/rId111.png

    Catalog ID Column: In dieser Einstellung wird festgelegt, welche Spalte des CSV-Files eindeutig ist. Dies wird von Mindbreeze intern verwendet.

    Sentence Split Pattern: Diese Einstellung dient dazu, den Inhalt eines Satzes in Satzteile zu unterteilen. Der Enricher wird dabei nur bei den Satzteilen angewendet, die mit dem hier angeführten Regulären Ausdruck übereinstimmen.

    Negation Prefix Pattern: Dieses Pattern gibt den Prefix (meist Text) an, der verwendet werden soll um eine Negation zu erkennen. Bei der Syntax handelt es sich auch hier wiederum um die Syntax der Regulären Ausdrücke.

    Negation Postfix Pattern: Dieses Pattern gibt den Postfix (meist Text) an, der verwendet werden soll um eine Negation zu erkennen. Bei der Syntax handelt es sich auch hier wiederum um die Syntax der Regulären Ausdrücke.

    Replacement Patterns: Dieses Feld ermöglicht, für bestimmte Vorkommnisse von Wörten, Sätzen oder Buchstaben, Synonyme für den Enricher zu setzen. So ist es beispielsweise möglich, dass ä auch als ae interpretiert wird, oder ae auch als ä. Die Syntax dafür ist kann im folgenden Beispiel eingesehen werden:

    (?i:ä|ae)|>(ä|ae)
    (?i:ae|ä)|>(ae|ä)

    Das Symbol, |>, wird als Trennzeichen verwendet. Jede Regel muss dabei jeweils in einer neuen Zeile im Konfigurationsfeld eingeben werden.

    Verwendung der neuen MetadatenPermanenter Link zu dieser Überschrift

    In dieser Dokumentation ist ersichtlich wie die Metadaten in der PDF-Vorschau beim Entwickeln von Insight Apps verwendet werden können: Entwicklung von Insight Apps

    PDF herunterladen

    • Konfiguration - Metadaten Anreicherung

    Inhalt

    • Allgemein
    • Entity Recognition
    • Kataloganreicherung

    PDF herunterladen

    • Konfiguration - Metadaten Anreicherung