Query Expression Transformation

Mindbreeze Query Transformer Plugins

Copyright ©

Mindbreeze GmbH, A-4020 Linz, .

Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller.

Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet.

Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.

Mindbreeze Query TransformationPermanenter Link zu dieser Überschrift

Mindbreeze stellt eine Liste von Query Transformation Services zur automatischen Modifikation von Suchanfragen für bessere Suchergebnisse bereit.

Auf der einen Seite gibt es Plugin-basierte Extension Points, die bei Bedarf in eine Mindbreeze-Installation geladen werden können:

  • Synonym Transformer
  • Replacement Transformer
  • Auf der anderen Seite gibt es integrierte Produkt-Features, die dazu beitragen, gewünschte Suchergebnisse finden zu können (z.B. indem indizierte Dokumente mit zusätzlichen Metadaten angereichert werden):
  • „Meinten Sie?“ („Did you mean?”)
  • Namenerkennung (Entity Recognition)
  • CSV Transformation

Query Transformation PluginsPermanenter Link zu dieser Überschrift

Um eines der Query Transformation Services benutzen zu können, muss dieses zu Ihrer Mindbreeze-Installation hinzugefügt werden, indem das entsprechende Plugin geladen wird (die Query Transformation Services werden mit dem Paket “Mindbreeze Query Transformation Plugins.zip” ausgeliefert).

Das Plugin muss auch in Ihrer Mindbreeze Lizenz inkludiert sein.

Synonym Transformer PluginPermanenter Link zu dieser Überschrift

Das Synonym Transformer Plugin ermöglicht einem Suchergebnisse zu finden, indem nach verschiedenen Synonymen für ein Wort gesucht wird. Die Suchanfrage wird so transformiert, damit nach jedem Begriff in der Synonymliste gesucht wird.

Verwendung: Die Synonyme können in einer CSV-Datei definiert werden, in dem eine Menge an Synonyme in eine Zeile geschrieben werden, getrennt mit einem Semikolon (;).

Beispiel einer kleinen synonym.csv Datei:

auto;waagen;kraftfahrzeug

flugzeug;flieger;aeorplan

Beispiel 1: Eine Suche nach auto sendet die transformierte Suchanfrage: auto OR waagen OR kraftfahrzeug

Beispiel 2: Eine Suche nach flugzeug sendet die transformierte Suchanfrage: flugzeug OR flieger OR aeroplan

Anmerkung: Der Begriff in der ersten Spalte wird mit der Suchanfrage verglichen. Es werden nur einzelne Wörter ohne Abstände in der ersten Spalte unterstützt.

InstallationPermanenter Link zu dieser Überschrift

  • Installieren Sie das Plugin mit der Manager UI
  • Aktivieren Sie das Plugin für jeden gewünschten Index mithilfe der Manager UI:
    • Wechseln Sie zum Reiter „Indices“ und aktivieren Sie „Advanced Settings
    • Scrollen Sie runter zum Abschnitt „Query Transformation Services
    • Wählen Sie das “SynonymTransformer” Plugin und klicken Sie auf „Add“
  • Fügen Sie den Pfad, der zur CSV-Datei mit den Synonymdefinitionen zeigt, als “Custom Plugin Properties” hinzu.
    • Fügen Sie eine neue Eigenschaft (Property) mit dem Namen SYNONYM_CSV_FILE_PATH hinzu
    • Weisen Sie einen Wert mit dem Pfad zur CSV-Datei zu (entweder als lokalen Dateipfad oder als Netzwerkpfad, der für das verwendete Betriebssystem angemessen ist)

Beispiel 1:  SYNONYM_CSV_FILE_PATHC:\data\synonyms.csv

Beispiel 2:  SYNONYM_CSV_FILE_PATH\\fileserver.mydomain.com\mes-config\synonyms.csv

Speichern Sie schließlich die Änderungen und starten Sie die Mindbreeze Node neu, damit die Änderungen wirksam werden.

Anmerkung: Alle Änderungen in der Synonym-CSV-Datei werden sofort angewendet und werden bei der nächsten Suche miteinbezogen.

Replacement Transformer PluginPermanenter Link zu dieser Überschrift

Das ReplacementTransformer Plugin wird oft verwendet, um unangemessene Suchbegriffe mit besseren zu ersetzen oder sogar um Suchbegriffe zu verweigern.

Der Hauptunterschied zum Synonym Transformer Plugin ist, dass die originale Suchanfrage wirklich mit einer Neuen ersetzt wird, wobei sie nicht im Bericht der Suchbegriffe angezeigt wird. Der Replacement Transformer kann deswegen verwendet werden, um Suchresultate, die von Benutzern gefunden wurden, zu verbergen und ersetzt sie mit etwas anderem (z.B. Verstecken von veralteten Seiten und Zeigen der neuen Version).

Verwendung: Die zu ersetzenden Begriffe können in einer CSV-Datei definiert werden, wobei die erste Spalte den zu ersetzenden Begriff definiert. Die folgenden Spalten werden als mit OR getrennte Ersetzungswerte verwendet (wenn leer, wird der Begriff nicht gesucht).
Jeder neue Suchbegriff, der ersetzt werden soll, muss in eine neue Zeile geschrieben werden, wobei die Spalten mit einem Semikolon (;) getrennt werden müssen.

Beispiel für eine kleine replacement.csv Datei:

auto;mercedes;bmw;audi
party

Beispiel 1: eine Suche nach auto sendet die transformierte Suchanfrage:
mercedes OR bwm OR audi

Beispiel 2: eine Suche nach party wird keine Resultate finden, da sie mit einer leeren Suche ersetzt wird.

InstallationPermanenter Link zu dieser Überschrift

  • Installieren Sie das Plugin mit der Manager UI
  • Aktivieren Sie das Plugin für jeden gewünschten Index mithilfe der Manager UI:
    • Wechseln Sie zum Reiter „Indices“ und aktivieren Sie „Advanced Settings
    • Scrollen Sie runter zum Abschnitt „Query Transformation Services
    • Wählen Sie das “ ReplacementTransformer” Plugin und klicken Sie auf „Add“
  • Fügen Sie den Pfad, der zur CSV-Datei mit den Ersetzungsdefinitionen zeigt, als “Custom Plugin Properties” hinzu.
    • Fügen Sie eine neue Eigenschaft (Property) mit dem Namen „REPLACEMENT_CSV_FILE_PATH“ hinzu
    • Weisen Sie einen Wert mit dem Pfad zur CSV-Datei zu (entweder als lokalen Dateipfad oder als Netzwerkpfad, der für das verwendete Betriebssystem angemessen ist)

Beispiel 1:  SYNONYM_CSV_FILE_PATHC:\data\synonyms.csv

Beispiel 2:  SYNONYM_CSV_FILE_PATH\\fileserver.mydomain.com\mes-config\synonyms.csv

Speichern Sie schließlich die Änderungen und starten Sie die Mindbreeze Node neu, damit die Änderungen wirksam werden.

Anmerkung: Alle Änderungen in der Ersetzungs-CSV-Datei werden sofort angewendet und werden bei der nächsten Suche miteinbezogen.

Generelle Anmerkungen zu den Transformer Plugins (Replacement / Synonym)Permanenter Link zu dieser Überschrift

Anmerkung: Wenn Sie beide Plugins (Synonym Transformer und Replacement Transformer) verwenden, wird der Replacement-Transformer zuerst angewendet!

Die beiden Screenshots zeigen die Konfiguration der beiden Plugin auf der Mindbreeze Manageroberfläche.

Anmerkung: Alle Änderungen in den CSV Dateien werden sofort angewendet und werden bei der nächsten Suche miteinbezogen.

Stemmer Transformer PluginPermanenter Link zu dieser Überschrift

Das Stemmer Transformer Plugin erlaubt Ihnen, Suchresultate zu finden, indem nach verschiedenen Wortstämmen eines Wortes gesucht wird, basierend auf sprachliche Charakteristiken der definierten Sprache.

Verwendung: Der Basisalgorithmus, um passende Wortstämme zu finden, ist im ausgelieferten Plugin implementiert. Ein zusätzliches Wörterbuch mit Vokabularen einer bestimmten Sprache ist für die geläufigsten Sprachen verfügbar und wird verwendet, um die Suchresultate zu verbessern.

Des Weiteren können mit Hilfe des Stemmer Transformer auch sogenannte Transliterationen durchgeführt werden. Dabei werden mit Hilfe von Regeln Zeichen umgeschrieben. Es werden dann sowohl der originale Begriff als auch der umgeschriebene Begriff bei der Suche berücksichtigt.

Beispiel:

eine Suche nach blatt wird Übereinstimmungen wie blatt und blätter finden

Installation/KonfigurationPermanenter Link zu dieser Überschrift

  • Installieren Sie das Plugin (falls noch nicht vorhanden)

  • Aktivieren Sie das Plugin für jeden gewünschten Index mithilfe der Manager UI:
    • Wechseln Sie zum Reiter „Indices“ und aktivieren Sie „Advanced Settings
    • Scrollen Sie runter zum Abschnitt „Query Transformation Services
    • Wählen Sie das “ StemmerTransformer ” Plugin und klicken Sie auf „Add“

  • Konfiguration der Eigenschaften (je nach Verwendung)

Languages: Die Sprachen des Stemmers. Eine oder mehrere Sprachen sind erlaubt. Die Sprachen müssen durch Komma oder Zeilenumbruch getrennt sein.

Path to vocabulary: Ein lokaler Pfad auf der Appliance der ein Vokabular enthält, damit auch die Erweiterung nicht nur die Reduktion auf Stämme durchgeführt werden kann. (zB Suche nach Baum soll auch Bäume finden).

Stemmer enabled: Wenn angehakt wird der Stemmer verwendet.

Case sensitive: Wenn angehakt wird die Reduktion der Stämme unter Berücksichtigung der Groß- und Kleinschreibung durchgeführt. Dies kann zu präziseren, aber auch weniger Stämme führen. Hinweis: das Vokabular zur Erweiterung der Stämme wird immer unter Nichtbeachtung der Groß- und Kleinschreibung verwendet.

Auto detect language from query: Der Stemmer versucht die Sprache aus der Suchabfrage abzuleiten.

Transliterate all variants: Mit dieser Option erweitert der Stemmer die Query um alle passenden Transliterationen.

TransliterationRule: Regeln zum Umschreiben von Zeichenfolgen in den Begriffen. Es können folgende Regln verwendet weden: http://icu-project.org/apiref/icu4j/com/ibm/icu/text/RuleBasedTransliterator.html

Speichern Sie schließlich die Änderungen und starten Sie die Mindbreeze Node neu, damit die Änderungen wirksam werden.

Anwendungsfall: Mehrsprachiges Stemmen.Permanenter Link zu dieser Überschrift

Wird Mindbreeze mit mehreren Sprachen verwendet, macht es Sinn das Stemmer-Transformer Plugin für mehrere Sprachen zu konfigurieren, um überall passende Suchergebnisse zu liefern.

Mit der Konfigurationsoption „Languages“ können mehrere Sprachen konfiguriert werden. Der Stemmer versucht nun bei einer Suchanfrage für jede konfigurierte Sprache Stammformen zu finden. Alle gefundenen Stammformen aller konfigurierten Sprachen werden dann für die Transformation verwendet.

Wenn verschiedene Stammformen unterschiedlicher Sprachen zusammen verwendet werden, kann die Suche eventuell zu unscharf werden und nicht relevante Suchergebnisse liefern. Um diesen Effekt entgegen zu wirken, gibt es die Konfigurationsoption „Auto detect language from query“. Ist diese Option aktiv, wird mit einer Heuristik versucht die Sprache der Suchanfrage zu ermitteln. Hinweis: Die Heuristik ermittelt nur Sprachen, die über der Konfigurationsoption „Languages“ konfiguriert sind. Die ermittelten Sprachen werden anschließend für das Stemmen verwendet. Das bedeutet, dass nur die konkrete Sprache einer Suchanfrage zum Stemmen verwendet wird.

Damit das Expandieren der Stammformen auch mit mehreren Sprachen korrekt funktioniert, muss das Stemmer-Vokabular angepasst werden. Das Stemmer-Vokabular („Path to Vocabulary“) ist eine unsortierte Textdatei, die Wörter enthält, wobei in jeder Zeile ein Wort steht. Das Stemmer Plugin liest diese Textdatei ein und bildet Stammformen für jedes einzelne Wort und verknüpft die Informationen, welche Wörter dieselbe Stammform besitzen. Diese Informationen werden bei einer Suche zum Expandieren des Suchbegriffs verwendet. Z.B. eine Suche nach „Baum“ soll auch „Bäume“ finden. Die Sprache, welche der Stemmer beim Finden der Stammformen im Vokabular verwendet, folgt den gleichen Regeln wie beim Finden der Stammformen für einen Suchbegriff. Es werden alle konfigurierten Sprachen verwendet, oder, wenn die Konfigurationsoption „Auto detect language from query“ aktiviert ist, eine Heuristik, welche die Sprache eines Wortes im Vokabular ermittelt. Es wird empfohlen, für jede konfigurierte Sprache die Vokabular-Textdatei zu erweitern. Dies kann durch einfaches Verketten geschehen – die Wörter müssen nicht sortiert sein.

Beschränkungen des Stemmer-Transformer PluginsPermanenter Link zu dieser Überschrift

Stammformen vs. SynonymePermanenter Link zu dieser Überschrift

Der Stemmer findet mit einem primitiven Algorithmus Stammformen eines Wortes und expandiert die Suchanfrage zusätzlich mit einem Vokabular. Damit werden jedoch nur geringfügige Variationen eines Worts (wenige geänderte Buchstaben) abgedeckt. Diese Funktionalität ist für die Masse der Suchanfrage sehr hilfreich, kann jedoch in speziellen Einzelfällen nicht ausreichend sein.

Falls das Expandieren eines Worts (Baum Bäume) nicht korrekt funktioniert, können folgende Maßnahmen ergriffen werden:

  • Falls kein Vokabular verwendet wird, sollte ein Vokabular konfiguriert werden.
  • Falls bereits ein umfangreiches Vokabular in Verwendung ist, wird empfohlen in einem Synonym-Transformer das entsprechende Wort mit Synonymen aufzunehmen. Würde man das Vokabular erweitern, bestände keine Erfolgsgarantie, da das bestehendes Vokabular meist sehr umfangreich ist und der Stemmer einen naiven Algorithmus verwendet. Fügt man jedoch ein neues Synonym hinzu, erreicht man den gewünschten Effekt auf jeden Fall.

Bekannte Wörter mit erschwerten StemmingPermanenter Link zu dieser Überschrift

Es gibt einige Wörter, bei denen der Stemmer-Transformer die jeweiligen Stammformen nicht korrekt ermitteln kann. Bekannte Wörter bei der Sprache german sind: „Autos“, „Nudeln“ und „Kiwis“. Falls diese Wörter die Suchqualität beeinträchtigen, wird empfohlen, einen Synonym-Transformer zu verwenden.

Term2DocumentBoost Transformer PluginPermanenter Link zu dieser Überschrift

Das Term2DocumentBoost Plugin ermöglicht Relevance Tuning auf Suchanfragen. Sie können folgende Anwendungsfälle umsetzen:

  1. Für gewisse Suchanfragen die Relevanz gewisser Dokumente erhöhen. z.B. kann eine Suche nach „hilfe“ so zugeschnitten werden, damit Dokumente mit z.B. dem Schlüsselwort „Dokumentation“ bei dieser Suche eine höhere Relevanz bekommen.
  2. Allgemein die Relevanz gewisser Dokumente erhöhen. z.B. können alle Dokumente mit dem Schlüsselwort „Mindbreeze“ eine höhere Relevanz bekommen.
  3. Die Relevanz für übereinstimmende Metadaten erhöhen. z.B. wenn nach einer beliebigen Person (Suchbegriff: „Max Mustermann“) gesucht wird, können Dokumente von dieser Person (Metadatum: „Author“) eine höhere Relevanz bekommen
  4. Allgemein das gesamte Relevanzmodell beeinflussen. z.B ändern Sie den Relevanz Faktor „Term Frequency“, um die Priorität der Häufigkeit der Suchtreffer im Dokument zu verändern.

InstallationPermanenter Link zu dieser Überschrift

  • Installieren Sie das Plugin mit der Manager UI
  • Aktivieren Sie das Plugin für jeden gewünschten Index mithilfe der Manager UI:
    • Wechseln Sie zum Reiter „Indices“ und aktivieren Sie „Advanced Settings
    • Scrollen Sie runter zum Abschnitt „Query Transformation Services
    • Wählen Sie das “ Term2DocumentBoost ” Plugin und klicken Sie auf „Add“
  • Das Plugin wird über 2 Dateien konfiguriert. Das
    • Term to Document Boost CSV File” wird benötigt für die Anwendungsfälle 1,2, und 3.
    • Default Relevance Options JSON File“ wird benötigt für den Anwendungsfall 4.
  • Konfigurieren Sie die Einstellungen
  • Term to Document Boost CSV File Path
  • Pfad der CSV-Datei
  • Default Relevance Options JSON File Path
  • Pfad der JSON-Datei

Speichern Sie schließlich die Änderungen und starten Sie die Mindbreeze Node neu, damit die Änderungen wirksam werden.

KonfigurationPermanenter Link zu dieser Überschrift

Allgemeine Beschreibung des Term to Document Boost CSV-DateiformatsPermanenter Link zu dieser Überschrift

Die CSV-Datei beinhaltet eine Zeile für jedes Boosting, die wiederum folgenden Spalten enthält:

  • Term: der Suchbegriff
  • Metadata Key: der Name der Metadaten-Property, auf die das Boosting angewendet werden soll
  • Pattern: ein Pattern, das den Wert bestimmt, der geboostet werden soll
  • Boost: der Boost-Faktor
  • Query: Optional. Erweiterte Konfiguration. Siehe Abschnitt Konfiguration via Query

Als Property können hier nur DocumentInfo Metataten (also jene die entweder aggregierbar oder regexmatchable sind) verwendet werden. Eine Liste dieser Properties ist im Designer unter „Filter“ verfügbar.

Wenn mehrere Regeln gleichzeitig übereinstimmen, wird die Regel mit dem größten Boost-Faktor verwendet. Dieses Verhalten könnte sich aber in zukünftigen Versionen ändern.

Anmerkung: Jede Änderung in der CSV-Datei wird sofort angewendet und wird in der nächsten Suche berücksichtigt.

Sie können die CSV-Datei im Management-Center unter dem Menüpunkt „Search Experience“ Unterpunkt „Query Boostings“ bequem editieren.

Anwendungsfall: Für gewisse Suchanfragen die Relevanz gewisser Dokumente erhöhenPermanenter Link zu dieser Überschrift

Beispiel der CSV-Datei:

Term;Metadata Key;Pattern;Boost

help;title;portal help|intranet help;5

Wenn ein Benutzer nach help sucht, werden Dokumente, die im Titel die Begriffe portal help oder intranet help enthalten, mit dem Faktor 5 geboostet.

Anwendungsfall: Allgemein die Relevanz gewisser Dokumente erhöhenPermanenter Link zu dieser Überschrift

Term;Metadata Key;Pattern;Boost

;extension;.*pdf;10

Lassen Sie die Spalte “Term” leer. Das Dokument wird ohne Rücksicht auf die Suchanfrage des Benutzers geboostet. Z.B. kann jedes Dokument mit der Erweiterung „pdf“ hoch- bzw. runter-geboostet werden.

Einführung in das Mindbreeze RelevanzmodellPermanenter Link zu dieser Überschrift

Das Mindbreeze Relevanzmodell berechnet für jedes Resultat einen sogenannten Relevanzcount (rank). Dieser ist auch als Metadatum im Mindbreeze Export ersichtlich:

Dieser Relevancecount berechnet sich auf folgenden Parametern. Umso höher der Count umso wichtiger ist das Resultat.

Recency

Umso aktueller ein Resultat ist umso höher wird der Relevancecount

Term Frequency

Umso öfter der gesuchte Term im aktuellen Treffer matched umso höher wird der Relevanzcount.

Term Proximity

Ist der Abstand zwischen den vorkommenden Matches im aktuellen Resultat geringer als in einem anderen so ist dieses wichtiger.

Term Inverse Zone Frequency

Wen 2 Dokumente die gleiche Anzahl an Matches vorweist jedoch in einem Dokument viele mehr andere Begriffe vorkommen als im anderen. So bekommt das Dokument mit der geringeren Anzahl an anderen Begriffen einen höheren Rang.

Bekannte Missverständnisse FehlerinterpretationenPermanenter Link zu dieser Überschrift

Wichtig dabei anzumerken ist, dass Boosting den Relevanzcount nicht ersetzte, sondern ihn nur Multiplikativ erhöht. Ist der Relevanzcount eines Dokumentes 20 und es wird mit Faktor 2 geboostet, ist die Relevanz nachher 40. Dies kann zu folgenden Phänomen führen. Sie möchten Resultat 2 auf Stelle 1 haben:

Resultat 1: Rank=2000

Resultat 2: Rank=20

Boostern sie Resultat 2 dann mit 10 wird es immer noch genauso an Stelle 2 sein als vor dem Boosting:

Resultat 1: Rank=2000

Resultat 2: Rank=200

Sie müssen daher Resultat 2 beispielsweise um Faktor 101 Boosten um es an erster Stelle zu bekommen

Resultat 2: Rank=20020

Resultat 1: Rank=2000

Anwendungsfall: Die Relevanz für Übereinstimmende Metadaten erhöhen / Erweiterte Konfiguration mit QueryPermanenter Link zu dieser Überschrift

Um mehr Flexibilität über das Boosting zu haben, können Sie alternativ eine weitere Spalte „Query“ hinzufügen. Hier können Sie direkt mit der Mindbreeze InSpire Query Language eine Query angeben, welche die zu boostenden Dokumente bestimmt.

Hinweis: Wenn Sie die Spalte „Query“ verwenden, werden die Spalten „Metadata Key“ und „Pattern“ ignoriert.

Beispiel einer CSV-Datei:

Term;Metadata Key;Pattern;Boost;Query

help;;;3;"datasource/mes:key:""http://myweb.com/help-index.html"""

Wenn ein Benutzer nach help sucht, werden Dokumente, welche mit der Query datasource/mes:key:"http://myweb.com/help-index.html" gefunden werden, mit dem Faktor 3 geboostet. Bitte beachten Sie die korrekte Behandlung der Sonderzeichen.

Sie können auch den Platzhalter {{query}} in der Query verwenden. Dieser Platzhalter wird dynamisch bei einer Suche durch die Such-Query ersetzt.

Hinweis: wenn Sie {{query}} verwenden, wird auch die Spalte Term ignoriert.

Term;Metadata Key;Pattern;Boost;Query

;;;7;"Author:""{{query}}"""

Ist der gesuchte Begriff exakt ein Autorname, werden diese Dokumente mit Faktor 7 geboostet. Z.B. sucht ein Benutzer nach z.B. dem Begriff Max Mustermann, werden Dokumente, welche mit der Query Author:"Max Mustermann" gefunden werden, mit dem Faktor 7 geboostet.

Anwendungsfall: Allgemeine Beeinflussung des RelevanzmodellsPermanenter Link zu dieser Überschrift

Sie können allgemein sämtliche Parameter des Relevanzmodells anpassen. Dies geschieht über die Default Relevance Options JSON Datei.

Es wird nicht empfohlen diese JSON-Datei manuell zu editieren. Stattdessen gibt es im  Management Center unter dem Menüpunkt „Search Experience“ den Punkt „Relevance“.

Hinweis: Diese Parameter sind fundamentaler Bestandteil des Relevanzmodells, geringe Änderungen können große Auswirkungen auf die Reihenfolge der Suchergebnisse haben. Es ist möglich, dass die Boosting-Faktoren im CSV nachträglich angepasst werden müssen.

In den folgenden Abschnitten wird beschrieben, welche Parameter angepasst werden können.

Für weitere Informationen siehe:

  • Handbuch Konfiguration Mindbreeze InSpire, Registerkarte Indices
  • Handbuch api.v2.search Schnittstellenbeschreibung

Relevance Factors (Term Frequency, Document Frequency)Permanenter Link zu dieser Überschrift

  • Mit den einzelnen Eingaben kann festgelegt werden, welchen Einfluss die Relevanzparameter auf die Relevanzbewertung haben. Der relative Anteil der einzelnen Faktoren ist der prozentuelle Anteil dieses Parameters.

Serial

Der Einfluss der Aktualität (Dokumentdatum mes:date) auf die Relevanz. Als „aktuell“ werden Dokumente der letzten 2 Jahre (25 Monate) gewertet.  Alles was älter als 2 Jahre ist, wird generell als nicht aktuell behandelt.

Term Frequency

Absolute Häufigkeit der Wörter

Doc Frequency

Relative Häufigkeit der Wörter im Dokument – TF-IDF

Term Proximity

Abstand der getroffenen Begriffe zueinander im Text

Term Inverse Zone Frequency

Maximale relative Häufigkeit der Wörter in einzelnen Zonen – max TF-IZF

Zone Boost Exponent

Einfluss des Dokumenteigenschafts-Boosting auf die Relevanzbewertung (0 bedeutet wird ignoriert)

Term Boost Exponent

Einfluss des Suchbegriffs-Boosting auf die Relevanzbewertung (0 bedeutet wird ignoriert)

Doc Boost Exponent

Einfluss der mes:boost Eigenschaft auf die Relevanzbewertung (0 bedeutet wird ignoriert)

Term Match Exponent

Einfluss der Übereinstimmung von Terms (interessant bei Veroderung) mes:boost Eigenschaft auf die Relevanzbewertung (0 bedeutet wird ignoriert)

Constant

Wenn insbesondere ausschließlich Term Boosting / Document Boosting / Zone Boosting verwendet wird und man nicht z. B. auf die restlichen Komponenten (z.B. Term Proximity, Serial) zurückgreifen möchte

Term Boost IDF Exponent

IDF = Inverse Document Frequency. Die Häufigkeit des Vorkommens eines Begriffs in vielen Dokumenten soll eine Auswirkung auf die Berechnung des Term Boosts haben. Hoher Exponent heißt: seltene Wörter werden stärker gewichtet. Niedriger Exponent heißt: häufige Wörter werden schwächer gewichtet. 0 bedeutet, dass diese Option ignoriert wird.

Zone Boostings (Boosting von Metadaten)Permanenter Link zu dieser Überschrift

Zone Boosting ist eine weitere Variante, um die Reihenfolge der Suchergebnisse verändern zu können. Dabei können für sogenannte „Zonen“ Boost-Faktoren konfiguriert werden.  Eine Zone ist nichts Anderes wie ein Metadatum eines Dokuments. Möchte man also, dass Dokumente, die aufgrund eines gewissen Metadatums gefunden werden, in den Suchresultaten weiter nach oben gereiht werden, kann für dieses Metadatum (=Zone) ein Boost-Factor definiert werden. Im obigen Beispiel werden Dokumente, die Aufgrund des Metadatums „Author“ gefunden werden, um den Faktor 1,05 relevanter eingestuft. Gültige Werte des Boost Factors sind reelle Zahlen größer oder gleich eins mit Dezimaltrennzeichen „.“ (≥ 1.0).

Document Boosting (Alternative zu Term to Document Boost CSV)Permanenter Link zu dieser Überschrift

Mithilfe von “Document Boosting” kann die Relevanz von bestimmten Dokumenten auch verändert werden. Die Relevanz von Dokumenten, die aufgrund eine Suchanfrage gefunden werden, kann für alle Dokumente um den “Boost Factor” verändert werden, die mit der “Query Expr” übereinstimmen. Im obigen Beispiel werden gefundene Dokumente, die vom Autor “Legend User” stammen, um den Faktor 1,1 relevanter eingestuft.

Gültige Werte des Boost Factors sind:

  • Für Verminderung der Gewichtung: reelle Zahlen größer als null und kleiner als eins (> 0.0 ∧ < 1.0) mit Dezimaltrennzeichen „.“
  • Für Erhöhung der Gewichtung: reelle Zahlen größer als eins (> 1) mit Dezimaltrennzeichen „.“
  • Der Boost Factor 1 hat keine Auswirkung
Term Boosting (Term and NGram Boosts)Permanenter Link zu dieser Überschrift

Term Boost Factor

Boost-Faktor für exakte Matches (1.0)

Ngram Boost Factor

Boost-Faktor für Teilwort-Matches (1.0). Diese Option ist nur relevant, wenn im Management-Center unter „Configuration” -> „Client Services” -> „Enable Character NGRAMs” („Advanced Settings” müssen aktiv sein) aktiviert ist. Standardmäßig ist diese Option bereits aktiviert.

Congruence Boost Factor

Boost Faktor für Character-Kongruenz (z.B. „a“ vs. „ä“). Diese Option ist nur relevant, wenn im Management-Center unter „Configuration” -> „Client Services” -> „Query Expansion for Diacritic Term Variants” (“Advanced Settings” müssen aktiv sein) aktiviert ist. Standardmäßig ist diese Option bereits aktiviert.

Distance Boost Reduction

Boost Abnahme je Änderung = Edit-Distance (z. B. „Mindbreze” vs „Mindbreeze”). Diese Option ist nur relevant, wenn im Management-Center unter „Configuration” -> „Client Services” -> „Enable Query Expansion for Similar Term” (“Advanced Settings” müssen aktiv sein) aktiviert ist. Standardmäßig ist diese Option jedoch deaktiviert.

MetadataQueryTransformer PluginPermanenter Link zu dieser Überschrift

(ehemals „MetadataTransformer“ Plugin) Diese Plugin manipuliert Suchanfragen für Suchen nach Metadaten. Es wird eingesetzt für Benutzer die mit Doppelpunkt-Notation suchen (z.B. name:John), aber damit nicht das Metadatum „name“ meinen. Das Plugin wird mit einer CSV-Datei bestehend aus Regeln konfiguriert.

InstallationPermanenter Link zu dieser Überschrift

  • Installieren Sie das Plugin mit der Manager UI
  • Aktivieren Sie das Plugin für jeden gewünschten Index mithilfe der Manager UI:
    • Wechseln Sie zum Reiter „Indices“ und aktivieren Sie „Advanced Settings
    • Scrollen Sie runter zum Abschnitt „Query Transformation Services
    • Wählen Sie das „MetadataQueryTransformer ” Plugin und klicken Sie auf „Add“

KonfigurationPermanenter Link zu dieser Überschrift

Folgende Parameter können konfiguriert werden:

Path to Label transformation CSV

Pfad zur CSV-Datei (siehe nächster Abschnitt)

Asterik Expansion Vocabulary File

Pfad zur Vokabular-Datei (siehe nächster Abschnitt)

Asterik Expansion Max Results

Maximale Anzahl von Wörtern, die das Stern-Symbol expandiert

Label Transformation CSV SyntaxPermanenter Link zu dieser Überschrift

Diese Datei beinhaltet die Transformationsregeln. Eine Regel pro Zeile. 2 oder mehr Spalten ohne Spaltenbeschriftung. Bedeutung der Spalten:

Label

Name des Labels in der Suchanfrage, für den diese Regel gilt. Hier kann auch das Sternsymbol (*) für beliebige Namen verwendet werden.

Regeltyp

„PHRASE”, „NEAR”, „IGNORE”, „REGEX_PATTERN” oder „ASTERISK_PATTERN”

Optionen

Je nach Regeltyp

Grundsätzlich wird direkt im Metadatum gesucht und alternativ eine alternative Suchbedingung hinzugefügt.

Hinweis: Für die Typen REGEX_PATTERN oder ASTERISK_PATTERN sollte die durchsuchte Eigenschaft regexmatchable oder aggregatable sein. Dies kann im Category Descriptor oder in der Index Konfiguration definiert werden.

„PHRASE“

Erzeugt eine Phrasen-Suche (normale Suche).

z.B: Regel name;PHRASE , Suche nach name:John findet Dokumente mit name John im Inhalt

„NEAR“

Erzeugt eine Near-Suche, der Abstand ist über eine Option definierbar.

z.B. Regel temperature;NEAR;3 , Suche nach temperature:20 findet Dokumente mit the temperature is about 20 degrees im Inhalt

„IGNORE“

Erzeugt eine Neutrale Suche, die selbst keine Ergebnisse liefert.

z.B. Regel operation:IGNORE

Diese Regel erlaubt es ein selektives Ausnehmen von Transformationen, wenn zuvor mittels * eine Standard-Transformation eingeführt wurde.

„ASTERISK_PATTERN”

Transformiert eine Metadatensuche in eine Asterisk-Pattern Suche, Synonyme sind über Optionen definierbar.

z.B. Regel number;ASTERISK_PATTERN;id;nb , Suche nach number:A42*“ findet Dokumente, dessen Eigenschaft „id“ oder „nb“ mit A42 beginnt.

„REGEX_PATTERN”

Erzeugt eine Regex-Pattern Suche, Synonyme sind über Optionen definierbar

z.B. Regel number;REGEX_PATTERN;id;nb , Suche nach „number:A.*“ findet Dokumente, dessen Eigenschaft „id“ oder „nb“ mit dem regulären Ausdruck A.* übereinstimmt.

Vocabulary File SyntaxPermanenter Link zu dieser Überschrift

Unabhängig von der Label Transformation, bietet das Plugin auch die Fähigkeit normale Suchbegriffe, die Sternsymbole (*) enthalten zu transformieren. Dabei werden diese Suchbegriffe durch ähnliche Begriffe aus einem definierten Vokabular ersetzt.

Das „Vocabulary File“ ist eine Textdatei mit Begriffen, ein Begriff pro Zeile.

Zum Beispiel bei einem Vocabulary File mit folgenden Inhalt:

superprint

printomatic

fastprint

wird bei einer Suche nach „*print“ nach Folgenden Begriffen gesucht: „superprint“ und „fastprint“.

DotExtensionToLabeledTransformer PluginPermanenter Link zu dieser Überschrift

Dieses Plugin erleichtert das Suchen nach einer Dateiendung. Suchanfragen in der Form .pdf werden in die Form extension:pdf umgewandelt.

Beispiel: Eine Suche nach dem Begriff „Invoice“ und der Dateiendung „pdf“ sieht normalerweise so aus:

„extension:pdf Invoice“

Mit diesem Plugin lässt sich die Suche vereinfachen auf

„.pdf Invoice“

InstallationPermanenter Link zu dieser Überschrift

  • Installieren Sie das Plugin mit der Manager UI
  • Aktivieren Sie das Plugin für jeden gewünschten Index mithilfe der Manager UI:
    • Wechseln Sie zum Reiter „Indices“ und aktivieren Sie „Advanced Settings
    • Scrollen Sie runter zum Abschnitt „Query Transformation Services
    • Wählen Sie das “ DotExtensionToLabeledTransformer” Plugin und klicken Sie auf „Add“
  • Speichern Sie schließlich die Änderungen und starten Sie die Mindbreeze Node neu, damit die Änderungen wirksam werden.

KonfigurationPermanenter Link zu dieser Überschrift

Dieses Plugin benötigt keine Konfiguration.

QueryExprLabelTranslation PluginPermanenter Link zu dieser Überschrift

Das Plugin ermöglicht es nach Metadaten in der Originalsprache zu suchen. Beispielsweise ist das Metadatum mit der ID „title“ im Deutschen übersetzt als „Name“. Will man nach Dokumenten mit dem Namen „Rechung“ suchen, muss man ohne diesem Plugin folgende Suchanfrage stellen. „title:Rechnung“ um die gewünschten Ergebnisse zu erhalten. Mit dem QueryExprLabelTranslation Plugin kann nun auch eine Suchanfrage in der Originalsprache gestellt werden: „Name:Rechnung“. Das verwendete Label „Name“ wird vom Plugin zurückübersetzt auf „title“ und die Suchanfrage liefert wieder die gewünschten Ergebnisse.

InstallationPermanenter Link zu dieser Überschrift

Das QueryExprLabelTranslation Plugin ist bereits eingebaut (built-in) und erfordert keine Installation.

KonfigurationPermanenter Link zu dieser Überschrift

Das QueryExprLabelTranslation Plugin ist standardmäßig für jeden Index aktiv und erfordert keine Konfiguration. Die Übersetzungen werden aus dem CategoryDescriptor von den metadatum-Tags geladen.

Zusätzliche FeaturesPermanenter Link zu dieser Überschrift

Did you mean? (Meinten Sie?)Permanenter Link zu dieser Überschrift

Wenn Sie keine Resultate finden oder das Wort in der Suche nur falsch geschrieben haben, bietet Mindbreeze einen alternativen Suchbegriff an (basierend auf interne Indexstatistiken und –analysen), die bessere Ergebnisse finden würden. Diese Feature heißt „Did you mean?“.

Entity Recognition (Namenserkennung)Permanenter Link zu dieser Überschrift

Entity Recognition kann verwendet werden, um Metadaten vom Dokumenteninhalt oder von anderen Metadateneigenschaften des Dokuments zu extrahieren, damit diese später für effizientere Suchen verwendet werden können.

Dieses Thema wird in der Dokumentation – Mindbreeze Inspire im Detail beschrieben. Für Details lesen Sie bitte das Kapitel Registerkarte „Indices“ in der Dokumentation.

CSV TransformationPermanenter Link zu dieser Überschrift

Um indizierte Dokumente mit zusätzlichen Metadaten für einfacheres Finden von Ergebnissen zu erweitern, erlaubt die CSV Transformation das Abbilden von klar definierten Werten auf andere Werte, die in der CSV-Datei gespeichert sind.

Dieses Feature kann sehr hilfreich sein, um Ihren Index mit technischen Begriffen, Abkürzungen, Themen oder sogar kurzen Beschreibungen zu Ihren Dokumenten in speziellen Fällen zu erweitern.

Beispiel: Postleitzahlverzeichnis

ZIP;City;Province

4020;Linz;Oberösterreichischer Zentralraum
1020;Wien;Hauptstadt von Österreich
9861;Krems;Waldviertel
4400;Steyr;Traunviertel

Die erste Zeile dieser Beispiel-CSV-Datei beinhaltet die Spaltennamen, um die Daten darauf abzubilden. Die anderen Zeilen beinhalten die Werte für jede Spalte. Wenn Sie also nach dem Begriff “viertel” suchen, werden Sie als Suchresultat die beiden Städte Steyr und Krems finden.

Ein anderes Beispiel wäre das Abbilden von technischen Produktdaten der Artikel Ihrer Website in einer CSV-Datei. Das Abbilden dieser Daten könnte realisiert werden, indem die Produkt-IDs von den Artikeln Ihrer Website extrahiert und verwendet werden, wobei die CSV-Datei dann eine Menge an Spalten enthält, die ein Produkt beschreiben kann (Produkt-ID, Kategorie, Preis, Größe, etc.).

KonfigurationPermanenter Link zu dieser Überschrift

Alle diese Features sind Teile des Mindbreeze Basisprodukts, bei denen Sie keine zusätzlichen Plugins benötigen, jedoch müssen Sie die Features folgendermaßen konfigurieren:

  • Wechseln Sie zum Reiter „Indices“ und aktivieren Sie „Advanced Settings“.
  • Scrollen Sie runter zum Abschnitt „CSV Transformationen“
  • Spezifizieren Sie den Pfad zur CSV-Datei, die die Mappings beinhaltet (entweder als Pfad im lokalen Dateisystem oder als Netzwerkpfad, der für das verwendete Betriebssystem angemessen ist.
  • Beispiel 1:  CSV File PathC:\data\csv-mappings.csv
  • Beispiel 2:  CSV File Path\\fileserver.x.y\config\csv-mappings.csv

Für jede Metadateneigenschaft (Property, in den Spalten), die Sie von der CSV-Datei extrahieren wollen, müssen Sie eine neue Metadatendefinition (in “Add Metadata Definitions”) mit den folgenden Property-Settings hinzufügen:

  • If Expression Matches:{{ZIP}}… dies ist der Name der Spalte in der CSV-Datei, der als Schlüssel dienen soll, um Dokumente darauf abzubilden.
  • In Property:customer_zipcode … dies ist die Metadaten-Property des indizierten Dokuments, die mit dem angegebenen Wert in „If Expression Matchesverglichen wird (hier könnte z. B. auch mes:key oder eine andere Property verwendet werden).
  • Name:City… dies ist der Name der gewünschten neuen Property in den Metadaten. Dieser wird beim Suchen verfügbar sein und wenn im categoryDescriptor gelistet, wird dieser auch in den Suchresultaten sichtbar sein.
  • Value:{{City}}… die ist der Name der gewünschten Zielspalte in der CSV-Datei (Überschrift der Spalte, die extrahiert werden soll).