Spracherkennung

LanguageDetector Plugin

Copyright ©

Mindbreeze GmbH, A-4020 Linz, .

Alle Rechte vorbehalten. Alle verwendeten Hard- und Softwarenamen sind Handelsnamen und/oder Marken der jeweiligen Hersteller.

Diese Unterlagen sind streng vertraulich. Durch die Übermittlung und Präsentation dieser Unterlagen alleine werden keine Rechte an unserer Software, an unseren Dienstleistungen und Dienstleistungsresultaten oder sonstigen geschützten Rechten begründet. Die Weitergabe, Veröffentlichung oder Vervielfältigung ist nicht gestattet.

Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.

EinleitungPermanenter Link zu dieser Überschrift

Mindbreeze bietet eine Spracherkennung für Dokumente. Dazu wird beim Indizieren das LanguageDetector Plugin verwendet.

ItemTransformer PluginsPermanenter Link zu dieser Überschrift

Um die Spracherkennung zu nutzen, muss das LanguageDetector zu Ihrer Mindbreeze-Installation hinzugefügt werden, indem das entsprechende Plugin geladen wird (die Item Transformation Services werden mit dem Paket “ Mindbreeze Item Transformation Plugins” ausgeliefert).

Das Plugin muss auch in Ihrer Mindbreeze Lizenz inkludiert sein.

InstallationPermanenter Link zu dieser Überschrift

  • Installieren Sie das Plugin (entweder mit der Manager UI oder mit dem Kommandozeilenwerkzeug mesextension)

mesextension --interface=plugin --type=archive --file=LanguageDetector-Text-<version>.zip install

KonfigurationPermanenter Link zu dieser Überschrift

  • Aktivieren Sie das Plugin für jeden gewünschten Index mithilfe der Manager UI:
    • Wechseln Sie zum Reiter „Indices“ und aktivieren Sie „Advanced Settings
    • Scrollen Sie runter zum Abschnitt „Item Transformation Services
    • Wählen Sie das “TextPlugin.LanguageDetector” Plugin und klicken Sie auf „Add“

  • Language Probability Threshold: Legt fest, ab welcher Wahrscheinlichkeit eine Sprache als erkannt gilt.
  • Source Property Pattern: Legt das Metadatum fest welches zur Spracherkennung herangezogen wird.
  • Language Target Property: Legt das Metadatum fest in dem das Ergebnis der Spracherkennung festgehalten wird
  • Language Property: Legt das Metadatum fest in dem die Sprache bereits angegeben ist. Dadurch wird keine Spracherkennung durchgeführt und das Metadatum Language Target Property wird direkt gesetzt.
  • Language Property Pattern: Legt alle gültigen Sprachen vom Language Property Metadatum fest. Falls Language Property einen ungültigen Wert hat wird die Spracherkennung durchgeführt und das Metadatum Language Target Property gesetzt.
  • Included Languages: Legt die Sprachen für Spracherkennung fest
  • Short Text Algorithm Text Length: Bei kurzen Texten kann die Qualität der Spracherkennung verbessert werden, wenn der „Short Text Algorithm“ verwendet wird. Diese Einstellung bestimmt die maximale Länge des Textes (in Buchstaben) für den der „Short Text Algorithm“ verwendet wird. Längere Texte werden mit dem „normalen“ Algorithmus analysiert.
  • Max Text Length (Characters): Bestimmt die maximale Länge des Textes (in Anzahl von Buchstaben), der für die Analyse verwendet wird. Aus Performanzgründen werden bei längeren Texten nur die ersten Buchstaben zur Analyse verwendet, der Rest wird übersprungen. Zur Länge des Textes zählen aufsummiert der Inhalt aller Metadaten, die mit dem Source Property Pattern gefunden werden. Standardwert: 100000
  • No Language found set Property Key und No Language found Property Value: Wenn die Spracherkennung keine Sprache ermitteln konnte, kann ein Metadatum mit einem Namen (Key) und einen Wert (Value) gesetzt werden. Dies kann nützlich sein, um Dokumente ohne erkannter Sprache explizit zu markieren.

Betrieb als eigenständiger ServicePermanenter Link zu dieser Überschrift

Das LanguageDetector Plugin kann nicht nur als Item Transformation Service genutzt werden, sondern auch als eigenständiger Service. Dies kann bei großen Installationen mit mehreren Indizes Performancevorteile bringen, da nur ein einzelner LanguageDetector Service für alle Indizes betrieben wird und nicht je Index eine Instanz.

Um das LanguageDetector Plugin als eigenständigen Service zu betreiben, installieren Sie das Plugin MetadataTransformationService-<version>.zip. Fügen Sie im „Indices“-Tab in der Sektion „Services“ einen neuen Service hinzu und wählen Sie „ItemTransformationServicePlugin.LanguageDetector“ aus. In den Einstellungen des neuen Service setzen Sie einen sprechenden „Display Name“, sowie den „Bind port“ auf einen freien TCP-Port. Die restlichen Einstellungen sind laut dem Abschnitt „Konfiguration“ zu setzen. Zuletzt wechseln Sie im „Indices“-Tab in die Sektion „Indices“ und fügen Sie bei dem betreffenden Index einen Item Transformation Service hinzu und referenzieren Sie den angelegten Service.