Die Fuzzy-Suche nach Textinformationen ist die Suche nach Zeichenfolgen, die der Suchabfrage ähnlich oder nahe kommen.
Gleichzeitig wird der Grad der Unschärfe oder Ähnlichkeit von Textstrings am häufigsten anhand des Bearbeitungsabstands (Levenshtein-Abstand) beurteilt. Und der Bearbeitungsabstand von zwei Zeichenfolgen ist die Mindestanzahl von Zeichenersetzungs-, Einfüge- und Löschvorgängen, die erforderlich sind, um eine Zeichenfolge in eine andere zu transformieren. Eine Transposition zweier benachbarter Zeichen kann auch als gültiger Bearbeitungsvorgang betrachtet werden (Damerau-Levenshtein-Distanz).
Ein Fuzzy-Suchbeispiel für einen gegebenen Fuzziness-Wert von 2 Bearbeitungen ist die Suchanfrage "trees" und das Suchergebnis "this". Hier wird das Zeichen "r" durch "h" ersetzt und die Zeichen "e" und "s" transponiert. Das heißt, der Damerau-Levenshtein-Abstand für diese beiden Wörter ist 2 in diesem unscharfen Suchbeispiel.
Die folgenden Methoden werden am häufigsten verwendet, um die Fuzzy-Suche zu implementieren:
Um in dieser Anwendung eine unscharfe Übereinstimmung der Wörter in einem Dokument zu erhalten, müssen Sie die erforderliche Anzahl von Fehlern (Fuzziness-Wert) von 1 bis 9 Zeichen angeben. Sie können auch die Option festlegen, nach Wörtern mit nur einer minimalen Anzahl von Unterschieden zu suchen oder nach allen Wörtern innerhalb einer bestimmten Anzahl von Unterschieden zu suchen.
Die GroupDocs.Search-Bibliothek verfügt über viele weitere Fuzzy-Matching-Optionen. Sie können beispielsweise die Anzahl der Unterschiede zwischen Wörtern als lineare Funktion der Wortlänge festlegen oder sogar die Anzahl der Unterschiede für jeden Wert der Wortlänge einzeln festlegen.
Sie können eine Fuzzy-Suche in vielen Dateiformaten durchführen. Bitte beachten Sie die vollständige Liste unten.