Die Fuzzy-Suche nach Textinformationen ist die Suche nach Zeichenfolgen, die der Suchabfrage ähnlich oder nahe kommen.
Gleichzeitig wird der Grad der Unschärfe oder Ähnlichkeit von Textstrings am häufigsten anhand des Bearbeitungsabstands (Levenshtein-Abstand) beurteilt. Und der Bearbeitungsabstand von zwei Zeichenfolgen ist die Mindestanzahl von Zeichenersetzungs-, Einfüge- und Löschvorgängen, die erforderlich sind, um eine Zeichenfolge in eine andere zu transformieren. Eine Transposition zweier benachbarter Zeichen kann auch als gültiger Bearbeitungsvorgang betrachtet werden (Damerau-Levenshtein-Distanz).
Eine unscharfe Suche in PDF Beispiel für einen gegebenen Fuzziness-Wert von 2 Bearbeitungen ist die Suchabfrage "trees" und das Suchergebnis "this". Hier wird das Zeichen "r" durch "h" ersetzt und die Zeichen "e" und "s" transponiert. Das heißt, der Damerau-Levenshtein-Abstand für diese beiden Wörter ist 2 in dieser unscharfen Suche im PDF Beispiel.
Die folgenden Methoden werden am häufigsten verwendet, um die Fuzzy-Suche zu implementieren:
Um in dieser Anwendung eine unscharfe Übereinstimmung der Wörter in PDF zu erhalten, müssen Sie die erforderliche Anzahl von Fehlern (Fuzziness-Wert) von 1 bis 9 Zeichen angeben. Sie können auch die Option festlegen, nach Wörtern mit nur einer minimalen Anzahl von Unterschieden zu suchen oder nach allen Wörtern innerhalb einer bestimmten Anzahl von Unterschieden zu suchen.
Die GroupDocs.Search-Bibliothek verfügt über viele weitere Fuzzy-Matching-Optionen. Sie können beispielsweise die Anzahl der Unterschiede zwischen Wörtern als lineare Funktion der Wortlänge festlegen oder sogar die Anzahl der Unterschiede für jeden Wert der Wortlänge einzeln festlegen.
Sie können auch eine Fuzzy-Suche in vielen anderen Dateiformaten durchführen. Bitte beachten Sie die vollständige Liste unten.