Fuzzy zoeken naar tekstuele informatie is het zoeken naar tekenreeksen die vergelijkbaar zijn met of dicht bij de zoekopdracht liggen.
Tegelijkertijd wordt de mate van vaagheid of gelijkenis van tekstreeksen meestal beoordeeld met behulp van de bewerkingsafstand (Levenshtein-afstand). En de bewerkingsafstand van twee tekenreeksen is het minimale aantal tekenvervangings-, invoeg- en verwijderingsbewerkingen dat nodig is om de ene tekenreeks in de andere om te zetten. Een omzetting van twee aangrenzende tekens kan ook worden beschouwd als een geldige bewerking (Damerau-Levenshtein-afstand).
Een vaag zoekvoorbeeld voor een bepaalde vaagheidswaarde van 2 bewerkingen is de zoekopdracht "trees" en het zoekresultaat "deze". Hier wordt het teken "r" vervangen door "h" en worden de tekens "e" en "s" getransponeerd. Dat wil zeggen, de Damerau-Levenshtein afstand voor deze twee woorden is 2 in dit vage zoekvoorbeeld.
De volgende methoden worden meestal gebruikt om fuzzy search te implementeren:
Als u in deze toepassing een vage overeenkomst van woorden in een document wilt krijgen, moet u het vereiste aantal fouten (vaagheidswaarde) opgeven van 1 tot 9 tekens. U kunt ook de optie instellen om te zoeken naar woorden met slechts een minimum aantal verschillen of om te zoeken naar alle woorden binnen een bepaald aantal verschillen.
De GroupDocs.Search-bibliotheek heeft veel andere fuzzy matching-opties. U kunt bijvoorbeeld het aantal verschillen tussen woorden instellen als een lineaire functie van de woordlengte, of zelfs het aantal verschillen afzonderlijk instellen voor elke waarde van de woordlengte.
U kunt fuzzy zoeken uitvoeren in vele bestandsindelingen. Zie de volledige lijst hieronder.