La ricerca fuzzy di informazioni testuali è la ricerca di stringhe simili o vicine alla query di ricerca.
Allo stesso tempo, il grado di sfocatura o somiglianza delle stringhe di testo viene spesso valutato utilizzando la distanza di modifica (distanza levenshtein). E la distanza di modifica di due stringhe è il numero minimo di operazioni di sostituzione, inserimento ed eliminazione dei caratteri necessarie per trasformare una stringa in un'altra. Una trasposizione di due caratteri adiacenti può anche essere considerata come una valida operazione di editing (distanza Damerau-Levenshtein).
Un esempio di ricerca fuzzy per un dato valore fuzziness di 2 modifiche è la query di ricerca "alberi" e il risultato della ricerca "questi". Qui il carattere "r" viene sostituito da "h" e i caratteri "e" e "s" vengono trasposti. Cioè, la distanza Damerau-Levenshtein per queste due parole è 2 in questo esempio di ricerca sfocata.
I seguenti metodi sono più spesso utilizzati per implementare la ricerca fuzzy:
In questa applicazione, per ottenere una corrispondenza fuzzy di parole in un documento, è necessario specificare il numero richiesto di errori (valore fuzziness) da 1 a 9 caratteri. È inoltre possibile impostare l'opzione per cercare parole con solo un numero minimo di differenze o per cercare tutte le parole all'interno di un determinato numero di differenze.
La libreria GroupDocs.Search ha molte altre opzioni di corrispondenza fuzzy. Ad esempio, è possibile impostare il numero di differenze tra le parole come funzione lineare della lunghezza della parola o anche impostare il numero di differenze singolarmente per ogni valore della lunghezza della parola.
È possibile eseguire ricerche fuzzy in molti formati di file. Si prega di consultare l'elenco completo di seguito.