La recherche floue d’informations textuelles est la recherche de chaînes similaires ou proches de la requête de recherche.
Dans le même temps, le degré de flou ou de similitude des chaînes de texte est le plus souvent évalué à l’aide de la distance d’édition (distance de Levenshtein). Et la distance d’édition de deux chaînes est le nombre minimum d’opérations de substitution, d’insertion et de suppression de caractères nécessaires pour transformer une chaîne en une autre. Une transposition de deux caractères adjacents peut également être considérée comme une opération d’édition valide (distance Damerau-Levenshtein).
Une recherche floue dans PDF exemple pour une valeur de flou donnée de 2 modifications est la requête de recherche « arbres » et le résultat de la recherche « ceux-ci ». Ici, le caractère « r » est remplacé par « h » et les caractères « e » et « s » sont transposés. C’est-à-dire que la distance de Damerau-Levenshtein pour ces deux mots est 2 dans cette recherche floue dans l’exemple PDF.
Les méthodes suivantes sont le plus souvent utilisées pour implémenter la recherche floue :
Dans cette application, pour obtenir une correspondance floue de mots dans PDF, vous devez spécifier le nombre requis d’erreurs (valeur de flou) de 1 à 9 caractères. Vous pouvez également définir l’option pour rechercher des mots avec seulement un nombre minimum de différences, ou pour rechercher tous les mots dans un nombre donné de différences.
La bibliothèque GroupDocs.Search dispose de nombreuses autres options de correspondance floue. Par exemple, vous pouvez définir le nombre de différences entre les mots en fonction linéaire de la longueur des mots, ou même définir le nombre de différences individuellement pour chaque valeur de longueur de mot.
Vous pouvez également effectuer une recherche floue dans de nombreux autres formats de fichiers. Veuillez consulter la liste complète ci-dessous.