La búsqueda difusa de información textual es la búsqueda de cadenas similares o cercanas a la consulta de búsqueda.
Al mismo tiempo, el grado de borrosidad o similitud de las cadenas de texto se evalúa con mayor frecuencia utilizando la distancia de edición (distancia de Levenshtein). Y la distancia de edición de dos cadenas es el número mínimo de operaciones de sustitución, inserción y eliminación de caracteres necesarias para transformar una cadena en otra. Una transposición de dos caracteres adyacentes también puede considerarse como una operación de edición válida (distancia Damerau-Levenshtein).
Una búsqueda difusa en el ejemplo PDF para un valor de borrosidad dado de 2 ediciones es la consulta de búsqueda "árboles" y el resultado de búsqueda "estos". Aquí el carácter "r" se reemplaza por "h" y los caracteres "e" y "s" se transponen. Es decir, la distancia Damerau-Levenshtein para estas dos palabras es 2 en esta búsqueda difusa en el ejemplo PDF.
Los siguientes métodos se utilizan con mayor frecuencia para implementar la búsqueda difusa:
En esta aplicación, para obtener una coincidencia difusa de palabras en PDF, debe especificar el número requerido de errores (valor de borrosidad) de 1 a 9 caracteres. También puede establecer la opción para buscar palabras con solo un número mínimo de diferencias, o para buscar todas las palabras dentro de un número determinado de diferencias.
La biblioteca GroupDocs.Search tiene muchas otras opciones de coincidencia difusa. Por ejemplo, puede establecer el número de diferencias entre palabras como una función lineal de la longitud de la palabra, o incluso establecer el número de diferencias individualmente para cada valor de la longitud de la palabra.
También puede realizar una búsqueda difusa en muchos otros formatos de archivo. Consulte la lista completa a continuación.