La búsqueda difusa de información textual es la búsqueda de cadenas similares o cercanas a la consulta de búsqueda.

Al mismo tiempo, el grado de borrosidad o similitud de las cadenas de texto se evalúa con mayor frecuencia utilizando la distancia de edición (distancia de Levenshtein). Y la distancia de edición de dos cadenas es el número mínimo de operaciones de sustitución, inserción y eliminación de caracteres necesarias para transformar una cadena en otra. Una transposición de dos caracteres adyacentes también puede considerarse como una operación de edición válida (distancia Damerau-Levenshtein).

Una búsqueda difusa en el ejemplo HTML para un valor de borrosidad dado de 2 ediciones es la consulta de búsqueda "árboles" y el resultado de búsqueda "estos". Aquí el carácter "r" se reemplaza por "h" y los caracteres "e" y "s" se transponen. Es decir, la distancia Damerau-Levenshtein para estas dos palabras es 2 en esta búsqueda difusa en el ejemplo HTML.

Los siguientes métodos se utilizan con mayor frecuencia para implementar la búsqueda difusa:

La aplicación web Fuzzy search en HTML se basa en la base del motor de búsqueda de texto completo GroupDocs.Search. La implementación de la coincidencia difusa en esta biblioteca tiene las mejores características de los métodos enumerados:

En esta aplicación, para obtener una coincidencia difusa de palabras en HTML, debe especificar el número requerido de errores (valor de borrosidad) de 1 a 9 caracteres. También puede establecer la opción para buscar palabras con solo un número mínimo de diferencias, o para buscar todas las palabras dentro de un número determinado de diferencias.

La biblioteca GroupDocs.Search tiene muchas otras opciones de coincidencia difusa. Por ejemplo, puede establecer el número de diferencias entre palabras como una función lineal de la longitud de la palabra, o incluso establecer el número de diferencias individualmente para cada valor de la longitud de la palabra.

Cómo encontrar una coincidencia difusa de texto en HTML

  • Haga clic dentro del área de colocación de archivos para cargar un archivo HTML o arrastre y suelte un archivo HTML.
  • Una vez completada la carga, podrá realizar la búsqueda en su archivo HTML.
  • Introduzca la consulta de búsqueda que consta de una o más palabras separadas por espacios.
  • Seleccione el tipo de búsqueda: frase, todas las palabras, cualquier palabra.
  • Establezca el número de errores permitidos en una palabra de 1 a 9; si es necesario, establezca la bandera para obtener solo los mejores resultados.
  • Obtenga resultados haciendo clic en el botón "Buscar".
  • Agregue más archivos HTML con el botón "Agregar archivos".
  • Seleccione los archivos agregados para incluirlos en el índice y realizar búsquedas.

Preguntas frecuentes

  • ¿Cómo funciona la aplicación en línea Fuzzy Search en HTML?

    La búsqueda se realiza en dos etapas. En primer lugar, los documentos se agregan a un índice. Y solo entonces se realiza la búsqueda en el índice.
  • ¿Qué pasa con la privacidad, es seguro usar la aplicación en línea Fuzzy Search en HTML?

    El acceso a su carpeta con archivos cargados e indexados solo está disponible para alguien que tenga un enlace. Todos los archivos cargados se eliminan de los servidores después de 24 horas.
  • ¿Se requiere una conexión a Internet para usar la aplicación en línea Fuzzy Search en HTML?

    Esta aplicación es cliente-servidor. Si pierde su conexión a Internet mientras usa la aplicación, no podrá obtener resultados de búsqueda.
  • ¿Puedo buscar en Linux, Mac OS Android?

    Puede buscar desde cualquier dispositivo, independientemente del sistema operativo, que tenga un navegador moderno y una conexión a Internet.

Otros formatos de archivo compatibles con la aplicación Fuzzy search

También puede realizar una búsqueda difusa en muchos otros formatos de archivo. Consulte la lista completa a continuación.

Viewer Annotation Conversion Comparison Signature Assembly Metadata Search Parser Watermark Editor Merger Redaction Classification Splitter Translation Unlock Protect Scanner