La cerca difusa d'informació textual és la cerca de cadenes semblants o properes a la consulta de cerca.
Al mateix temps, el grau de confusió o similitud de les cadenes de text s'avalua amb més freqüència mitjançant la distància d'edició (distància de Levenshtein). I la distància d'edició de dues cadenes és el nombre mínim d'operacions de substitució, inserció i supressió de caràcters necessàries per transformar una cadena en una altra. Una transposició de dos caràcters adjacents també es pot considerar com una operació d'edició vàlida (distància Damerau-Levenshtein).
Una cerca difusa a l'exemple DOCX per a un valor de confusió determinat de 2 edicions és la consulta de cerca "arbres" i el resultat de la cerca "aquests". Aquí el caràcter "r" es substitueix per "h" i es transposen els caràcters "e" i "s". És a dir, la distància Damerau-Levenshtein d'aquestes dues paraules és 2 en aquesta cerca difusa de l'exemple DOCX.
Els mètodes següents s'utilitzen més sovint per implementar la cerca difusa:
En aquesta aplicació, per obtenir una concordança difusa de paraules a DOCX, heu d'especificar el nombre d'errors necessari (valor de borrositat) d'1 a 9 caràcters. També podeu configurar l'opció de cercar paraules amb només un nombre mínim de diferències o de cercar totes les paraules dins d'un nombre determinat de diferències.
La biblioteca GroupDocs.Search té moltes altres opcions de concordança difuses. Per exemple, podeu establir el nombre de diferències entre paraules com a funció lineal de la longitud de la paraula, o fins i tot establir el nombre de diferències individualment per a cada valor de longitud de paraula.
També podeu realitzar una cerca difusa en molts altres formats de fitxer. Si us plau, consulteu la llista completa a continuació.