Tekstilise teabe uduotsing on otsingupäringuga sarnaste või sellele lähedaste stringide otsing.
Samal ajal hinnatakse tekstistringide hägususe või sarnasuse astet kõige sagedamini redigeerimiskauguse (Levenshtein distance) abil. Ja kahe stringi redigeerimiskaugus on minimaalne tähemärkide asendamise, sisestamise ja kustutamise toimingute arv, mis on vajalik ühe stringi teisendamiseks. Kahe kõrvuti asetseva märgi transponeerimist võib samuti pidada kehtivaks redigeerimistoiminguks (Damerau-Levenshteini kaugus).
Hägusotsingu näide antud hägususe väärtuse jaoks, mis koosneb kahest muudatusest, on otsingupäring "puud" ja otsingutulemus "need". Siin asendatakse märk "r" tähega "h" ja märgid "e" ja "s" on transponeeritud. See tähendab, et nende kahe sõna Damerau-Levenshteini kaugus on selles ähmase otsingu näites 2.
Hägusotsingu rakendamiseks kasutatakse kõige sagedamini järgmisi meetodeid:
Selles rakenduses peate dokumendis sõnade ähmase vaste saamiseks määrama vajaliku vigade arvu (hägususe väärtus) vahemikus 1 kuni 9 tähemärki. Samuti saate määrata võimaluse otsida sõnu, millel on minimaalne erinevus, või otsida kõiki sõnu teatud arvu erinevuste piires.
GroupDocs.Searchi teegil on palju muid hägusaid sobitamisvalikuid. Näiteks saate määrata sõnade vaheliste erinevuste arvu sõna pikkuse lineaarse funktsioonina või isegi määrata erinevuste arvu iga sõna pikkuse väärtuse jaoks eraldi.
Häguotsingut saate teha paljudes failivormingutes. Vaadake allolevat täielikku loendit.