Tekstitiedon sumea haku tarkoittaa hakulauseketta vastaavien tai sitä lähellä olevien merkkijonojen hakua.
Samanaikaisesti tekstijonojen sumeuden tai samankaltaisuuden astetta arvioidaan useimmiten muokkausetäisyydellä (Levenshtein-etäisyys). Ja kahden merkkijonon muokkausetäisyys on merkkijonojen vaihto-, lisäys- ja poistotoimintojen vähimmäismäärä, joka tarvitaan merkkijonon muuntamiseen toiseksi. Kahden vierekkäisen merkin transponointia voidaan pitää myös kelvollisena muokkaustoimenpiteenä (Damerau-Levenshtein-etäisyys).
Sumea haku esimerkissä DOCX annetulle 2 muokkauksen sumeusarvolle on hakulauseke "puut" ja hakutulos "nämä". Tässä merkki "r" korvataan kirjaimella "h" ja merkit "e" ja "s" transponoidaan. Toisin sanoen näiden kahden sanan Damerau-Levenshtein-etäisyys on 2 tässä sumeassa haussa DOCX-esimerkissä.
Seuraavia menetelmiä käytetään useimmiten sumean haun toteuttamiseen:
Tässä sovelluksessa, jotta voit saada sumean osuman sanan DOCX sanoista, sinun on määritettävä vaadittu virheiden määrä (sumeusarvo) 1–9 merkkiä. Voit myös asettaa vaihtoehdon etsiä sanoja, joissa on vain vähimmäismäärä eroja, tai etsiä kaikkia sanoja tietyn eroavaisuuden sisällä.
GroupDocs.Search-kirjastossa on monia muita sumeita hakuvaihtoehtoja. Voit esimerkiksi asettaa sanojen välisten erojen määrän sanan pituuden lineaarisena funktiona tai jopa asettaa erojen määrän erikseen kullekin sanan pituuden arvolle.
Voit myös suorittaa sumean haun monissa muissa tiedostomuodoissa. Katso koko luettelo alla.