חיפוש מטושטש של מידע טקסטואלי הוא החיפוש אחר מחרוזות דומות או קרובות לשאילתת החיפוש.
יחד עם זאת, מידת הערפול או הדמיון של מחרוזות טקסט מוערכת לרוב באמצעות מרחק העריכה (מרחק לבנשטין). ומרחק העריכה של שתי מחרוזות הוא המספר המינימלי של פעולות החלפת תווים, הוספה ומחיקה הנדרשות כדי להפוך מחרוזת אחת לאחרת. טרנספוזיציה של שני תווים סמוכים יכולה להיחשב גם כפעולת עריכה תקפה (מרחק דמראו-לבנשטין).
חיפוש מטושטש בדוגמה PDF עבור ערך מטושטש נתון של 2 עריכות הוא שאילתת החיפוש "עצים" ותוצאת החיפוש "אלה". כאן התו "r" מוחלף ב- "h" והתווים "e" ו- "s" מוחלפים. כלומר, המרחק דמראו-לבנשטין עבור שתי מילים אלה הוא 2 בחיפוש מעורפל זה בדוגמה PDF.
השיטות הבאות משמשות לרוב ליישום חיפוש מטושטש:
ביישום זה, כדי לקבל התאמה מטושטשת של מילים ב- PDF, עליך לציין את המספר הנדרש של טעויות (ערך מטושטש) מ- 1 עד 9 תווים. באפשרותך גם להגדיר את האפשרות לחפש מילים עם מספר מינימלי של הבדלים בלבד, או לחפש את כל המילים בתוך מספר נתון של הבדלים.
הספריה GroupDocs.Search כוללת אפשרויות התאמה מטושטשות רבות אחרות. לדוגמה, באפשרותך להגדיר את מספר ההבדלים בין מילים כפונקציה ליניארית של אורך מילה, או אפילו להגדיר את מספר ההבדלים בנפרד עבור כל ערך של אורך מילה.
באפשרותך גם לבצע חיפוש מטושטש בתבניות קובץ רבות אחרות. נא עיין ברשימה המלאה להלן.