Нечеткий поиск текстовой информации это поиск строк похожих или близких к поисковому запросу.
При этом степень нечеткости или похожести строк наиболее часто оценивается с помощью дистанции редактирования (расстояния Левенштейна). А редакционное расстояние двух строк представляет собой минимальное число операций замены, вставки и удаления символа необходимое для преобразования одной строки в другую. В качестве допустимой операции редактирования также может рассматриваться перестановка двух соседних символов (расстояние Дамерау-Левенштейна).
В качестве примера нечеткого поиска в PDF при заданной величине нечеткости в 2 редактирования можно привести поисковый запрос "trees" и результат поиска "these". Здесь заменен символ "r" на "h" и переставлены местами символы "e" и "s". То есть расстояние Дамерау-Левенштейна для двух данных слов равно 2 в этом примере нечеткого поиска в PDF.
Наиболее часто для реализации нечеткого поиска используются методы:
В данном приложении для поиска нечеткого соответствия слов в PDF нужно указать требуемое число ошибок (величину нечеткости) от 1 до 9 символов. Также можно задать опцию для поиска слов только с минимальным числом различий или же поиска всех слов в пределах заданного числа различий.
Библиотека GroupDocs.Search имеет множество других настроек нечеткого сопоставления. Например, можно задать число различий между словами коэффициентом линейной функции от длины слова или даже задать число ошибок индивидуально для каждого значения длины слова.
Вы также можете выполнять нечеткий поиск во многих других форматах файлов. Пожалуйста, ознакомьтесь с полным списком ниже.