Нечіткий пошук текстової інформації - це пошук рядків, подібних або близьких до пошукового запиту.
При цьому ступінь нечіткості або схожості текстових рядків найчастіше оцінюється за допомогою відстані редагування (відстань Левенштейна). А відстань редагування двох рядків - це мінімальна кількість операцій підстановки, вставки та видалення символів, необхідних для перетворення одного рядка в інший. Транспозиція двох суміжних символів також може розглядатися як дійсна операція редагування (відстань Дамерау-Левенштейна).
Нечітким прикладом пошуку для заданого значення нечіткості 2 редагувань є пошуковий запит "дерева" і результат пошуку "ці". Тут символ "r" замінюється на "h", а символи "e" і "s" транспонуються. Тобто відстань Дамерау-Левенштейна для цих двох слів дорівнює 2 в цьому нечіткому прикладі пошуку.
Для реалізації нечіткого пошуку найчастіше використовуються такі методи:
У цій програмі, щоб отримати нечітку відповідність слів в документі, потрібно вказати необхідну кількість помилок (значення нечіткості) від 1 до 9 символів. Ви також можете встановити опцію пошуку слів лише з мінімальною кількістю відмінностей або пошуку всіх слів у межах заданої кількості відмінностей.
Бібліотека GroupDocs.Search має багато інших нечітких варіантів відповідності. Наприклад, можна встановити кількість відмінностей між словами як лінійну функцію довжини слова або навіть встановити кількість відмінностей окремо для кожного значення довжини слова.
Ви можете виконувати нечіткий пошук у багатьох форматах файлів. Будь ласка, дивіться повний список нижче.