Нечеткий поиск текстовой информации это поиск строк похожих или близких к поисковому запросу.

При этом степень нечеткости или похожести строк наиболее часто оценивается с помощью дистанции редактирования (расстояния Левенштейна). А редакционное расстояние двух строк представляет собой минимальное число операций замены, вставки и удаления символа необходимое для преобразования одной строки в другую. В качестве допустимой операции редактирования также может рассматриваться перестановка двух соседних символов (расстояние Дамерау-Левенштейна).

В качестве примера нечеткого поиска при заданной величине нечеткости в 2 редактирования можно привести поисковый запрос "trees" и результат поиска "these". Здесь заменен символ "r" на "h" и переставлены местами символы "e" и "s". То есть расстояние Дамерау-Левенштейна для двух данных слов равно 2 в этом примере нечеткого поиска.

Наиболее часто для реализации нечеткого поиска используются методы:

Веб-приложение Нечеткий поиск в документе построено на основе системы полнотекстового поиска GroupDocs.Search. Реализация нечеткого поиска соответствий в этой библиоке имеет лучшие черты перечисленных методов:

В данном приложении для поиска нечеткого соответствия слов в документе нужно указать требуемое число ошибок (величину нечеткости) от 1 до 9 символов. Также можно задать опцию для поиска слов только с минимальным числом различий или же поиска всех слов в пределах заданного числа различий.

Библиотека GroupDocs.Search имеет множество других настроек нечеткого сопоставления. Например, можно задать число различий между словами коэффициентом линейной функции от длины слова или даже задать число ошибок индивидуально для каждого значения длины слова.

Как найти нечеткое соответствие текста в документе

  • Кликните по области загрузки или просто перетащите файл туда.
  • Как только загрузка завершится, вы сможете выполнять поиск текста в вашем файле.
  • Введите поисковый запрос, состоящий из одного или нескольких слов, разделенных пробелами.
  • Выберите тип поиска: фразы, всех слов, любого слова.
  • Задайте число допустимых ошибок в слове от 1 до 9, при необходимости установите флаг получения только лучших результатов.
  • Нажмите кнопку "Поиск" для получения результата.
  • Добавьте еще файлы в поисковый индекс с помощью кнопки "Add files".
  • Отметьте добавленные файлы для включения в индекс и поиска по ним.

Часто задаваемые вопросы

  • Как работает онлайн приложение Нечеткого поиска в документе?

    Поиск выполняется в два этапа. Сначала документы добавляются в индекс. И уже затем поиск выполняется в индексе.
  • Как насчет конфиденциальности, безопасно ли использовать онлайн приложение Нечеткого поиска в документе?

    Доступ к вашей папке с загруженными и проиндексированными файлами есть лишь у того, у кого есть ссылка. Все загруженные файлы удаляются с серверов через 24 часа.
  • Требуется ли подключение к интернету для работы с онлайн приложением Нечеткого поиска в документе?

    Данное приложение является клиент-серверным. Если во время работы с приложением будет утеряно подключение к интернету, вы не сможете получить результаты поиска.
  • Можно ли выполнять поиск в Linux, Mac OS, Android?

    Выполнять поиск можно с любого устройства независимо от операционной системы, которое имеет современный браузер и интернет-подключение.

Форматы файлов, поддерживаемые приложением Нечеткий поиск

Вы можете выполнять нечеткий поиск во многих форматах файлов. Пожалуйста, ознакомьтесь с полным списком ниже.

Viewer Annotation Conversion Comparison Signature Assembly Metadata Search Parser Watermark Editor Merger Redaction Classification Splitter Translation Unlock Protect Scanner