文本信息的模糊搜索是对与搜索查询相似或接近的字符串的搜索。
同时,文本字符串的模糊或相似程度通常使用编辑距离(Levenshtein 距离)进行评估。 两个字符串的编辑距离是将一个字符串转换为另一个字符串所需的字符替换、插入和删除操作的最小数量。 两个相邻字符的换位也可以被视为有效的编辑操作(Damerau-Levenshtein 距离)。
PDF 示例中给定模糊值为 2 个编辑的模糊搜索是搜索查询"树"和搜索结果"这些"。 此处,字符"r"被替换为"h",字符"e"和"s"被换位。 也就是说,在 PDF 示例中的模糊搜索中,这两个单词的 Damerau-Levenshtein 距离为 2。
以下方法最常用于实现模糊搜索:
在此应用程序中,要获得 PDF 中单词的模糊匹配,您需要指定所需的错误数(模糊值),从 1 到 9 个字符。 您还可以将选项设置为仅搜索具有最小差异数的单词,或搜索给定差异数内的所有单词。
GroupDocs.Search 库具有许多其他模糊匹配选项。 例如,您可以将单词之间的差异数设置为单词长度的线性函数,甚至可以为每个单词长度值单独设置差异数。