文字資訊的模糊搜索是對與搜索查詢相似或接近的字串的搜索。
同時,文本字串的模糊或相似程度通常使用編輯距離(Levenshtein 距離)進行評估。 兩個字串的編輯距離是將一個字串轉換為另一個字串所需的字元替換、插入和刪除操作的最小數量。 兩個相鄰字元的換位也可以被視為有效的編輯操作(Damerau-Levenshtein 距離)。
PDF 示例中給定模糊值為 2 個編輯的模糊搜索是搜索查詢"樹"和搜尋結果"這些"。 此處,字元"r"被替換為"h",字元"e"和"s"被換位。 也就是說,在 PDF 示例中的模糊搜索中,這兩個單詞的 Damerau-Levenshtein 距離為 2。
以下方法最常用於實現模糊搜索:
在此應用程式中,要獲得 PDF 中單詞的模糊匹配,您需要指定所需的錯誤數(模糊值),從 1 到 9 個字元。 您還可以將選項設置為僅搜索具有最小差異數的單詞,或搜索給定差異數內的所有單詞。
GroupDocs.Search 庫具有許多其他模糊匹配選項。 例如,您可以將單詞之間的差異數設置為單詞長度的線性函數,甚至可以為每個單詞長度值單獨設置差異數。