文字資訊的模糊搜索是對與搜索查詢相似或接近的字串的搜索。
同時,文本字串的模糊或相似程度通常使用編輯距離(Levenshtein 距離)進行評估。 兩個字串的編輯距離是將一個字串轉換為另一個字串所需的字元替換、插入和刪除操作的最小數量。 兩個相鄰字元的換位也可以被視為有效的編輯操作(Damerau-Levenshtein 距離)。
給定模糊值為 2 次編輯的模糊搜索範例是搜索查詢「樹」和搜尋結果」這些」。。 此處,字元"r"被替換為"h",字元"e"和"s"被換位。 也就是說,在這個模糊搜索示例中,這兩個單詞的 Damerau-Levenshtein 距離為 2。
以下方法最常用於實現模糊搜索:
若要在搜索應用中獲取單詞的模糊匹配,你需要指定所需的錯誤數(模糊值),範圍為 1 到 9 個字元。 您還可以將選項設置為僅搜索具有最小差異數的單詞,或搜索給定差異數內的所有單詞。
GroupDocs.Search 庫具有許多其他模糊匹配選項。 例如,您可以將單詞之間的差異數設置為單詞長度的線性函數,甚至可以為每個單詞長度值單獨設置差異數。