Tìm kiếm mờ nhạt thông tin văn bản là tìm kiếm các chuỗi tương tự hoặc gần với truy vấn tìm kiếm.
Đồng thời, mức độ mờ hoặc tương đồng của chuỗi văn bản thường được đánh giá bằng cách sử dụng khoảng cách chỉnh sửa (khoảng cách Levenshtein). Và khoảng cách chỉnh sửa của hai chuỗi là số lượng tối thiểu của các hoạt động thay thế ký tự, chèn và xóa cần thiết để chuyển đổi một chuỗi thành một chuỗi khác. Việc chuyển vị hai ký tự liền kề cũng có thể được coi là một hoạt động chỉnh sửa hợp lệ (khoảng cách Damerau-Levenshtein).
Một tìm kiếm mờ trong PDF ví dụ cho một giá trị mờ nhất định của 2 chỉnh sửa là truy vấn tìm kiếm "cây" và kết quả tìm kiếm "những". Ở đây ký tự "r" được thay thế bằng "h" và các ký tự "e" và "s" được chuyển đổi. Đó là, khoảng cách Damerau-Levenshtein cho hai từ này là 2 trong tìm kiếm mờ này trong ví dụ PDF.
Các phương pháp sau đây thường được sử dụng để thực hiện tìm kiếm mờ:
Trong ứng dụng này, để có được một kết hợp mờ của các từ trong PDF, bạn cần chỉ định số lượng lỗi cần thiết (giá trị mờ) từ 1 đến 9 ký tự. Bạn cũng có thể đặt tùy chọn tìm kiếm các từ chỉ có số lượng khác biệt tối thiểu hoặc tìm kiếm tất cả các từ trong một số khác biệt nhất định.
Thư viện GroupDocs.Search có nhiều tùy chọn kết hợp mờ nhạt khác. Ví dụ: bạn có thể đặt số lượng khác biệt giữa các từ như một hàm tuyến tính của độ dài từ hoặc thậm chí đặt số lượng khác biệt riêng lẻ cho mỗi giá trị của độ dài từ.
Bạn cũng có thể thực hiện tìm kiếm mờ ở nhiều định dạng tệp khác. Vui lòng xem danh sách đầy đủ bên dưới.