Pencarian fuzzy informasi tekstual adalah pencarian string yang mirip atau dekat dengan permintaan pencarian.
Pada saat yang sama, tingkat pusing atau kesamaan string teks paling sering dinilai menggunakan jarak edit (jarak Levenshtein). Dan jarak edit dari dua string adalah jumlah minimum substitusi karakter, penyisipan, dan operasi penghapusan yang diperlukan untuk mengubah satu string menjadi string lainnya. Transposisi dua karakter yang berdekatan juga dapat dianggap sebagai operasi pengeditan yang valid (jarak Damerau-Levenshtein).
Pencarian fuzzy dalam contoh PDF untuk nilai fuzziness tertentu dari 2 suntingan adalah permintaan pencarian "pohon" dan hasil pencarian "ini". Di sini karakter "r" digantikan oleh "h" dan karakter "e" dan "s" dialihkan. Artinya, jarak Damerau-Levenshtein untuk dua kata ini adalah 2 dalam pencarian fuzzy ini dalam contoh PDF.
Metode berikut paling sering digunakan untuk menerapkan pencarian fuzzy:
Dalam aplikasi ini, untuk mendapatkan kecocokan kata yang kabur di PDF, Anda perlu menentukan jumlah kesalahan yang diperlukan (nilai pusing) dari 1 hingga 9 karakter. Anda juga dapat mengatur opsi untuk mencari kata-kata hanya dengan jumlah perbedaan minimum, atau untuk mencari semua kata dalam sejumlah perbedaan tertentu.
Pustaka GroupDocs.Search memiliki banyak opsi pencocokan fuzzy lainnya. Misalnya, Anda dapat mengatur jumlah perbedaan antara kata-kata sebagai fungsi linier dari panjang kata, atau bahkan mengatur jumlah perbedaan secara individual untuk setiap nilai panjang kata.
Anda juga dapat melakukan pencarian fuzzy dalam banyak format file lainnya. Silakan lihat daftar lengkapnya di bawah ini.