ANALISIS K-GRAM, BASIS DAN MODULO RABIN-KARP SEBAGAI PENENTU AKURASI PERSENTASE KEMIRIPAN DOKUMEN

Andysah Putera Utama Siahaan, Sugianto .

Abstract


Pengujian kemiripan dokumen penting untuk dilaksanakan karena banyak sekali terjadi plagiarisme. Banyak metode yang dapat digunakan untuk menguji dokumen tersebut. Salah satunya adalah metode Rabin-Karp. Ada tiga parameter utama yang berperan menetukan tingkat akurasi kemiripan, yaitu K-Gram, Basis dan Modulo. Pada bagian modulo, metode ini menggunakan bilangan prima yang dapat ditentukan besarnya. Setiap dokumen akan dibentuk menjadi token-token yang kemudian dipecah kembali sesuai dengan panjang K-Gram yang ditentukan. Semakin kecil nilai K-Gram, semakin akurat analisis kemiripan tersebut. Nilai pada K-Gram, Basis dan Modulo dapat diatur sesuai dengan tingkat ketajaman analisa. K-Gram akan memotong kata-kata yang panjang menjadi kata yang mempunyai panjang yang sama. K-Gram kemudian akan membentuk nilai Hash yang berfungsi untuk memberikan ID pada tiap potongan kata. Nilai Hash juga tergantung dari Basis dan Modulo yang diberikan. Kombinasi ketiga nilai tersebut dapat menentukan akurasi persentase dari kemiripan dokumen tersebut. Pengecekan nilai Hash pada dokumen asli dan uji akan menetukan seberapa banyak hash yang memiliki nilai yang sama. Jumlah ini akan menetukan seberapa besar kemiripan dokumen asli dan uji tersebut. Penentuan kombinasi yang tepat akan menghasilkan akurasi yang baik.

Keywords


Plagiarisme, Rabin-Karp, Text Mining

Full Text:

PDF