EKSTRAKSI INFORMASI DARI ABSTRAK JURNAL PENELITIAN BERBAHASA INDONESIA BERBASIS FITUR LEKSIKAL

Setio Basuki

Abstract


Banyaknya jurnal penelitian yang dihasilkan setiap tahunnya, menyebabkan pencarian atau pengambilan informasi tertentu dalam sebuah jurnal penelitian menjadi sangat sulit. Karenanya penulis dalam penelitian ini mengajukan sebuah sistem yang mampu mengekstraksi informasi tertentu dari sebuah jurnal penelitian berbahasa indonesia. Informasi yang dimaksud adalah Task, Domain, dan Method pada abstraksi sebuah jurnal penelitian. Untuk mendapatkan 3 informasi tersebut secara otomatis, maka penelitian ini menggunakan pendekatan Machine Learning, berjenis Ekstraksi Informasi berbasis klasifikasi. Pada penelitian ini penulis menggunakan 25 fitur, serta 4 Model Algoritma klasifikasi, yaitu k-Nearest Neighbor, Naïve Bayes, Squential Minimal Optimization serta Random Forest. Pembuatan model dilakukan dengan menggunakan teknik klasifikasi token, dan ekstraksi fitur dilakukan menggunakan kakas Natural Language Processing. Dalam tahap ekstraksi fitur terjadi ketidakseimbangan data atau imbalance dataset, sehingga perlu dilakukan resample untuk menyeimbangkan dataset.  Pengujian dilakukan dalam dua tahap, yaitu tahap pengujian model, dan tahap pengujian mesin klasifikasi. Pada pengujian model, Naïve bayes mendapatkan hasil akurasi terendah dengan 64.97%, kemudian Squential Minimal Optimization mendapatkan akurasi sebesar 89.24%, k-Nearest Neighbor sebesar 90,44%, dan hasil tertinggi didapatkan oleh Random Forest dengan 92.84%. Sedangkan Dalam pengujian mesin klasifikasi, akurasi model terbaik didapat ketika menggunakan model algoritma k-Nearest Neighbor dan Squential Minimal Optimization, dengan pengukuran akurasi 97.5%, kemudian 96.5% untuk RandomForest, dan terakhir 87.5% untuk NaïveBayes.

Keywords


algoritma klasifikasi, ekstraksi informasi, machine learning, natural language processing, resample

Full Text:

PDF

References


Referensi

Jurnal:

A. Darujati, Cahyo; Gumelar, “Pemanfaatan Teknik Supervised untuk Klasifikasi Teks Bahasa Indonesia,” J. Link, p. 2, 2012.

M. L. Khodra, P. Ayu, A. Insanudin, and M. Megally, “Ekstraksi Informasi Transaksi Online pada Twitter,” Cybermatika, vol. 1, no. July, pp. 1–4, 2013.

R. Ilyas and M. L. Khodra, “Ekstraksi Informasi 5W1H pada Berita Online Bahasa Indonesia,” vol. 3, no. 1, pp. 35–41, 2015.

D. W. Nugraha, “Penerapan Kompleksitas Waktu Algoritma Prim untuk Menghitung Kemampuan Komputer dalam Melaksanakan Perintah,” J. Ilm. Foristek, vol. 2, no. 2, 2012.

A. Jananto, “Algoritma Naive Bayes untuk Mencari Perkiraan Waktu Studi Mahasiswa,” Teknol. Inf. Din., vol. 18, no. 1, pp. 9–16, 2013.

I. M. B. Adnyana, “Prediksi Lama Studi Mahasiswa Dengan Metode Random Forest (Studi Kasus : STIKOM Bali),” Csrid, vol. 8, pp. 201–208, 2015.

J. C. Platt, “Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines,” Adv. kernel methods, pp. 185–208, 1998.

M. E. I. Lestari, “Penerapan Algoritma Klasifikasi Nearest Neighbor (K-NN) untuk Mendeteksi Penyakit Jantung,” Fakt. Exacta, vol. 7, no. 4, pp. 366–371, 2014.

Hoens, T. Ryan, and Nitesh V. Chawla. "Imbalanced datasets: from sampling to classifiers." Imbalanced Learning: Foundations, Algorithms, and Applications (2013): 43-59.

Prosiding:

Buku:

J. Hartono, Analisis dan Desain Informasi: Pendekatan Terstruktur Teori dan Praktek Aplikasi Bisnis. Yogyakarta: Andi Offset, 1999.

A. Budiyanto and A. I. Algoritma, “P e n g a n t a r A l g o r i t m a d a n P e m r o g r a m a n,” pp. 1–5, 2003.




DOI: https://doi.org/10.22219/sentra.v0i4.2251

Refbacks

  • There are currently no refbacks.


Seketariat

Fakultas Teknik

Universitas Muhammadiyah Malang Kampus III

Jl. Raya Tlogomas 246 Malang, 65144