IMPLEMENTASI ALGORITMA COSINE SIMILARITY UNTUK MENDETEKSI KEMIRIPAN TOPIK JUDUL

Heri Sutikno Sutikno

Abstract


Perkembangan judul penelitian tugas akhir saat ini menyediakan cara yang mudah untuk mencari literatur akademis secara luas. Seseorang dapat mencari di seluruh bidang ilmu dan referensi. Dalam menentukan diterima atau tidaknya sebuah judul skripsi maka yang dilakukan adalah dengan membandingkan judul tersebut judul yang lain secara manual. Tentu saja hal ini akan membutuhkan waktu yang cukup lama. Oleh karena itu, diperlukan suatu sistem yang mampu mendeteksi persentase kemiripan judul secara cepat dan tepat.

             Tujuan penelitian yaitu membentuk suatu system yang membantu dalam membandingkan beberapa tugas akhir. Dalam sistem ini judul di input kedalam sebuah sistem kemudian data akan melewati beberapa tahapan yaitu: Text Minning (Tokenzing, Filtering, Stemming, Stopword Removal). Proses berikutnya yaitu pembobotan TF_IDF dan perhitungan Cosine Similarity. Hasil akhir dari proses tersebut adalah tingkat kemiripan antar judul yang di uji.

       Berdasarkan tahap pengujian yang di lakukan maka dapat disimpulkan bahwa algoritma cosine similarty dapat melakukan perhitungan secara akurat terhadapat kata dengan proses stemming.Hasil pengujian dari empat skema yang di lakukan yaitu, jika membandingkan judul penelitian yang sama dengan judul penelitian yang sama tingkat kemiripanya bobot cosine similarity sebesar 100%. Dalam pengujian kombinasi kata dalam judul maka tingkat nilai cosine similarity yang di hasilkan adalah 100%. Dalam pegujian penghapusan tiga kata di judul yang sama maka tingkat kemiripan cosine similarity yang dihasilkan adalah 85%. Dalam pengujian persamaan kata (sinonim) maka bobot yang di hasilkan adalah 92%.

Full Text:

PDF

References


A. D. Tahitoe, D. Purwitasari. 2010. “Implementasi Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia dengan Metode Corpus Based Stemming”. Institut Teknologi Sepuluh Nopember (ITS) – Surabaya, 60111, Indonesia.

Andriani, M., & Nazief, B.(1996). “Approach to stemming algorithm for bahasa indonesia”. Internal Publication, Falkultas Ilmu Komputer, Universitas Indonesia, Depok, Jakarta.

Anhar. 2010, “Panduan Menguasai PHP & MySQL Secara Otodidak”. Mediakita. Jakarta.

Dewa, A. Et al., 2016, “Pengukuran Kemiripan Dokumen Teks Bahasa Indonesia Menggunakan Metode Cosine Similarity”. E-Journal Teknik Informatika Volume 9, No 1 (2016).

Library,”library stemming sastrawi”. https://github.com/sastrawi/sastrawi (diakses pada tanggal 11 september 2019).

Library,”library stopword removal”. https://github.com/gsarwohadi/PySastrawi (diakses pada tanggal 13 september 2019).

Licency,” stopword removal mengunakan kamus kata dasar yang diberikan oleh Kateglo dengan lisensi CC-BY-NC-SA 3.0”. https://creativecommons.org/licenses/by-nc-sa/3.0/ (diakses tanggal 1 september 2019).

Maryaeni, Masnur Muslich.,2009,”Bagaimana menulis Skripsi”. Jakarta: Bumi Aksara.

Novanta, Audy. (2009).”Pendeteksian Plagiarisme Dokumen Teks dengan Menggunakan Algoritma Smith-Waterman”. (http://repository.usu.ac.id, diakses 24 october 2019).

Nurdin, dan Munthoha, A. (2017). “Sistem pendeteksi kemiripan judul skripsi menggunakan algoritma winnowing”. Jurnal Nasional Informatika Dan Teknologi Jaringan.Vol 2, No 1, September 2017.

Pembobotan.”Term Weighting TF-IDF”. https://informatikalogi.com/term-weighting-tf-idf/. (dikses pada tanggal 17 september 2018).

Tokenzing,”library tokenzing”. https://github.com/sastrawi/tokenizer (diakses pada tanggal 16 september 2019).

Raharjo. B., 2011, “Membuat Database Menggunakan MySql”. Informatika.

Bandung.

Mulyanto, Agus. (2017). Penyelesaian Kata Ambigu Pada Proses POS Tagging Menggunakan Algoritma Hidden Markov Model ( HMM ).

Styawati, S., Yulita, W. and Sarasvananda, S. (2020). SURVEY UKURAN KESAMAAN SEMANTIC ANTAR KATA. Jurnal Data Mining dan Sistem Informasi, 1(1), p.32.

Styawati, S. and Mustofa, K. (2019). A Support Vector Machine-Firefly Algorithm for Movie Opinion Data Classification. IJCCS (Indonesian Journal of Computing and Cybernetics Systems), 13(3), p.219.

Isnain, A.R., Marga, N.S. and Alita, D. (2021). Sentiment Analysis Of Government Policy On Corona Case Using Naive Bayes Algorithm. IJCCS (Indonesian Journal of Computing and Cybernetics Systems), 15(1), p.55.

Alita, D., Fernando, Y. and Sulistiani, H. (2020). IMPLEMENTASI ALGORITMA MULTICLASS SVM PADA OPINI PUBLIK BERBAHASA INDONESIA DI TWITTER. Jurnal Tekno Kompak, 14(2), p.86.




DOI: https://doi.org/10.33365/jecsit.v1i1.6

Refbacks

  • There are currently no refbacks.


JECSIT Published by Universitas Teknokrat Indonesia
Organized by Faculty of Engineering and Computer Science
Web: http://jurnal.teknokrat.ac.id/index.php/JECSIT/index
Email : jecsit@teknokrat.ac.id.
Jl. Zainal Abidin Pagaralam, No.9-11, Labuhan Ratu, Bandarlampung
Telepon : 0721 70 20 22