Spam Filter

Pengukuran Kinerja Spam Filter Menggunakan Metode Naive Bayes Classifier Graham

Rachman, Wildan. 2011.

Email spam has become a major problem for internet users and providers. After several failed attempt to filter spam based on heuristic approach such as black-listing or rule-based filtering, content-based filtering using naive Bayes classifier has become the standard for spam filtering today. However, the naive Bayes classifier exists in different forms. This research aims to compare two different forms of naive Bayes which are multinomial naive Bayes using boolean attribute and Graham version of naive Bayes which is popular among several commercial and open source spam filter applications. This research also compares performance of two different methods for data training which are train-everything (TEFT) and Train-on-Error (TOE). Finally, this research attempts to identify several hard-to-classify emails. The evaluation result showed that multinomial naive Bayes had better performances compared to Graham naive Bayes. The result also showed that TEFT successfully outperforms TOE in term of accuracy.


Spam Filter Menggunakan Model Klasifikasi Multivariate Bernoulli dan Multinomial Naïve Bayes

Fadillah, Denis. 2014.

Pertumbuhan pengguna email memicu peningkatan spam email sehingga diperlukan teknik spam filter. Model klasifikasi Naïve Bayes (NB) adalah salah satu supervised learning yang dapat digunakan untuk spam filter karena tingkat akurasi yang tinggi dan mudah diimplementasikan. Multivariat Bernoulli NB menggunakan atribut Boolean sedangkan Multinomial NB menggunakan frekuensi term, adalah dua model NB yang sering digunakan untuk fungsi klasifikasi. Pemilihan fitur ciri yang baik juga berpengaruh pada peningkatan akurasi klasifikasi. Penelitian ini mencoba memodelkan spam filter menggunakan model klasifikasi Multivariat Bernoulli dan Multinomial NB kemudian membandingkan akurasinya. Seleksi fitur chi-square dipilih dengan harapan dapat menghasilkan fitur ciri yang lebih baik. Model Multinomial NB tanpa seleksi fitur menghasilkan akurasi tertinggi sebesar 95.31%, sedangkan untuk tingkat akurasi terendah didapatkan pada model Multivariate Bernoulli tanpa seleksi fitur sebesar 89.69%. Seleksi fitur chi-square meningkatkan akurasi model Multivariate Bernoulli sebesar 3.31%, sedangkan Multinomial NB mengalami penurunan akurasi sebesar 1.98%.


Metode Smoothing dalam Naïve Bayes untuk Klasifikasi Email Spam

Hafilizara, Mutia. 2014.

Kehadiran spam pada email menyebabkan penelitian terhadap pembangunan piranti lunak spam filter untuk mengklasifikasikan email meningkat. Naïve Bayes banyak digunakan sebagai metode dalam klasifikasi oleh pengembang spam filter. Pada teknik Naïve Bayes tersebut terdapat metode smoothing yang telah umum digunakan yaitu Add-One smoothing atau Laplace smoothing, namun masih ada metode lainnya yaitu Jelinek-Mercer smoothing, Dirichlet smoothing, Absolute Discounting smoothing, dan Two-Stage smoothing yang dapat digunakan sebagai fungsi klasifikasi dan diduga mampu meningkatkan akurasi melebihi Laplace smoothing. Penelitian ini mengimplementasikan fungsi klasifikasi metode smoothing tersebut. Pada hasil percobaan terlihat akurasi yang dihasilkan metode Laplace smoothing sebesar 93.72% lebih rendah dari metode smoothing lainnya yang mencapai nilai akurasi melebihi 94%. Fungsi smoothing yang memberikan hasil terbaik adalah Dirichlet smoothing dengan nilai akurasi 94.82%.


Spam Filter Dengan Seleksi Fitur yang Berbeda Menggunakan Fungsi Klasifikasi Multinomial Naïve Bayes

Dimastyo, Julius. 2014.

Saat ini banyak email yang tidak diinginkan untuk kepentingan komersial masuk pada inbox, yang dikenal dengan spam. Oleh karena itu muncul piranti lunak spam filter untuk mengklasifikasikan email spam dan bukan spam (ham) secara otomatis. Naïve Bayes saat ini banyak digunakan dalam metode klasifikasi karena sederhana dan mudah untuk diimplementasikan. Dalam klasifikasi dokumen, multinomial Naïve Bayes kinerjanya lebih bagus dibandingkan multivariate Bernoulli untuk kasus vocabulary yang besar. Untuk meningkatkan akurasi klasifikasi dan efisiensi fitur maka perlu melakukan seleksi fitur. Ada tiga metode seleksi fitur yang digunakan yaitu inverse document frequency (IDF), mutual information (MI) dan chi-square. Hasil akhir menunjukan bahwa akurasi terbaik terdapat pada seleksi fitur IDF dengan jumlah vocabulary 9361 dimana menghasilkan akurasi sebesar 94.43%, sedangkan akurasi MI dan chi-square masing-masing sebesar 93.77% dan 93.55%.