Document classification

Secara sederhana document classification dapat diartikan sebagai usaha untuk mengklasifikasi dokumen pada kategori kategori tertentu. Document classification pada dasarnya dibagi menjadi 2 metode dasar yaitu unsupervised document classification dan supervised document classification. Unsupervised document classification tidak memiliki pola atau aturan yang dicari sebagai pembelajaran. Sedangkan supervised document classification memiliki pola yang dijadikan sebagai patokan dalam mengklasifikasi dokumen baru, pola tersebut diperoleh dari proses pembelajaran terhadap dokumen training atau dokumen yang telah terklasifikasi. Pada supervised document classification digunakan dokumen training dan dokumen test, sedangkan unsupervised document classification tidak digunakan pembedaan dokumen training dan dokumen test.

Document classification ada yang menyebut sebagai text mining, adapula yang menyebutnya sebagai text categorization, walaupun text categorization berbeda dengan text mining. Metode pembelajaran text mining pun dapat dikelompokkan ke dalam kategori kategori tertentu berdasarkan metode yang digunakan, sebagai contoh adalah text mining yang menggunakan metode statistic (contoh : naïve bayesian)

Saya sendiri sih setuju dengan penggunaan nama document classification, karena mempunyai lingkup yang lebih luas. Kebanyakan orang hanya menggunakan istilah clustering dan text mining, yang memang kedua istilah tersebut sudah membedakan secara mendasar 2 kelompok besar dalam klasifikasi.

2 thoughts on “Document classification

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s