Rocchio classifiers

Rocchio classifiers merupakan salah satu metode pembelajaran supervised document classification. Metode klasifikasi rocchio membandingkan kesamaan isi antara data training dan data test dengan merepresentasikan semua data ke dalam vektor. Setiap bobot kata merupakan dimensi dalam ruang vektor. Kedekatan kesamaan isi dihitung dari kedekatan sudut yang terbentuk antara bobot data training dan bobot data test menggunakan aturan cosine. Untuk menghitung bobot setiap kata dalam dokumen digunakan skema pembobotan TFIDF (Term Frequency / Invers Document Frequency). Karena komponen heuristic / utama dari klasifikasi rocchio adalah skema pembobotan TFIDF, metode pembelajaran rocchio disebut juga dengan TFIDF Classifiers (Joachihms, 1997).

Dalam membandingkan kesamaan isi antara data training dan data test, TFIDF classifiers menggunakan prototipe vektor untuk merepresentasikan kategori yang terbentuk dari data training, dengan kata lain prototipe vektor merupakan vektor yang mewakili seluruh vektor data training dalam setiap kategori. Tiga hal utama yang dipakai pada klasifikasi TFIDF adalah menggunakan skema pembobotan TFIDF untuk merepresentasikan dokumen ke dalam vektor, merepresentasikan prototipe setiap kategori dengan menjumlahkan vektor-vektor dalam satu kategori dari data training, membandingkan kedekatan sudut antara vektor data test dengan semua prototipe vektor (Tomassen, 2007).

11 thoughts on “Rocchio classifiers

  1. anis

    selamat pagi ni mas,,

    mau nanya, sebenarnya klasifikasi hirarki itu bagaimana?

    dan bagaiman memproses train data masuk ke dalam poho hirarki??

    satu lagi ni,, klo boleh tanya bener ga sih, untuk mengklasifikasi hirarki suatu dokumen, kita sudah mempunyai pohon hirarki yang digunakan untuk mentrain data agar masuk ke dalam label dalam tree hirarki tersebut??

    saya tunggu jawabannya yah

    terima kasih

    Reply
  2. unkick Post author

    anis anak mana nih? heheheh salam ya.
    menurutku ya DT itu klasifikasi hirarki, yang jelas aturan harus ada dahulu baru mentrain data. data dimasukkan dengan cara membandingkan data train ke dalam pohon hirarki. tergantung aturan apa, apakah perkata atau perdokumen training yang dimasukkan dalam klasifikasi hirarki.
    bener, kita harus mempunyai dulu aturan dari data training baru kita bisa memproses data test pada pohon hirarki.

    Reply
  3. wawan

    selamat sore mas
    nie saya wawan.
    saya menggambil Ta pake rocchio juga…
    gini mas nie binggun tentang penggunaan algoritmanya, pada bagian klasifikasi…
    bisa ngak yauw pake yang unsuperviced..mas minta ….
    terimaksih mas,,,,,

    wildan : kalo pake unsupervised namanya udah bukan rocchio dong? heheheh

    Reply
    1. wawan

      OOoo gthu yauw mas….
      lha proses penentuan kategori tiap ketegori waktu training itu gimana mas????
      kita nentui satu dokumen tiap kategori atau atomatis ditentukan????
      terimakasih

      wildan : data training ditentukan dahulu sebelumnya dengan data yang sudah terklasifikasi, dan data test akan terklasifikasi secara otomatis

      Reply

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s