Data Storage Technologies / Teknologi Penyimpanan

Pertumbuhan dan perkembangan media penyimpanan sangatlah signifikan, terlihat dari riset yang menunjukkan bahwa setiap tahun media penyimpanan mengalami pertumbuhan 2 kali lipat. Faktor yang harus diperhatikan dalam memilih tempat peyimpanan adalah sebagai berikut :

  1. Besar data dan jumlah peningkatan penyimpanan data
  2. Kecepatan akses data
  3. Pertimbangan diakses oleh server atau tidak
  4. Uptime dan downtime
  5. Harga

Media penyimpanan yang baik harus memenuhi kriteria sebagai berikut :

  1. Tingkat redundansi yang kecil
  2. Adanya toleransi kegagalan
  3. Adanya toleransi bencana
  4. Kecepatan tinggi / sesuai dengan kebutuhan
  5. Latency rendah
  6. Open (bersifat terbuka antar vendor sistem operasi ataupun penyimpanan)
  7. Kemudahan dalam instalasi

Jenis akses pada media penyimpanan adalah sebagai berikut :

  1. Direct attached storage (DAS) – sebuah disk subsistem di pasang secara langsung dalam satu atau lebih host dan secara fisik tersambung dengan kabel ke server
  2. Network Attached Storage (NAS)- sebuah sistem penyimpanan yang mempunyai tujuan khusus yaitu untuk diakses dari jauh melalui data network
  3. Storage-area Network (SAN) – adalah network private (menggunakan protokol storage daripada protokol network) yang menghubungkan server dan unit penyimpanan
  4. Internet SCSI (iSCSI)— adalah protokol NAS terbaru. Protokol ini menggunakan protokol IP network untuk membawa protokol SCSI
  5. Fibre channel over IP (FCIP)-mengaktifkan channel SAN untuk interkoneksi melalui IP basic jaringan.

Perkembangan jaringan lokal menuntut media penyimpanan untuk bekerja secara local dan dapat diakses secara langsung oleh jaringan, hingga akhirnya muncul istilah SAN (Storage Area Network). SAN merupakan sebuah jaringan berkecepatan sangat tinggi, terdiri dari server dan penyimpan. Terpisah dan berbeda dengan LAN/WAN perusahaan, tujuan utama SAN adalah untuk menangani trafik data dalam jumlah besar antara server dan peralatan penyimpan, tanpa mengurangi bandwidth yang ada di LAN/WAN. Contoh konfigurasi SAN adalah sebagai berikut :

LAN menggunakan protokol jaringan yang mengirimkan potongan kecil. SAN menggunakan protokol penyimpanan (SCSI), sehingga memungkinkan untuk mengirimkan potongan besar data sambil mengurangi overhead, dan meningkatkan bandwidth. Sistem berbasis LAN menghubungkan server dengan client, setiap server memiliki dan mengontrol akses ke media penyimpanannya, yang pada akhirnya membatasi aksesibilitas data. Sebuah SAN memungkinkan sumber daya penyimpanan data untuk dikaitkan langsung ke jaringan, tanpa perlu terhubung ke server yang spesifik. Hal ini memungkinkan semua server untuk mengakses sumber daya media penyimpanan yang ada di SAN

Keunggulan dari SAN adalah sebagai berikut :

  1. Availability, satu copy data dapat diakses oleh semua host melalui jalur yang bebeda, dan manajemen data menjadi lebih efisien
  2. Reliability, infrastruktur transportasi data yang menjamin tingkat kesalahan yang sangat minimal, dan kemampuan dalam mengatasi kegagalan
  3. Scalability, Server maupun media penyimpanan dapat ditambahkan secara independent satu dan lainnya, tanpa batasan harus menggunakan sistem proprietary
  4. Performance, Fibre Channel memiliki bandwidth sampai 200 Mbps dengan overhead yang rendah, SAN memisahkan trafik backup dengan trafik standar LAN/WAN
  5. Manageability, berkembangnya perangkat lunak dan standar memungkinkan manajemen dilakukan secara terpusat, koreksi dan deteksi kesalahan yang roaktif
  6. Return On Information Management, SAN memungkinan biaya kepemilikan yang rendah, dan menaikkan Return On Information Management dibandingkan metode penyimpanan tradisional

Komponen yang digunakan pada SAN adalah sebagai berikut :

  1. Host bus adapters (HBAs) di setiap host. FC adapters (seperti SCSI adapater) dengan driver pada OS
  2. Storage devices, RAID subsystems, JBODs
  3. Interconnect devices seperti fibre channel hubs atau switches, SAN gateways, bridges, routers, dan extenders, dan fiber-optic cables yang mengkoneksikan hub atau  switch ke HBA dan media penyimpanan

Konfigurasi SAN secara sederhana dapat dijelaskan sebagai berikut :

  1. Pada sistem LAN kita memiliki server, hub/switch/router dan network Interface card (NIC) yang saling berhubungan dengan memakai kabel UTP/coaxial.
  2. SAN terdiri dari SAN server (suatu server dengan kapasitas storage terabyte [ribuan gigabyte]), SAN hub/switch/router, SAN cable (biasanya fiber optic) dan SAN ‘NIC’. Hub/Switch/router dan NIC untuk SAN tidak sama dengan peralatan LAN karena, seperti yang dikemukakan di atas, sistem koneksi yang dipakai untuk SAN adalah SCSI atau FC.

Fase dari mendesign SAN secara garis besar dapat dikelompokkan ke dalam 4 langkah, sebagai berikut :

  1. Mengumpulkan data tentang kebutuhan sistem / Requirements
  2. Mengumpulkan informasi lingkungan di luar sistem (tempat, bencana, dll)
  3. Memilih penyimpanan yang cocok
  4. Koneksi penyimpanan dengan server

Oleh : Wildan S (unkick.wordpress.com)

Data Center Server ( Pengertian , Maintenance )

Data center server adalah Pusat pemrosesan data yang didukung dengan perangkat pengolahan data tersebut. Disebut juga dengan pusat komputerisasi. Data center server merupakan server data terpusat dari jaringan di suatu jaringan, baik dalam jaringan lokal antaupun global, jaringan instansi ataupun perusahaan. Data center server dikelola oleh administrator. Pengelolaan data center yang baik mendukung seluruh kinerja dari jaringan, dari pemakaian aplikasi, oleh karena itu aturan dan standar pengukuran merupakan hal yang penting dari administrasi Data Center. Beberapa tahun ini data center server menjadi pembahasan yang ramai, yang sebelumnya data center server bukan merupakan bahasan yang perlu di oprek lebih dalam secara teori, tetapi kebutuhan akan informasi dari pengolahan data center yang baik membuat pakar-pakar jaringan akhirnya memutuskan untuk membahas data center server lebih dalam beserta perancangan data center dalam Infrastruktur TI sendiri. Beberapa hal yang perlu diperhatikan dalam pembangunan, maintenance dan penggunaan data center server adalah sebagai berikut :

1. Server performance metrics

Dalam mengukur kinerja dari server diperlukan standar pengukuran yang diakui oleh masyarakat dan vendor-vendor IT, sehingga dibentuklah sebuah konsorsium yang menentukan hal tersebut. SPEC (Standard Performance Evaluation Corporation) Benchmark merupakan standar ukuran kinerja yang telah diakui oleh masyarakat dunia. Aspek yang berpengaruh pada kinerja sistem adalah utilization, latency, throughput, resource efficiency. Faktor yang mempengaruhi kinerja CPU adalah pemakaian cache pada CPU (L1 Cache, L2 Cache, L3 Cache)

2. Server capacity planning

Server capacity planning terdapat 2 hal penting, yaitu server sizing dan capacity planning. Server sizing adalah bagaimana melakukan estimasi kebutuhan hardware pada server sesuai kebutuhan dari aplikasi dan aktifitas dari pengguna, contohnya adalah untuk memenuhi 3000 end user, kita membutuhkan 2 load-balanced application server (4 CPU 1,3 GHz & 8 GB RAM) dan satu back-end database server (8 CPU & 10 GB RAM). Capacity planning terdiri dari 2 fase yaitu melakukan tes untuk mengukur utilization dan performance, yang kedua adalah perencanaan harus dapat mendukung beban kerja yang berat. Pengecekan memory secara berkala merupakan hal yang penting setelah server capacity planning dilakukan.

3. Best practices in IT

Merupakan hal-hal terbaik yang dilakukan di IT, salah satunya adalah berdasarkan pengalaman dan komunitas IT. Beberapa dari Best practices in IT adalah sebagai berikut:

a. System Deployment (Mempersiapkan sistem dengan baik)

b. Power Source (Estimasi pemakaian listrik)

c. Hardware Maintenance (Maintenance pengkabelan hingga server)

d. Software Deployment (Mempersiapakan software)

e. Cluster (Menggunakan sistem cluster bila diperlukan dengan tujuan menghindari terjadinya kesalahan secara keseluruhan, penyimpanan tersebar dan mendukung backup yang lebih baik)

f. Data Storage (Menggunakan RAID, cluster storage, multiple control)

g. Network Management Best Practices (Melakukan network analisis yang baik)

h. Documentation Best Practices (Dokumentasi pada berbagai tahap antara lain metodologi, proposal, hingga diagram)

Keuntungan dari penerapan best practices adalah

  • Standarisasi (saat best practice telah menjadi standar, pekerjaan menjadi semakin mudah)
  • Dapat mengurangi downtime
  • Konsisten dengan obyek bisnis
  • Kualitas

3. Server Security

Keamanan harus diperhatikan, baik keamanan hardware server, software server dan gangguan dari manusia atau alam. Secara umum hal-hal yang perlu diperhatikan pada keamanan server adalah sebagai berikut :

  1. Simplicity (menyederhanakan)
  2. Fail Safe (kesalah tidak menyebar)
  3. Complete Mediation (mediasi dengan pengguna)
  4. Open Design
  5. Separation of privilege (pembagian hak akses)
  6. Update (selalu ada perubahan lebih baik)
  7. Hapus pemakaian file dan aplikasi yang tidak digunakan
  8. Software keamanan bila diperlukan (anti virus, anti malware, anti spam, dll)

4. Server Administration

Best practices pada system administration adalah sebagai berikut :

  1. Memperhatikan permasalahan
  2. Log dan dokumentasi yang baik
  3. Cek permasalahan dari yang sederhana (berurutan OSI layer)
  4. Team work yang baik
  5. Otomasi

Beberapa hal yang harus diperhatikan dalam otomasi adalah sebagai berikut :

  • Mengumpulkan dokumen
  • Menentukan target
  • Kritik dan saran dari komunitas
  • Improve
  • Simplify
  • Testing

5. Device Naming

Penamaan device yang dijelaskan disini yaitu :

a. NIS (Network Information Service)

Digunakan menyimpan data profil user dan biasa disebut dengan yellow pages. NIS mengijinkan para pengguna dan aplikasi melalui jaringan untuk menenmukan berkas dan aplikasi dimanapun di sebuah jaringan dengan mengakses server NIS terpusat

b. NIS +

Setelah NIS dirasakan memiliki kekurangan pada segi keamanan, SUN mengeluarkan NIS+ yang mendukung pada segi keamanan

c. DNS (Domain Naming System)

Merupakan distribute database system yang digunakan untuk pencarian nama komputer (name resolution) di jaringan yang menggunakan TCP / IP. Keuntungan dari pemakaian DNS adalah memudahkan pengguna dalam mengingat IP, penamaan konsisten / tidak berubah, Satu user satu domain. Struktur domain merupakan sebuah hirarki pengelompokan domain berdasarkan nama, yang terbagi dalam beberapa bagian, yaitu : root level domains, second level domains, host names

d. LDAP (Lightweight Directory Access Protokol)

Merupakan service direktori yang berjalan pada layer TCP / IP. LDAP adalah sebuah protocol yang mengatur pengaksesan layanan direktori yang dapat digunakan untuk mendeskripsikan berbagai informasi. Fungsi LDAP adalah memberikan hak akses pada direktori. Direktori dapat berisi berbagai informasi (merupakan suatu database tempat penyimpanan data), contoh : direktori dapat berupa phone book

6. Load Balancing

Merupakan cara untuk membagi kinerja server yang bertujuan mengurangi beban server. Load balancing dapat berupa software maupun hardware

Menggunakan software memungkinkan pemakaian virtual server dan virtual IP.

Keuntungan

  1. Toleransi kesalahan diperhatikan
  2. Layanan lebih baik
  3. Performance
  4. Scalabilitas
  5. Fleksibel
  6. Hemat
  7. Memperhatikan keamanan

7. Fault Tolerance

Terdapat standar dari ukuran toleransi kesalahan diatantaranya adalah MTBF (Mean Time Between Failures), MTTDL (Mean Time to Data Loss), MTTDI (Mean Time to Data Inaccessibility). Faktor yang mempengaruhi adalah :

  1. Swap
  2. Sistem pendingin
  3. Power
  4. RAID (Redundant Array of Inexpensive Disks)

8. RAID

Merupakan implementasi toleransi kesalahan pada media penyimpanan / disk dengan tujuan mengurangi redundansi data (Akses ataupun proses). RAID dibagi menjadi lima tipe, yaitu RAID 0 (stripping), RAID 1 (mirroring), RAID 2 (humming), RAID 3 (pengecekan disk tunggal dalam kelompok disk, penggunaan sudah lebih dari 3 disk), RAID 4 (pembacaan dan penulisan secara independen), RAID 5 (sebaran data dan paritas ke semua drive)

Penggunaan RAID pada server sesuai kebutuhan, karena setiap server memiliki spesifikasi yang berbeda. Salah satu contohnya adalah Storage 7000 dari SUN yang memungkinkan pemakaian SATA storage pada server, dan menggunakan SID dalam mengupdate kecepatan akses tanpa merubah pemakaian RAID.

Oleh : Wildan S (Unkick.wordpress.com)

travian hack (plus|+)

Sebenere buka sebagian travian plus tanpa plus account :

1. buka firefox

2. ketik di google “greasemonkey”

3. download atau langsung install

4. buka www.userscript.com ketik di search “travian”

5. silahkan pilih script terus download

6. script yang wajib dipakai “travian3 beyond”

7. selamat mencoba,,, (aku belum coba script yang laen wkwkwkwk > kalo ndak keberatan dicoba ya heheheh)

fasilitas : prediksi waktu serangan, prediksi SDA,  prediksi bangunan, bookmark, warna dan angka tanda upgrade, peta, kirim pesan cepat, dll (very helpfull!!! : ) )  “lets build the wonder!”

Untuk sementara yang tanya mmorpg / rpg ditahan dulu, hehehhe. Lagi konsen travian nie…… seraaaaaaaaaaaaaaaaaaaaaaaang (kalo maen ini jadi inget pokemon kesukaanku)

Yang pingin maen travian, ngomong aku ya? ntar tak invite pake accountku, aku biar dapat gold.Ntar kalian kalo aku dpt gold tak kirimi SDA. Mau minta brp terserah kalian?. Aliansi kami pun terbuka untuk siapa saja yang senang dengan persaudaraan.

Published in: on February 9, 2009 at 12:32 am Comments (11)
Tags: , , , ,

Kategori Pengunjung Warnet

Ini adalah beberapa jenis pengunjung warnet (serius banget kalimate, :) wekekeke), paling tidak ini dapat jadi alasan untuk orang pergi ke warnet. Antara laen :

1. Pelajar / Mahasiswa kerjain tugas. Udah jelas nih orang orang ini kerjain tugas sampe berpeluh. ciri ciri sudah tampak dari pakaiannya yaitu berpakaian seragam atau rapi dan membawa tas, biasanya bersama teman bawa perkakas ndak jelas seperti buku dan kertas

2. Chaters. Jelas banget malah, kerjanya cari teman di MIRC atau di YM. Ndak jelas yang dicari cowok ato cewek. Biasanya waktu pake komputer, ketawa sendiri malah ada yang jerit jerit ndak karuan.

3. Gamers. Orang maniak game dikategorikan disini, biasanya mereka datang beramai ramai atau sendiri. Rata2 dari usia 8 taonan sampe 25 taon. Maen game tok wes, kadang kadang berhenti sejenak. MUlutnya ndak bisa diam, malah sering mengumbar kata kata kotor. NGinep sampe pagi di warnet, atau selalu ngenet lebih dari 3 jam. suara keyboard dan mouse ramai kayak di lapangan sepak bola

4. Cheaters. Yang ini lebih keren dikit dari gamers, karena biasanya bawa flashdisk dan selalu bingung dengan koneksi internet. Serta sebelum maen game selalu bingung instal sana instal sini. Masih buka browser untuk buka forum cheat… biasanya laki laki dan kalo udah serius malah diem sekali tanpa ada suara berisik dan wajah kadang marah marah sendiri. Serius banget wes, sesekali tertawa karena udah bisa ngecheat, “meski cuma dikit PD nya minta ampun”.

5. Hackers, Kalo yang ini jarang ke warnet. Ke warnet cuma pingin aja, Malah orang orang ini sering cari akses internet gratis…..

6. Crackers, apa bedanya ama yang diatas? cuma tujuannya doang….

7. “Metrosexual”. Kalo ndak cowok dan cewek pakaiannya ndak cocok pergi ke warnet. berangkat dengan pasangan sejenis malam malam, paling lama cuma 3 jam langsung pergi. “Biasalah orang malam”

8. Bokepers. Wah ini jelas banget nih. Biasanya wajah tampak serius tp sebenere ndak serius, terus tanpa gerak sama sekali. Kalo dilihat orang pasti bingung. Malah sering tipe ini tidak terlalu ahli bermain komputer. Kebanyakan yang dikategorikan ini yang “dewasa doang”. Biasanya malah ada yang datang cuman sebentar trus pergi, soalnya bawa flashdisk ukuran 40 G, wekekekeke (ke warnet cuman ngopi doang)

9. Anak iseng ama belajaran. JElaaaaaaaaaaaas banget, soale login aja ndak bisa…………. wkekekekekekeke maklum lah masih belajaran.

10. FS / FB Mania. heheheheh biasalah cuma check comment doang… ama “menghias rumah”.

Published in: on February 1, 2009 at 6:03 pm Leave a Comment

Cara menggunakan Hide toolz (only for dummies)

Hide toolz merupakan software yang digunakan untuk menyembunyikan aplikasi dari proses windows, salah satu aplikasi yang sering disembunyikan untuk tujuan tertentu adalah cheat engine dan keylogger. Emang tujuan pemakaian hide toolz tidak selalu baik, malahan yang menggunakan program ini kebanyakan orang yang tidak berkecimpung di dunia komputer salah satunya adalah cheater dan anak baru kemaren yang pegang komputer. Tapi ndak masalah kok, aku juga baru kemarin pegang komputer. Untuk newbie cheater ini bisa dibuat sedikit solusi untuk CE yang selalu terdeteksi oleh server.

langkah :

1. buka hide toolz

2. buka aplikasi / game atau yang laen

3. cari / open aplikasi pada file>hide toolz, dan buka

4. pada frame sebelah kiri akan muncul daftar aplikasi yang sedang on beserta aplikasi yang kalian pilih tadi. Trus aplikasi tadi, klik kanan dan HIDE

5. setelah itu program akan ditandai dengan (**) 2 asterik yang menandakan program telah disembunyikan dari proses windows

Heheheheheh, sori ini benar benar for dummies. Soale ada yang tanya hari ini. Sampai saat ini yang belum terdeteksi ama server game dengan memakai hide toolz adalah Revolution Engine, kalo pake WPE ati ati aja dari pada kena ban’. Kalo ada yang baru kasih tau ya?

Published in: on November 21, 2008 at 12:14 am Leave a Comment
Tags: , , ,

Lubang di Pos Cora (hehehe ini BUG)

Ini benar benar lubang di pos cora, masak aku bisa masuk ke pos cora tanpa lewat gerbang, hehehhehehehe. ” INI NAMANYA BUG NYA GAME

Caranya gini : Kalian jalan dari dar terang ke pos cora, ngelewatin monters “algrch apa algoritma seh namae cek angel e” ndak usah belok kanan. Biasanya kan kk belok kanan ngelewatin jalan setapak yang sebelah kanan e ada monster bat ama vaferik kan?

Itu ndak usah langsung aja terus lempeng ke pos cora ndak usah ikut jalan setapak kalo dari dar terang, terus aja sampai dibawahnya pos cora yang ada sungainya. waktu udah dipinggiran sungai dan kalo kk melongo ke atas udah dapat ngeliat protal ama temboknya alchemist berarti udah bener. terus aja ke arah itu meski didepannya udah mentok sungai karena otomati akan naek sendiri ndak perlu cheat terbang segala.

Waktu tadi siang aku iseng iseng bd tameng, ternyata enak juga aku di pos monsternya dibawah atau malahan kuajak serta ke pos. sayange kalo monster kuajak serta di pos ptku ndak nambah sama sekali.

” buat apa dibuatin jalan setapak kalo lempeng aja tanpa jembatan bisa nyebrang sungai “

Published in: on November 13, 2008 at 6:43 pm Comments (3)
Tags: , ,

Malam minggu kelabu (komputer jadi korban “gold” )

Apes banget minggu pagi, maksudnya minggu dini hari. KOMPUTERKU kena VIRUS, katanya avastnya sih cuma worm doang. Akibatnya itu lho yang megelno. Lha gimana lagi, masak semua file .exe ama file .rar harus dihapus semua karena terinfeksi ini virus. TOLoooooong (malah malam minggune mau tlp aja ndak bisa – low bat : apa ndak megelno maneh tuh – “apa hubungane ya? :( “), dan sampai sore ini blum tak install soale pagi ne ada acara keluarga terus sore jam 3 langsung ke “tempat menthelengi traffict”. Malam minggunya blum tidur, ya ini sekarang jam 4 sore minggu aku blum tidur sama sekali.

Semua kejadian tidak menyenangkan ini berawal dari malam minggu yang menyebalkan, programku blum selesai dan hari sudah menjelang magrib. Aku pun pergi mandi dan sholat terus karena jenuh dan sumpek, aku pergi maen ke rumah temen2. Eh bah dalah, ternyata di sana malah diajak bahas cheat rf> Yaaa, mana bisa berhenti kalo bahas gituan apalagi ngomongin cheat gold. Akhirnya jam 11 malam memutuskan cari warnet di Lawang. Pertama di Green ternyata penuh, terus di stasiun net ternyata tutup, akhirnya di warnet baru sebelah selatan stasiun lawang. Emang sih warnet dapat, tapi lemot nya itulho minta ampun, wong clientnya aja cuma 4 doang. Pertama sih enak buka rf, tapi waktu war (mak bisa ditinggal ngopi dulu :) ).
Akhirnya beneran tak tinggal beli makan dulu di depan SD lawang 05, setelah balek temenku yang maen malah keluar warnet. Katae gini ” sek rokoan dulu, di dalem malah tambah panas”. hehehehe aku seh tertawa ae sama temenku yang satune. Akhirnya kelompok maniak game ini, maen kerumahku …

Walah akhirnya pake revolution engine ama hide toolz ditempatku. Emang sih bisa jalan dengan mematikan avast dulu. Lumayan lah selesai jam 2 pagi udah bisa ganti nilai gold jadi 99999 tapi masih blum bisa reset setelah dari bank soale emang perlu waktu banget (katanya udah ada yang bisa seh-kalo ada kasih tau ya? kalo mau), dan cheat laen seperti damage, fly, aspd, blink, dll (di google seabrek kalo pake  CE ndak tau kalo tutorial mudah dengan WPE – blum coba)

Masalahnya bukan di nge Cheatnya atau hasilnya ngeCheat, tapiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii. KOMPUTERKU JADI KORBAN, gara gara tak matiin avastnya, hwuaaaaaaaaaaaaaaaaaaaaa sampe sekarang blum tak benerin padahal kerjaan program udah mepet banget sedang sore ini aku masih sibuk “menthelengi traffict” sampe pagi lagi, , ,…….
Bayangin aja kalo win ndak ada file exenya semua ? (bayangin deh). Apa ndak seperti mayat hidup kalo dibiarin.  tuoloooooooooooonggggggggg (malam minggu sampe senin kelabu deh)

Published in: on November 2, 2008 at 9:55 am Comments (2)
Tags: , , ,

Rocchio classifiers

Rocchio classifiers merupakan salah satu metode pembelajaran supervised document classification. Metode klasifikasi rocchio membandingkan kesamaan isi antara data training dan data test dengan merepresentasikan semua data ke dalam vektor. Setiap bobot kata merupakan dimensi dalam ruang vektor. Kedekatan kesamaan isi dihitung dari kedekatan sudut yang terbentuk antara bobot data training dan bobot data test menggunakan aturan cosine. Untuk menghitung bobot setiap kata dalam dokumen digunakan skema pembobotan TFIDF (Term Frequency / Invers Document Frequency). Karena komponen heuristic / utama dari klasifikasi rocchio adalah skema pembobotan TFIDF, metode pembelajaran rocchio disebut juga dengan TFIDF Classifiers (Joachihms, 1997).

Dalam membandingkan kesamaan isi antara data training dan data test, TFIDF classifiers menggunakan prototipe vektor untuk merepresentasikan kategori yang terbentuk dari data training, dengan kata lain prototipe vektor merupakan vektor yang mewakili seluruh vektor data training dalam setiap kategori. Tiga hal utama yang dipakai pada klasifikasi TFIDF adalah menggunakan skema pembobotan TFIDF untuk merepresentasikan dokumen ke dalam vektor, merepresentasikan prototipe setiap kategori dengan menjumlahkan vektor-vektor dalam satu kategori dari data training, membandingkan kedekatan sudut antara vektor data test dengan semua prototipe vektor (Tomassen, 2007).

Published in: on March 24, 2008 at 6:33 pm Comments (6)
Tags: , ,

Document classification

Secara sederhana document classification dapat diartikan sebagai usaha untuk mengklasifikasi dokumen pada kategori kategori tertentu. Document classification pada dasarnya dibagi menjadi 2 metode dasar yaitu unsupervised document classification dan supervised document classification. Unsupervised document classification tidak memiliki pola atau aturan yang dicari sebagai pembelajaran. Sedangkan supervised document classification memiliki pola yang dijadikan sebagai patokan dalam mengklasifikasi dokumen baru, pola tersebut diperoleh dari proses pembelajaran terhadap dokumen training atau dokumen yang telah terklasifikasi. Pada supervised document classification digunakan dokumen training dan dokumen test, sedangkan unsupervised document classification tidak digunakan pembedaan dokumen training dan dokumen test.

Document classification ada yang menyebut sebagai text mining, adapula yang menyebutnya sebagai text categorization, walaupun text categorization berbeda dengan text mining. Metode pembelajaran text mining pun dapat dikelompokkan ke dalam kategori kategori tertentu berdasarkan metode yang digunakan, sebagai contoh adalah text mining yang menggunakan metode statistic (contoh : naïve bayesian)

Saya sendiri sih setuju dengan penggunaan nama document classification, karena mempunyai lingkup yang lebih luas. Kebanyakan orang hanya menggunakan istilah clustering dan text mining, yang memang kedua istilah tersebut sudah membedakan secara mendasar 2 kelompok besar dalam klasifikasi.

Published in: on at 6:32 pm Comments (2)
Tags: