ILMU KOMPUTER: Data Mining

Metodologi Data Mining

Komponen data mining pada proses KDD seringkali merupakan aplikasi iteratif yang berulang dari metodologi data mining tertentu. Pada pembahasan di sini akan digunakan istilah pola dan model. Pola dapat diartikan sebagai instansiasi dari model. Sebagai contoh

f(x) = 3x2 + x adalah pola dari model f(x)

= ax2 + bx.

Data mining melakukan “pengepasan” atau pencocokan model ke, atau menentukan pola dari data yang diobservasi. Ada dua pendekatan matematis yang digunakan dalam pencocokan model: statistik yang memberikan efek non-deterministik dan logik yang murni deterministik. Yang lebih banyak digunakan adalah pendekatan statistik, mengingat ketidakpastian yang ada dalam proses pembangkitan data di dunia nyata.

Kebanyakan metodologi data mining didasarkan pada konsep mesin belajar, pengenalan atau pencocokan pola dan statistik: klasifikasi, pengelompokan (clustering), pemodelan grafis, dll.

Tugas Utama Data Mining

Telah disebutkan di ruang lingkup data mining bahwa pada kebanyakan aplikasinya, gol utama dari data mining adalah untuk membuat prediksi dan deskripsi. Prediksi menggunakan beberapa variabel atau field-field basis data untuk memprediksi nilai-nilai

variabel masa mendatang yang diperlukan, yang belum diketahui saat ini. Deskripsi berfokus pada penemuan pola-pola tersembunyi dari data yang ditelaah. Dalam konteks KDD, deskripsi dipandang lebih penting daripada prediksi4. Ini berlawanan dengan aplikasi pengenalan pola dan mesin belajar.

Prediksi dan deskripsi pada data mining dilakukan dengan tugas-tugas utama yang akan dijelaskan di bawah ini. Pada setiap tugas akan diberikan pointer ke masalah bisnis yang dapat diselesaikan (yang telah dibahas pada butir 3).

Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsure (item) data ke dalam salah satu dari beberapa kelas yang sudah didefinisikan.

Regresi adalah fungsi pembelajaran yang memetakan sebuah unsur data ke sebuah variabel prediksi bernilai nyata. Aplikasi dari regresisi ini misalnya adalah pada prediksivolume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed), prediksi kebutuhan kustomer terhadap sebuah produk baru sebagai fungsi dari pembiayaan advertensi, dll.

Pengelompokan (clustering) merupakan tugas deskripsi yang banyak digunakan dalam
mengidentifikasi sebuah himpunan terbatas pada kategori atau cluster untuk mendeskripsikan data yang ditelaah. Kategori-kategori ini dapat bersifat eksklusif dan ekshaustif mutual, atau mengandung representasu yang lebih kaya seperti kategori yang hirarkis atau saling menumpu (overlapping).

Peringkasan melibatkan metodologi untuk menemukan deskripsi yang ringkas dari sebuah himpunan data. Satu contoh yang sederhana adalah mentabulasikan mean dan deviasi standar untuk semua field-field tabel.

Pemodelan Kebergantungan adalah penemuan sebuah model yang mendeskripsikan kebergantungan yang signifikan antara variabelvariabel. Model kebergantungan ini ada di 2 tingkat: tingkat structural yang menspesifikasikan variabelvariabel yang secara local bergantung satu sama lain, dan tingkat kuantitatif yang menspesifikasikan tingkat kebergantungan dengan menggunakan skala numeric

Pendeteksian Perubahan dan Deviasi berfokus pada penemuan perubahan yang paling signifikan di dalam data dari nilai-nilai yang telah diukur sebelumnya.

Komponen Algoritma Data Mining

Setelah tugas-tugas utama dari data mining didefinisikan seperti di atas, maka perlu dirumuskan algoritma-algoritma untuk mencari solusi dari tugas-tugas tersebut di atas. Dalam setiap algoritma data mining ada tiga komponen utama yaitu representasi model, evaluasi model dan metodologi pencarian.

a) Representasi Model adalah bahasa untuk mendeskripsikan pola-pola yang dapat ditemukan. Jika representasi terlalu terbatas, maka tidak akan ada jumlah waktu pelatihan maupun sampel yang mencukupi, yang akan menghasilkan model yang akurat untuk data.

b) Evaluasi Model mengestimasi tingkat kecocokan sebuah pola tertentu untuk memenuhi kriteria pada proses KDD.

Ealuasi pada keakuratan prediksi (validasi) didasarkan pada validasi silang. Evaluasi kualitas deskriptif berkaitan dengan akurasi, kebaruan, utilitas dan kemampuan untuk dipahami dari model yang diterapkan. Kiteria logika dan statistik dapat digunakan untuk evaluasi model.

c) Metodologi Pencarian terdiri dari dua komponen: pencarian parameter da pencarian model. Pada pencarian parameter, algoritma harus mencari parameter-parameter yang

mengoptimisasi kriteria evaluasi model dengan tersedianya data yang diobservasi dan representasi model yang tetap. Pencarian model terjadi sebagai sebuah loop di atas metodologi pencarian parameter: representasi model diubah sehingga dibentuk satu keluarga model-model. Untuk setiap representasi model, metodologi pencarian parameter

diinstansiasi untuk mengevaluasi kualitas dari model itu. Implementasi metodologi pencarian model cenderung untuk menggunakan teknik pencarian heuristic. Ada banyak metodologi data mining, tapi di sini hanya akan dibahas yang popular saja. Bahasan metodologi akan meliputi segi representasi model, evaluasi model dan metodologi pencarian.

a. Aturan dan Pohon Keputusan

Metodologi ini, yang menggunakan pemisahan (split) univariate, mudah dipahami oleh pemakai karena bentuk representasinya yang sederhana.. Akan tetapi, batasan-batasan yang diterapkan pada representasi aturan dan pohon tertentu dapat secara signifika membatasi bentuk fungsional dari model.

Metodologi ini terutama digunakan untuk pemodelan prediksi, keduanya untuk klasifikasi dan regresi4. Selain itu, dapat digunakan juga untuk pemodelan deskripsi ringkasan.

b. Metodologi Klasifikasi dan Regresi

Non-linier

Kedua metodologi ini terdiri dari sekumpulan teknik-teknik untuk memprediksi kombinasi variabel-variabel masukan yang pas dengan kombinasi linier dan non-linier pada fungsi-fungsi dasar (sigmoid, splines, polinomial).

Contohnya antara lain adalah jaringan saraf feedforward, metodologi spline adaptif, dan proyeksi regresi pursuit. Metodologi Berbasis-sampel Representasi dari metodologi ini cukup sederhana: gunakan sampel dari basisdata untuk mengaproksimasi sebuah model, misalnya, prediksi sampel-sampel baru diturunkan dari properti sampel-sampel yang “mirip” di dalam model yang prediksinya sudah diketahui. Teknik ini misalnya adalah klasifikasi tetanggaterdekat, algoritma regresi dan system reasoning berbasis-kasus.

d. Model Kebergantungan Grafik

Probabilistik

Model grafik menspesifikasikan kebergantungan probabilistik yang mendasari sebuah model dalam menggunakan struktur grafik. Dalam bentuknya yang paling sederhana, model ini menspesifikasikan variabel-variabel mana yang bergantung satu sama lain.

Pada umumnya, model ini digunakan dengan variabel kategorial atau bernilai diskret, tapi pengembangan untuk kasus khusus, seperti densitas Gausian, untuk variabel yang bernilai real (pecahan) juga dimungkinkan. Baru-baru ini riset di bidang inteligensia buatan dan statistic dilakukan untuk mencari teknik dimana struktur dan parameter-parameter pada model grafik “dipelajari” secara langsung dari basisdata.

e. Model Belajar Relasional

Jika aturan dan pohon-keputusan memiliki sebuah representasi yang terbatas pada logika proporsional, pembelajaran relasional (yang juga dikenal sebagai pemrograman logika induksi) menggunakan bahasa pola yang lebih sederhana dengan logika tingkatsatu. Pembelajar relasional dengan mudah dapat menemukan formula seperti X=Y. Kebanyakan riset pada metodologi evaluasi model untuk pembelajaran relasional bersifat logik.

Banyak perusahaan yang sudah meluncurkan aplikasi data mining (KDD) dan telah mendapatkan keuntungan. Teknologi ini tidak hanya cocok untuk digunakan oleh industri-industri yang mengelola informasi secara intensif seperti perbankan, tetapi juga perusahaan apa saja yang ingin memanfaatkan gudang data untuk memanajemen kustomer dengan lebih baik. Dua factor penting yang menentukan keberhasilan penggunaan dari data mining adalah: gudang data yang berukuran besar dan terintegrasi dengan baik, dan pemahaman atau identifikasi yang baik terhadap proses bisnis dimana data mining akan diaplikasikan5.

Beberapa contoh bidang-bidang bisnis yang telah berhasil menerapkan aplikasi data mining adalah:

a) Perusahaan farmasi dapat menganalisis aktivitas penjualan terkininya dan menggunakan hasilnya untuk mentargetkan dokterdokter yang berpotensi menggunakan produknya dan menentukan aktifitas pemasaran yang paling efektif untuk beberapa bulan mendatang.

b) Perusahaan kartu kredit dapat memanfaatkan data transaksi kustomer-kustomernya untuk merancang produk kredit baru yang akan menarik minat para customer tersebut.

c) Perusahaan transportasi yang menyediakan berbagai jenis pelayanan. Data mining dapat digunakan untuk mengidentifikasi prospek-prospek pelayanan yang menjanjikan keuntungan.

d) Perusahaan produk makanan atau kebutuhan sehari-hari. Data mining dapat dimanfaatkan untuk meningkatkan penjualan produk ke para pengecer (retailer). Data kustomer, pengiriman, aktivitas kompetitor dapat digunakan untuk menganalisis sebab sebab customer berpindah ke produk merek lain. Kemudian, hasilnya dapat digunakan untuk menyusun strategi pemasaran yang lebih efektif.

Walaupun telah banyak diaplikasikan di dunia bisnis dan mendatangkan profit, teknologi KDD dan Data Mining masih memiliki tantangan-tantangan yang harus diatasi. Riset untuk menyempurnakan KDD diperlukan antar lain untuk mengatasi4:

a) Basisdata yang berukuran besar, dengan ratusan tabel, jutaan record dan berukuran sampai dengan multigigabyte.

b) Dimensi yang besar, basisdata tidak hanya memiliki jutaan rekord tetapi juga jumlah field (atribut, variabel) yang besar.

c) Data dan pengetahuan yang berubah terus sehingga pola-pola yang telah ditemukan sebelumnya menjadi tidak berlaku lagi.

d) Data yang hilang dan banyak salah, hal ini banyak terjadi pada basisdata.

e) Relasi antar-field basisdata yang kompleks. Saat ini data mining masih dirancang untuk relasi yang cukup sederhana.

f) Integrasi dengan sistem lain. Sistem KDD standalone bisa jadi agak kurang bermanfaat. Integrasi yang dimaksud bisa terjadi dengan DBMS, kakas-kakas spreadsheet dan visualisasi, serta pencatat sensor waktu-nyata.

ILMU KOMPUTER

Senin, 17 November 2008

Data Mining

0 komentar:

Glitter Blog

Hasil Blog Saya

About Me

MusiC BLo9