Data mining (Connolly dan Begg, 2010) adalah
suatu proses ekstraksi atau penggalian data yang belum diketahui sebelumnya,
namun dapat dipahami dan berguna dari database yang besar serta digunakan untuk
membuat suatu keputusan bisnis yang sangat penting.
Pada prosesnya data mining akan mengekstrak
informasi yang berharga dengan cara menganalisis adanya pola-pola ataupun
hubungan keterkaitan tertentu dari data-data yang berukuran besar. Data mining
berkaitan dengan bidang ilmu-ilmu lain, seperti Database System, Data
Warehousing, Statistic, Machine Learning, Information Retrieval, dan Komputasi
Tingkat Tinggi. Selain itu data mining didukung oleh ilmu lain seperti Neural
Network, Pengenalan Pola, Spatial Data Analysis, Image Database, Signal
Processing.
Data mining merupakan proses pencarian
pengetahuan yang menarik dari data berukuran besar yang disimpan dalam basis
data, data warehouse atau tempat penyimpanan informasi lainnya. Dengan demikian
arsitektur sistem data mining memiliki komponen-komponen utama (Han dan Kamber,
2006) yaitu:
Database, data warehouse, World Wide Web, atau
tempat penyimpanan informasi lainnya: bisa berbentuk satu atau banyak database,
data warehouse, spreadsheet, ataupun tempat penyimpanan informasi lainnya. Data
Cleaning, Data Integration dan Data Selection dapat dijalankan pada data
tersebut.
Database dan data warehouse server. Komponen
ini bertanggung jawab dalam pengambilan data yang relevan, berdasarkan
permintaan pengguna.
Knowledge Based. Komponen ini merupakan domain
knowledge yang digunakan untuk memandu pencarian atau mengevaluasi pola-pola
yang dihasilkan. Pengetahuan tersebut meliput hirarki konsep yang digunakan
untuk mengorganisasikan atribut atau nilai atribut kedalam level abstraksi yang
berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan pengguna (user
belief), yang dapat digunakan untuk menentukan kemenarikan pola yang diperoleh.
Data mining engine. Bagian ini merupakan
komponen penting dalam arsitektur sistem data mining. Komponen ini terdiri dari
modul-modul fungsional seperti karakterisasi, asosiasi, klasifikasi, dan
analisis cluster.
Ghrapical user interface (GUI). Modul ini
berkomunikasi dengan pengguna dan data mining. Melalui komponen ini, pengguna
berinteraksi dengan sistem menggunakan query.
FUNGSI DATA MINING
a) Prediction Methods
Menggunakan beberapa variabel untuk memprediksi
sesuatu atau suatu nilai yang akan datang.
Classification
Klasifikasi menghasilkan model untuk menentukan
kelas suatu objek berdasarkan atributnya. Kumpulan catatan akan tersedia,
masing-masing berisi satu set atribut. Salah satu atribut akan menjadi atribut
kelas dan tujuan tugas klasifikasi adalah menugaskan atribut kelas ke kumpulan
record baru seakurat mungkin.
Klasifikasi dapat digunakan dalam pemasaran
langsung, yaitu mengurangi biaya pemasaran dengan menargetkan sekumpulan
pelanggan yang cenderung membeli produk baru. Dengan menggunakan data yang
tersedia, Anda dapat mengetahui pelanggan mana yang membeli produk serupa dan
yang tidak membeli di masa lalu. Oleh karena itu, {purchase, do not purchase}
keputusan membentuk atribut kelas dalam kasus ini. Setelah atribut kelas
diberikan, informasi demografi dan gaya hidup pelanggan yang membeli produk
serupa dapat dikumpulkan dan kiriman promosi dapat dikirimkan secara langsung
kepada mereka.
Prediction
Prediksi tugas memprediksi kemungkinan nilai
data yang hilang atau yang akan datang. Prediksi melibatkan pengembangan model
berdasarkan data yang tersedia dan model ini digunakan untuk memprediksi nilai
masa depan kumpulan data baru yang diminati. Misalnya, model dapat memprediksi
pendapatan seorang karyawan berdasarkan pada pendidikan, pengalaman dan faktor
demografis lainnya seperti tempat tinggal, jenis kelamin, dll. Analisis
prediksi juga digunakan di berbagai bidang termasuk diagnosis medis, deteksi
kecurangan, dll.
Time - Series Analysis
Seri waktu adalah urutan kejadian dimana acara
berikutnya ditentukan oleh satu atau beberapa kejadian sebelumnya. Seri waktu
mencerminkan proses yang diukur dan ada beberapa komponen yang mempengaruhi
perilaku suatu proses. Analisis deret waktu mencakup metode untuk menganalisis
data deret waktu guna mengekstrak pola, tren, aturan, dan statistik yang
berguna. Prediksi pasar saham merupakan aplikasi penting dalam analisis deret
waktu.
b) Description Methods
Mendapatkan pola penafsiran (humaninterpretable
patterns) untuk menjelaskan data.
Association
Asosiasi menemukan asosiasi atau hubungan di
antara seperangkat item. Asosiasi mengidentifikasi hubungan antar objek.
Analisis asosiasi digunakan untuk manajemen komoditas, periklanan, desain
katalog, pemasaran langsung, dll. Peritel dapat mengidentifikasi produk yang
biasanya pelanggan beli bersama atau bahkan menemukan pelanggan yang merespons
promosi jenis produk yang sama. Jika pengecer menemukan bahwa bir dan popok
dibeli bersama-sama, dia bisa meletakkan popok yang dijual untuk mempromosikan
penjualan bir.
Clustering
Clustering digunakan untuk mengidentifikasi objek
data yang mirip satu sama lain. Kesamaan dapat diputuskan berdasarkan sejumlah
faktor seperti perilaku pembelian, responsif terhadap tindakan tertentu, lokasi
geografis dan sebagainya. Misalnya, perusahaan asuransi dapat mengkelompokkan
pelanggannya berdasarkan usia, tempat tinggal, pendapatan, dll. Informasi
kelompok ini akan sangat membantu untuk memahami pelanggan dengan lebih baik
dan karenanya memberikan layanan yang disesuaikan dengan lebih baik.
Summarization
Summarization adalah generalisasi data. Satu
set data yang relevan diringkas yang menghasilkan kumpulan yang lebih kecil
yang memberikan informasi gabungan dari data. Misalnya, belanja yang dilakukan
oleh pelanggan dapat diringkas menjadi total produk, total pengeluaran,
penawaran yang digunakan, dan lain-lain. Informasi tingkat tinggi yang
dirangkum dapat bermanfaat bagi tim penjualan atau tim hubungan pelanggan untuk
analisis perilaku pelanggan dan pembelian yang terperinci. Data dapat dirangkum
dalam tingkat abstraksi yang berbeda dan dari sudut yang berbeda.
TUJUAN DATA MINING
a) Explanatory
Untuk menjelaskan beberapa kondisi penelitian,
seperti mengapa penjualan truk pick-up meningkat di Colorado.
b) Confirmatory
Untuk mempertegas hipotesis, seperti halnya dua
kali pendapatan keluarga lebih suka dipakai untuk membeli peralatan keluarga
dibandingkan dengan satu kali pendapatan keluarga.
c) Exploratory
Untuk menganalisa data yang memiliki hubungan
yang baru. Misalnya, pola apa yang cocok untuk kasus penggelapan kartu kredit.
KLASIFIKASI DATA MINING
Data Mining (Han dan Kamber, 2006 : 29)
merupakan suatu pendekatan dalam pemecahan masalah dengan menggunakan tinjauan
berbagai sudut pandang ilmu secara terpadu yaitu, database system, statistics,
machine learning, visualization, dan information system.
KNOWLEDGE
DISCOVERY IN DATABASES
Han dan Kamber (2006 : 7), lebih spesifik
menyatakan istilah Data Mining dan Knowledge Discovery in Databases (KDD)
secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi
dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah tersebut memiliki
konsep yang berbeda, tetapi berkaitan satu sama lain dan salah satu tahap dalam
proses KDD adalah data mining.
Data mining adalah salah satu langkah dalam
proses KDD secara keseluruhan. Secara umum, data mining digunakan oleh banyak
peneliti sebagai sinonim dari proses KDD. Akhir-akhir ini, data mining dan
knowledge discovery telah diusulkan sebagai nama yang paling memadai untuk
keseluruhan proses KDD. Knowledge Discovery in Databases berkaitan dengan
proses penemuan pengetahuan yang diterapkan pada database. Hal ini juga
didefinisikan sebagai proses non-trivial untuk identifikasi data yang valid,
baru, berpotensi bermanfaat, dan akhirnya memiliki pola yang dapat dimengerti.
(Kurgan dan Musilek, 2006)
Knowledge discovery sering terhalang karena tantangan
dalam integrasi dan navigasi dari data yang berbeda. Selain itu, karena jumlah
dimensi di dalam data meningkat, pendekatan baru untuk penemuan pola sangat
diperlukan. (Zhiyuan Chen, 2007).
Berdasarkan pengertian beberapa pengertian
tersebut dapat ditarik kesimpulan bahwa Knowledge Discovery in Database (KDD)
adalah proses yang bertujuan untuk menggali dan menganalisis sejumlah besar
himpunan data dan mengekstrak informasi serta pengetahuan yang berguna.
Langkah penting dalam proses KDD yang terdiri
dari tahapan-tahapan sebagai berikut:
a) Data cleaning
Data cleaning merupakan proses membuang
duplikasi data, memeriksa data yang tidak konsisten, dan memperbaiki kesalahan
pada data, seperti kesalahan penulisan. Pada umumnya data yang diperoleh baik
dari database suatu perusahaan maupun hasil eksperimen, memiliki isi yang tidak
sempurna seperti data yang hilang, data yang tidak valid atau juga hanya
sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak
relevan dengan hipotesa data mining yang dimiliki. Data cleaning juga akan
mempengaruhi hasil informasi dari teknik data mining karena data yang ditangani
akan berkurang jumlah dan kompleksitasnya.
b) Data integration
Proses menambah data yang sudah ada dengan data
atau informasi lain yang relevan atau bisa disebut juga merupakan penggabungan
data dari berbagai database kedalam satu database baru yang dibutuhkan oleh
KDD.
Tahapan cleaning dan integration pada KDD mengasumsikan
bahwa integrator data harus menghapus noise dari data awal secara paralel
dengan mengintegrasikan beberapa data set. (M. Brian Blake, 2009)
c) Data selection
Pemilihan data yang relevan dan dapat dilakukan
analisis dari data operasional. Data hasil pemilihan disimpan dalam database
yang terpisah.
d) Data transformation
Proses tranformasi data kedalam bentuk format
tertentu sehingga data tersebut sesuai untuk proses data mining. Sebagai contoh
beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa
menerima input data kategorikal.
e) Data mining
Proses mencari pola atau informasi menarik
dengan menggunakan teknik, metode atau algoritma tertentu.
f) Pattern evaluation
Mengidentifikasi pola-pola yang benar-benar
menarik dari hasil data mining. Dalam tahap ini hasil dari teknik data mining
berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai
apakah hipotesa yang ada memang tercapai atau tidak.
g) Knowledge presentation
Menampilkan pola informasi yang dihasilkan dari
proses data mining, visualisasi ini membantu mengkomunikasikan hasil data
mining dalam bentuk yang mudah dimengerti.
DATABASE
Database adalah suatu pembagian kumpulan data yang berisi secara logika, dan keterangan
dari masing-masing data yang didesain untuk mendapatkan informasi yang
dibutuhkan sebuah organisasi. Database system adalah kumpulan program aplikasi
yang berinteraksi dengan basis data bersama dengan Database Management System
(DBMS) dan basis data itu sendiri, sedangkan Database Management System (DBMS)
adalah merupakan sistem perangkat lunak yang memungkinkan pengguna untuk
mendefinisikan, membuat, memelihara dan kontrol ke akses database.
Dapat disimpulkan
bahwa Database adalah sejumlah data yang terorganisasi dengan record dan
field-nya yang terstruktrur dan saling terhubung untuk menyediakan informasi
yang dibutuhkan oleh perusahaan.
TEKNIK – TEKNIK DATABASE
a) Searching
Searching
dilakukan untuk memeriksa serangkaian item yang memiliki sifatsifat yang
diinginkan.
Tindakan untuk menemukan suatu item tertentu
baik yang diketahui keberadaannya maupun tidak.
Memasukkan kata dalam suatu program komputer
untuk membandingkan dengan informasi yang ada dalam database.
b) Indexing
Indexing adalah struktur-struktur akses yang
digunakan untuk mempercepat respon dalam mendapatkan record-record pada
kondisi-kondisi pencarian tertentu.
Indexing field adalah suatu struktur akses
index yang biasanya menjelaskan field tunggal dari suatu file.
Indexing organization memberikan efisiensi akses ke record-record
secara berurut atau random.
c) Data
Reduction
Data reduction adalah transformasi suatu
masalah ke masalah lain dan dapat digunakan untuk mendefinisikan serangkaian
masalah yang kompleks.
Data reduction merupakan teknik yang digunakan untuk mentransformasi
dari data mentah ke bentuk format data yang lebih berguna. Sebagai contoh
groupping, summing dan averaging data.
Data reduction dilakukan untuk mengatasi ukuran
data yang terlalu besar. Ukuran data yang terlalu besar dapat menimbulkan
ketidakefisienan proses dan peningkatan biaya pemrosesan.
Data reduction dilakukan dalam tahap data
preprocessing pada rangkaian proses Knowledge Discovery Databases (KDD) sebelum
data mining dengan tujuan mengurangi ukuran data yang besar.
d) OLAP
(On-line analytical processing)
OLAP adalah suatu sistem atau teknologi yang
dirancang untuk mendukung proses analisis kompleks dalam rangka mengungkapkan
kecenderungan pasar dan faktor-faktor penting dalam bisnis
OLAP ditandai dengan kemampuannya menaikkan
atau menurunkan dimensi data sehingga kita dapat menggali data sampai pada
level yang sangat detail dan memperoleh pandangan yang lebih luas mengenai
objek yang sedang kita analisis.
OLAP secara khusus memfokuskan pada pembuatan
data agar dapat diakses pada saat pendefinisian kembali dimensi.
OLAP
dapat digunakan membuat rangkuman dari multidimensi data yang berbeda,
rangkuman baru dan mendapatkan respon secara online, dan memberikan view dua
dimensi pada data cube multidimensi secara interaktif.