Sabtu, 21 Oktober 2017

DATA MINING

Data mining (Connolly dan Begg, 2010) adalah suatu proses ekstraksi atau penggalian data yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting.

Pada prosesnya data mining akan mengekstrak informasi yang berharga dengan cara menganalisis adanya pola-pola ataupun hubungan keterkaitan tertentu dari data-data yang berukuran besar. Data mining berkaitan dengan bidang ilmu-ilmu lain, seperti Database System, Data Warehousing, Statistic, Machine Learning, Information Retrieval, dan Komputasi Tingkat Tinggi. Selain itu data mining didukung oleh ilmu lain seperti Neural Network, Pengenalan Pola, Spatial Data Analysis, Image Database, Signal Processing.


ARSITEKTUR DAN MODEL DATA MINING


Data mining merupakan proses pencarian pengetahuan yang menarik dari data berukuran besar yang disimpan dalam basis data, data warehouse atau tempat penyimpanan informasi lainnya. Dengan demikian arsitektur sistem data mining memiliki komponen-komponen utama (Han dan Kamber, 2006) yaitu:

Database, data warehouse, World Wide Web, atau tempat penyimpanan informasi lainnya: bisa berbentuk satu atau banyak database, data warehouse, spreadsheet, ataupun tempat penyimpanan informasi lainnya. Data Cleaning, Data Integration dan Data Selection dapat dijalankan pada data tersebut.

Database dan data warehouse server. Komponen ini bertanggung jawab dalam pengambilan data yang relevan, berdasarkan permintaan pengguna.

Knowledge Based. Komponen ini merupakan domain knowledge yang digunakan untuk memandu pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut meliput hirarki konsep yang digunakan untuk mengorganisasikan atribut atau nilai atribut kedalam level abstraksi yang berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk menentukan kemenarikan pola yang diperoleh.

Data mining engine. Bagian ini merupakan komponen penting dalam arsitektur sistem data mining. Komponen ini terdiri dari modul-modul fungsional seperti karakterisasi, asosiasi, klasifikasi, dan analisis cluster.

Ghrapical user interface (GUI). Modul ini berkomunikasi dengan pengguna dan data mining. Melalui komponen ini, pengguna berinteraksi dengan sistem menggunakan query.


FUNGSI DATA MINING


a) Prediction Methods
Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang akan datang.

Classification
Klasifikasi menghasilkan model untuk menentukan kelas suatu objek berdasarkan atributnya. Kumpulan catatan akan tersedia, masing-masing berisi satu set atribut. Salah satu atribut akan menjadi atribut kelas dan tujuan tugas klasifikasi adalah menugaskan atribut kelas ke kumpulan record baru seakurat mungkin.

Klasifikasi dapat digunakan dalam pemasaran langsung, yaitu mengurangi biaya pemasaran dengan menargetkan sekumpulan pelanggan yang cenderung membeli produk baru. Dengan menggunakan data yang tersedia, Anda dapat mengetahui pelanggan mana yang membeli produk serupa dan yang tidak membeli di masa lalu. Oleh karena itu, {purchase, do not purchase} keputusan membentuk atribut kelas dalam kasus ini. Setelah atribut kelas diberikan, informasi demografi dan gaya hidup pelanggan yang membeli produk serupa dapat dikumpulkan dan kiriman promosi dapat dikirimkan secara langsung kepada mereka.

Prediction
Prediksi tugas memprediksi kemungkinan nilai data yang hilang atau yang akan datang. Prediksi melibatkan pengembangan model berdasarkan data yang tersedia dan model ini digunakan untuk memprediksi nilai masa depan kumpulan data baru yang diminati. Misalnya, model dapat memprediksi pendapatan seorang karyawan berdasarkan pada pendidikan, pengalaman dan faktor demografis lainnya seperti tempat tinggal, jenis kelamin, dll. Analisis prediksi juga digunakan di berbagai bidang termasuk diagnosis medis, deteksi kecurangan, dll.

Time - Series Analysis
Seri waktu adalah urutan kejadian dimana acara berikutnya ditentukan oleh satu atau beberapa kejadian sebelumnya. Seri waktu mencerminkan proses yang diukur dan ada beberapa komponen yang mempengaruhi perilaku suatu proses. Analisis deret waktu mencakup metode untuk menganalisis data deret waktu guna mengekstrak pola, tren, aturan, dan statistik yang berguna. Prediksi pasar saham merupakan aplikasi penting dalam analisis deret waktu.

b) Description Methods
Mendapatkan pola penafsiran (humaninterpretable patterns) untuk menjelaskan data.

Association
Asosiasi menemukan asosiasi atau hubungan di antara seperangkat item. Asosiasi mengidentifikasi hubungan antar objek. Analisis asosiasi digunakan untuk manajemen komoditas, periklanan, desain katalog, pemasaran langsung, dll. Peritel dapat mengidentifikasi produk yang biasanya pelanggan beli bersama atau bahkan menemukan pelanggan yang merespons promosi jenis produk yang sama. Jika pengecer menemukan bahwa bir dan popok dibeli bersama-sama, dia bisa meletakkan popok yang dijual untuk mempromosikan penjualan bir.

Clustering
Clustering digunakan untuk mengidentifikasi objek data yang mirip satu sama lain. Kesamaan dapat diputuskan berdasarkan sejumlah faktor seperti perilaku pembelian, responsif terhadap tindakan tertentu, lokasi geografis dan sebagainya. Misalnya, perusahaan asuransi dapat mengkelompokkan pelanggannya berdasarkan usia, tempat tinggal, pendapatan, dll. Informasi kelompok ini akan sangat membantu untuk memahami pelanggan dengan lebih baik dan karenanya memberikan layanan yang disesuaikan dengan lebih baik.

Summarization
Summarization adalah generalisasi data. Satu set data yang relevan diringkas yang menghasilkan kumpulan yang lebih kecil yang memberikan informasi gabungan dari data. Misalnya, belanja yang dilakukan oleh pelanggan dapat diringkas menjadi total produk, total pengeluaran, penawaran yang digunakan, dan lain-lain. Informasi tingkat tinggi yang dirangkum dapat bermanfaat bagi tim penjualan atau tim hubungan pelanggan untuk analisis perilaku pelanggan dan pembelian yang terperinci. Data dapat dirangkum dalam tingkat abstraksi yang berbeda dan dari sudut yang berbeda.


TUJUAN DATA MINING

a) Explanatory
Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick-up meningkat di Colorado.

b) Confirmatory
Untuk mempertegas hipotesis, seperti halnya dua kali pendapatan keluarga lebih suka dipakai untuk membeli peralatan keluarga dibandingkan dengan satu kali pendapatan keluarga.

c) Exploratory
Untuk menganalisa data yang memiliki hubungan yang baru. Misalnya, pola apa yang cocok untuk kasus penggelapan kartu kredit.


KLASIFIKASI DATA MINING


Data Mining (Han dan Kamber, 2006 : 29) merupakan suatu pendekatan dalam pemecahan masalah dengan menggunakan tinjauan berbagai sudut pandang ilmu secara terpadu yaitu, database system, statistics, machine learning, visualization, dan information system.


KNOWLEDGE DISCOVERY IN DATABASES

Han dan Kamber (2006 : 7), lebih spesifik menyatakan istilah Data Mining dan Knowledge Discovery in Databases (KDD) secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain dan salah satu tahap dalam proses KDD adalah data mining.

Data mining adalah salah satu langkah dalam proses KDD secara keseluruhan. Secara umum, data mining digunakan oleh banyak peneliti sebagai sinonim dari proses KDD. Akhir-akhir ini, data mining dan knowledge discovery telah diusulkan sebagai nama yang paling memadai untuk keseluruhan proses KDD. Knowledge Discovery in Databases berkaitan dengan proses penemuan pengetahuan yang diterapkan pada database. Hal ini juga didefinisikan sebagai proses non-trivial untuk identifikasi data yang valid, baru, berpotensi bermanfaat, dan akhirnya memiliki pola yang dapat dimengerti. (Kurgan dan Musilek, 2006)

Knowledge discovery sering terhalang karena tantangan dalam integrasi dan navigasi dari data yang berbeda. Selain itu, karena jumlah dimensi di dalam data meningkat, pendekatan baru untuk penemuan pola sangat diperlukan. (Zhiyuan Chen, 2007).

Berdasarkan pengertian beberapa pengertian tersebut dapat ditarik kesimpulan bahwa Knowledge Discovery in Database (KDD) adalah proses yang bertujuan untuk menggali dan menganalisis sejumlah besar himpunan data dan mengekstrak informasi serta pengetahuan yang berguna.

Langkah penting dalam proses KDD yang terdiri dari tahapan-tahapan sebagai berikut:

a) Data cleaning
Data cleaning merupakan proses membuang duplikasi data, memeriksa data yang tidak konsisten, dan memperbaiki kesalahan pada data, seperti kesalahan penulisan. Pada umumnya data yang diperoleh baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isi yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data cleaning juga akan mempengaruhi hasil informasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

b) Data integration
Proses menambah data yang sudah ada dengan data atau informasi lain yang relevan atau bisa disebut juga merupakan penggabungan data dari berbagai database kedalam satu database baru yang dibutuhkan oleh KDD.

Tahapan cleaning dan integration pada KDD mengasumsikan bahwa integrator data harus menghapus noise dari data awal secara paralel dengan mengintegrasikan beberapa data set. (M. Brian Blake, 2009)

c) Data selection
Pemilihan data yang relevan dan dapat dilakukan analisis dari data operasional. Data hasil pemilihan disimpan dalam database yang terpisah.

d) Data transformation
Proses tranformasi data kedalam bentuk format tertentu sehingga data tersebut sesuai untuk proses data mining. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal.

e) Data mining
Proses mencari pola atau informasi menarik dengan menggunakan teknik, metode atau algoritma tertentu.

f) Pattern evaluation
Mengidentifikasi pola-pola yang benar-benar menarik dari hasil data mining. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai atau tidak.

g) Knowledge presentation
Menampilkan pola informasi yang dihasilkan dari proses data mining, visualisasi ini membantu mengkomunikasikan hasil data mining dalam bentuk yang mudah dimengerti.


DATABASE

Database adalah suatu pembagian kumpulan data yang berisi secara logika, dan keterangan dari masing-masing data yang didesain untuk mendapatkan informasi yang dibutuhkan sebuah organisasi. Database system adalah kumpulan program aplikasi yang berinteraksi dengan basis data bersama dengan Database Management System (DBMS) dan basis data itu sendiri, sedangkan Database Management System (DBMS) adalah merupakan sistem perangkat lunak yang memungkinkan pengguna untuk mendefinisikan, membuat, memelihara dan kontrol ke akses database.

Dapat disimpulkan bahwa Database adalah sejumlah data yang terorganisasi dengan record dan field-nya yang terstruktrur dan saling terhubung untuk menyediakan informasi yang dibutuhkan oleh perusahaan.


TEKNIK – TEKNIK DATABASE

a) Searching
Searching  dilakukan untuk memeriksa serangkaian item yang memiliki sifatsifat yang diinginkan.
Tindakan untuk menemukan suatu item tertentu baik yang diketahui keberadaannya maupun tidak.
Memasukkan kata dalam suatu program komputer untuk membandingkan dengan informasi yang ada dalam database.

b) Indexing
Indexing adalah struktur-struktur akses yang digunakan untuk mempercepat respon dalam mendapatkan record-record pada kondisi-kondisi  pencarian tertentu.
Indexing field adalah suatu struktur akses index yang biasanya menjelaskan field tunggal dari suatu file.
Indexing organization  memberikan efisiensi akses ke record-record secara berurut atau random.

c) Data Reduction
Data reduction adalah transformasi suatu masalah ke masalah lain dan dapat digunakan untuk mendefinisikan serangkaian masalah yang kompleks.
Data reduction merupakan  teknik yang digunakan untuk mentransformasi dari data mentah ke bentuk format data yang lebih berguna. Sebagai contoh groupping, summing dan averaging data.
Data reduction dilakukan untuk mengatasi ukuran data yang terlalu besar. Ukuran data yang terlalu besar dapat menimbulkan ketidakefisienan proses dan peningkatan biaya pemrosesan.
Data reduction dilakukan dalam tahap data preprocessing pada rangkaian proses Knowledge Discovery Databases (KDD) sebelum data mining dengan tujuan mengurangi ukuran data yang besar.

d) OLAP (On-line analytical processing)
OLAP adalah suatu sistem atau teknologi yang dirancang untuk mendukung proses analisis kompleks dalam rangka mengungkapkan kecenderungan pasar dan faktor-faktor penting dalam bisnis
OLAP ditandai dengan kemampuannya menaikkan atau menurunkan dimensi data sehingga kita dapat menggali data sampai pada level yang sangat detail dan memperoleh pandangan yang lebih luas mengenai objek yang sedang kita analisis.
OLAP secara khusus memfokuskan pada pembuatan data agar dapat diakses pada saat pendefinisian kembali dimensi.
OLAP  dapat digunakan membuat rangkuman dari multidimensi data yang berbeda, rangkuman baru dan mendapatkan respon secara online, dan memberikan view dua dimensi pada data cube multidimensi secara interaktif.

1 komentar:

 

Blogger news

Penguna menambahkan artikel terbaru pada 28 Agustus 2015

Blogroll

About