Data Mining: Apakah Data Mining?
Ikhtisar
Umumnya, data mining (kadang-kadang disebut data atau penemuan pengetahuan) adalah proses menganalisis data dari perspektif yang berbeda dan meringkas menjadi informasi yang berguna - informasi yang dapat digunakan untuk meningkatkan pendapatan, biaya pemotongan, atau keduanya. Software data mining adalah salah satu dari sejumlah alat-alat analisis untuk menganalisis data. Hal ini memungkinkan pengguna untuk menganalisis data dari berbagai dimensi atau sudut, mengkategorikan, dan meringkas hubungan diidentifikasi. Secara teknis, data mining adalah proses menemukan korelasi atau pola di antara puluhan bidang dalam database relasional besar.
Umumnya, data mining (kadang-kadang disebut data atau penemuan pengetahuan) adalah proses menganalisis data dari perspektif yang berbeda dan meringkas menjadi informasi yang berguna - informasi yang dapat digunakan untuk meningkatkan pendapatan, biaya pemotongan, atau keduanya. Software data mining adalah salah satu dari sejumlah alat-alat analisis untuk menganalisis data. Hal ini memungkinkan pengguna untuk menganalisis data dari berbagai dimensi atau sudut, mengkategorikan, dan meringkas hubungan diidentifikasi. Secara teknis, data mining adalah proses menemukan korelasi atau pola di antara puluhan bidang dalam database relasional besar.
Inovasi terus menerus
Meskipun data mining adalah istilah yang relatif baru, teknologi ini tidak.
Perusahaan
telah menggunakan komputer kuat untuk menyaring volume data scanner supermarket
dan menganalisis laporan riset pasar selama bertahun-tahun. Namun,
inovasi terus menerus dalam kekuatan pemrosesan komputer, penyimpanan disk, dan
perangkat lunak statistik secara dramatis meningkatkan akurasi analisis saat
mengemudi menurunkan biaya.
Contoh
Sebagai contoh, salah satu rantai toko Midwest menggunakan kapasitas data mining perangkat lunak Oracle untuk menganalisis pola pembelian lokal. Mereka menemukan bahwa ketika orang membeli popok pada hari Kamis dan Sabtu, mereka juga cenderung untuk membeli bir. Analisis lebih lanjut menunjukkan bahwa pembeli biasanya melakukan kelontong mingguan mereka berbelanja pada hari Sabtu. Pada hari Kamis, namun, mereka hanya membeli beberapa item. Pengecer menyimpulkan bahwa mereka membeli bir untuk memilikinya tersedia untuk akhir pekan mendatang. Rantai kelontong bisa menggunakan informasi ini baru ditemukan dalam berbagai cara untuk meningkatkan pendapatan. Misalnya, mereka bisa memindahkan tampilan bir lebih dekat ke tampilan popok. Dan, mereka bisa membuat bir yakin dan popok yang dijual dengan harga penuh pada hari Kamis.
Sebagai contoh, salah satu rantai toko Midwest menggunakan kapasitas data mining perangkat lunak Oracle untuk menganalisis pola pembelian lokal. Mereka menemukan bahwa ketika orang membeli popok pada hari Kamis dan Sabtu, mereka juga cenderung untuk membeli bir. Analisis lebih lanjut menunjukkan bahwa pembeli biasanya melakukan kelontong mingguan mereka berbelanja pada hari Sabtu. Pada hari Kamis, namun, mereka hanya membeli beberapa item. Pengecer menyimpulkan bahwa mereka membeli bir untuk memilikinya tersedia untuk akhir pekan mendatang. Rantai kelontong bisa menggunakan informasi ini baru ditemukan dalam berbagai cara untuk meningkatkan pendapatan. Misalnya, mereka bisa memindahkan tampilan bir lebih dekat ke tampilan popok. Dan, mereka bisa membuat bir yakin dan popok yang dijual dengan harga penuh pada hari Kamis.
Data,
Informasi, dan Pengetahuan
Data
Data
Data adalah setiap fakta, angka, atau teks yang dapat diproses oleh
komputer. Hari
ini, organisasi mengumpulkan sejumlah besar dan berkembang dari data dalam
format yang berbeda dan database yang berbeda. Ini termasuk: operasional
atau transaksional data seperti, penjualan, biaya, persediaan, penggajian, dan
akuntansi
nonoperational data, seperti penjualan industri, data perkiraan,
dan data ekonomi makro meta data - data
tentang data itu sendiri, seperti desain database logis atau definisi kamus data
Informasi
Pola, asosiasi, atau hubungan di antara semua data ini dapat memberikan informasi. Misalnya, analisis titik ritel data transaksi penjualan dapat menghasilkan informasi mengenai produk yang dijual dan kapan.
Pola, asosiasi, atau hubungan di antara semua data ini dapat memberikan informasi. Misalnya, analisis titik ritel data transaksi penjualan dapat menghasilkan informasi mengenai produk yang dijual dan kapan.
Pengetahuan
Informasi dapat diubah menjadi pengetahuan tentang pola-pola historis dan tren masa depan. Misalnya, ringkasan informasi penjualan supermarket ritel dapat dianalisis dalam terang upaya promosi untuk memberikan pengetahuan tentang perilaku konsumen membeli. Dengan demikian, produsen atau pengecer dapat menentukan item yang paling rentan terhadap upaya promosi.
Informasi dapat diubah menjadi pengetahuan tentang pola-pola historis dan tren masa depan. Misalnya, ringkasan informasi penjualan supermarket ritel dapat dianalisis dalam terang upaya promosi untuk memberikan pengetahuan tentang perilaku konsumen membeli. Dengan demikian, produsen atau pengecer dapat menentukan item yang paling rentan terhadap upaya promosi.
Data Gudang
Kemajuan dramatis dalam data capture, kekuatan pemrosesan, transmisi data,
dan kemampuan penyimpanan yang memungkinkan organisasi untuk mengintegrasikan
berbagai database mereka ke dalam gudang data. Data
pergudangan didefinisikan sebagai suatu proses manajemen data terpusat dan
pengambilan. Data
pergudangan, seperti data mining, adalah istilah yang relatif baru meskipun
konsep itu sendiri telah sekitar selama bertahun-tahun. Data
pergudangan merupakan visi ideal mempertahankan repositori pusat dari semua
data organisasi. Sentralisasi
data yang diperlukan untuk memaksimalkan akses pengguna dan analisis. Kemajuan
teknologi dramatis membuat visi menjadi kenyataan bagi banyak perusahaan. Dan,
kemajuan sama dramatis dalam perangkat lunak analisis data yang memungkinkan
pengguna untuk mengakses data ini secara bebas. Perangkat
lunak analisis data yang mendukung data mining.
Apa yang dapat data mining lakukan?
Data mining terutama digunakan saat ini oleh perusahaan dengan fokus
konsumen yang kuat - ritel, organisasi keuangan, komunikasi, dan pemasaran. Hal
ini memungkinkan perusahaan-perusahaan untuk menentukan hubungan antara
"internal" faktor-faktor seperti harga keterampilan, positioning
produk, atau staf, dan "eksternal" faktor-faktor seperti indikator
ekonomi, persaingan, dan demografi konsumen. Dan,
hal itu memungkinkan mereka untuk menentukan dampak pada penjualan, kepuasan
pelanggan, dan keuntungan perusahaan. Akhirnya,
hal itu memungkinkan mereka untuk "menelusuri" menjadi informasi
ringkasan untuk melihat data detail transaksional.
Dengan data mining, pengecer bisa menggunakan point-of-sale catatan
pembelian pelanggan untuk mengirim promosi yang ditargetkan berdasarkan sejarah
pembelian individu. Dengan
pertambangan data kependudukan dari kartu komentar atau garansi, pengecer bisa
mengembangkan produk dan promosi untuk menarik segmen pelanggan tertentu.
Sebagai contoh, Blockbuster Entertainment tambang video yang database sejarah sewa untuk merekomendasikan di pelanggan individu. American Express dapat menyarankan produk untuk pemegang kartu yang didasarkan pada analisis pengeluaran bulanan mereka.
WalMart adalah perintis besar data mining untuk mengubah hubungan pemasok nya. WalMart menangkap point-of-sale transaksi dari lebih dari 2.900 toko di 6 negara dan terus menerus mengirimkan data ini ke yang sangat besar 7,5 terabyte gudang Teradata data. WalMart memungkinkan lebih dari 3.500 pemasok, untuk mengakses data pada produk mereka dan melakukan analisis data. Pemasok ini menggunakan data ini untuk mengidentifikasi pola pembelian konsumen pada tingkat tampilan toko. Mereka menggunakan informasi ini untuk mengelola persediaan toko lokal dan mengidentifikasi peluang merchandising baru. Pada tahun 1995, komputer WalMart diproses lebih dari 1 juta query data yang kompleks.
Sebagai contoh, Blockbuster Entertainment tambang video yang database sejarah sewa untuk merekomendasikan di pelanggan individu. American Express dapat menyarankan produk untuk pemegang kartu yang didasarkan pada analisis pengeluaran bulanan mereka.
WalMart adalah perintis besar data mining untuk mengubah hubungan pemasok nya. WalMart menangkap point-of-sale transaksi dari lebih dari 2.900 toko di 6 negara dan terus menerus mengirimkan data ini ke yang sangat besar 7,5 terabyte gudang Teradata data. WalMart memungkinkan lebih dari 3.500 pemasok, untuk mengakses data pada produk mereka dan melakukan analisis data. Pemasok ini menggunakan data ini untuk mengidentifikasi pola pembelian konsumen pada tingkat tampilan toko. Mereka menggunakan informasi ini untuk mengelola persediaan toko lokal dan mengidentifikasi peluang merchandising baru. Pada tahun 1995, komputer WalMart diproses lebih dari 1 juta query data yang kompleks.
The National Basketball Association (NBA) sedang menjajaki aplikasi data
mining yang dapat digunakan bersama dengan rekaman gambar permainan basket. Perangkat
lunak Pramuka Lanjutan menganalisis gerakan pemain untuk membantu memainkan
pelatih mengorganisir dan strategi. Sebagai
contoh, analisis lembar play-by-play dari permainan dimainkan antara New York
Knicks dan Cleveland Cavaliers pada 6 Januari 1995 mengungkapkan bahwa ketika
Mark Price memainkan posisi Guard, John Williams mencoba empat tembakan
melompat dan membuat masing-masing satu! Pramuka
maju tidak hanya menemukan pola ini, namun menjelaskan bahwa itu menarik karena
berbeda jauh dari persentase rata-rata penembakan 49.30% untuk Cavaliers selama
pertandingan itu.
Dengan menggunakan jam NBA universal, pelatih otomatis dapat membuka klip video yang menunjukkan masing-masing tembakan melompat dicoba oleh Williams dengan Harga di lantai, tanpa perlu menyisir jam rekaman video. Mereka klip menunjukkan permainan pick-and-roll yang sangat sukses di mana harga menarik pertahanan Knick dan kemudian menemukan Williams untuk tembakan melompat terbuka.
Dengan menggunakan jam NBA universal, pelatih otomatis dapat membuka klip video yang menunjukkan masing-masing tembakan melompat dicoba oleh Williams dengan Harga di lantai, tanpa perlu menyisir jam rekaman video. Mereka klip menunjukkan permainan pick-and-roll yang sangat sukses di mana harga menarik pertahanan Knick dan kemudian menemukan Williams untuk tembakan melompat terbuka.
Bagaimana cara kerja data mining?
Sementara skala besar teknologi informasi telah berkembang transaksi
terpisah dan sistem analitis, data mining menyediakan link antara keduanya. Perangkat
lunak data mining menganalisis hubungan dan pola dalam data transaksi disimpan
berdasarkan terbuka permintaan pengguna. Beberapa
jenis perangkat lunak analitis yang tersedia: statistik, pembelajaran mesin,
dan jaringan saraf. Umumnya,
salah satu dari empat jenis hubungan yang dicari:
Kelas: Data Stored digunakan untuk mencari data dalam kelompok yang telah ditentukan. Sebagai contoh, sebuah rantai restoran bisa menambang data pelanggan pembelian untuk menentukan kapan pelanggan mengunjungi dan apa yang mereka biasanya memesan. Informasi ini dapat digunakan untuk meningkatkan lalu lintas dengan memiliki spesial sehari-hari.
Cluster: Data item dikelompokkan menurut hubungan logis atau preferensi konsumen. Sebagai contoh, data dapat ditambang untuk mengidentifikasi segmen pasar atau konsumen afinitas.
Asosiasi: Data dapat ditambang untuk mengidentifikasi asosiasi. Contoh bir popok adalah contoh pertambangan asosiatif.
Kelas: Data Stored digunakan untuk mencari data dalam kelompok yang telah ditentukan. Sebagai contoh, sebuah rantai restoran bisa menambang data pelanggan pembelian untuk menentukan kapan pelanggan mengunjungi dan apa yang mereka biasanya memesan. Informasi ini dapat digunakan untuk meningkatkan lalu lintas dengan memiliki spesial sehari-hari.
Cluster: Data item dikelompokkan menurut hubungan logis atau preferensi konsumen. Sebagai contoh, data dapat ditambang untuk mengidentifikasi segmen pasar atau konsumen afinitas.
Asosiasi: Data dapat ditambang untuk mengidentifikasi asosiasi. Contoh bir popok adalah contoh pertambangan asosiatif.
Pola
Sequential: Data ditambang untuk mengantisipasi pola perilaku dan tren. Sebagai
contoh, pengecer peralatan outdoor bisa memprediksi kemungkinan ransel yang
dibeli berdasarkan pembelian konsumen tidur tas dan sepatu hiking.
Data mining terdiri dari lima elemen utama:
Mengekstrak,
mengubah, dan data beban transaksi ke sistem data warehouse.
Menyimpan
dan mengelola data dalam sistem database multidimensi.
Menyediakan
akses data untuk analis bisnis dan profesional teknologi informasi.
Menganalisis data dengan
perangkat lunak aplikasi.
Menyajikan
data dalam format yang bermanfaat, seperti grafik atau tabel.
Tingkat analisis yang berbeda yang tersedia:
Jaringan
saraf tiruan: Non-linear model prediksi yang belajar melalui pelatihan dan
menyerupai jaringan syaraf biologis dalam struktur.
Algoritma genetik: Optimasi teknik yang menggunakan proses seperti
kombinasi genetik, mutasi, dan seleksi alam dalam desain berdasarkan konsep
evolusi alam.
Pohon
keputusan: Pohon-berbentuk struktur yang mewakili set keputusan. Keputusan
ini menghasilkan aturan untuk klasifikasi dataset. Metode
pohon keputusan tertentu termasuk Pohon Klasifikasi dan Regresi (CART) dan Chi
Square Otomatis Deteksi Interaksi (CHAID). Kereta
dan CHAID merupakan teknik pohon keputusan digunakan untuk klasifikasi dataset.
Mereka
menyediakan seperangkat aturan yang dapat Anda terapkan untuk dataset
(unclassified) baru untuk memprediksi catatan akan memiliki hasil yang
diberikan. Kereta
segmen dataset dengan menciptakan 2-arah perpecahan sedangkan segmen CHAID
menggunakan tes chi square untuk menciptakan multi-arah perpecahan. Kereta
biasanya membutuhkan persiapan data yang kurang dari CHAID.
Metode
tetangga terdekat: Sebuah teknik yang mengklasifikasikan setiap record dalam
dataset berdasarkan pada kombinasi kelas dari catatan k (s) yang paling mirip
dengan itu dalam dataset sejarah (di mana k 1). Kadang-kadang disebut
teknik tetangga k-terdekat.
Induksi
aturan: Ekstraksi berguna jika-maka aturan dari data berdasarkan signifikansi
statistik. Data
visualisasi: The interpretasi visual dari hubungan yang kompleks dalam data
multidimensi. Alat grafis
yang digunakan untuk menggambarkan hubungan data.
Apa infrastruktur teknologi yang diperlukan?
Saat ini, aplikasi data mining yang tersedia pada semua sistem ukuran untuk
mainframe, client / server, dan platform PC. Sistem
harga berkisar dari beberapa ribu dolar untuk aplikasi terkecil hingga $ 1 juta
terabyte untuk terbesar. Aplikasi
enterprise-wide umumnya berkisar dalam ukuran dari 10 gigabyte untuk lebih dari
11 terabyte. NCR
memiliki kapasitas untuk memberikan aplikasi melebihi 100 terabyte. Ada dua driver teknologi
penting:
Ukuran database: semakin banyak data yang diproses dan dipelihara, sistem yang lebih kuat diperlukan.
Kompleksitas Query: semakin kompleks pertanyaan dan semakin besar jumlah permintaan sedang diproses, sistem yang lebih kuat diperlukan.
Ukuran database: semakin banyak data yang diproses dan dipelihara, sistem yang lebih kuat diperlukan.
Kompleksitas Query: semakin kompleks pertanyaan dan semakin besar jumlah permintaan sedang diproses, sistem yang lebih kuat diperlukan.
Penyimpanan database relasional dan teknologi manajemen memadai untuk data
mining aplikasi kurang dari 50 gigabyte banyak. Namun,
infrastruktur ini perlu ditingkatkan secara signifikan untuk mendukung aplikasi
yang lebih besar. Beberapa
vendor telah menambahkan kemampuan pengindeksan yang luas untuk meningkatkan
kinerja query. Lainnya
menggunakan arsitektur hardware baru seperti Prosesor Massively Paralel (MPP)
untuk mencapai order-of-besarnya perbaikan dalam waktu permintaan. Sebagai
contoh, sistem MPP dari ratusan Link NCR berkecepatan tinggi prosesor Pentium
untuk mencapai tingkat kinerja yang melebihi orang-orang dari superkomputer
terbesar.
Tidak ada komentar:
Posting Komentar