Sabtu, 26 Januari 2013

Data Mining



Data Mining: Apakah Data Mining?
Ikhtisar
Umumnya, data mining (kadang-kadang disebut data atau penemuan pengetahuan) adalah proses menganalisis data dari perspektif yang berbeda dan meringkas menjadi informasi yang berguna - informasi yang dapat digunakan untuk meningkatkan pendapatan, biaya pemotongan, atau keduanya. Software data mining adalah salah satu dari sejumlah alat-alat analisis untuk menganalisis data. Hal ini memungkinkan pengguna untuk menganalisis data dari berbagai dimensi atau sudut, mengkategorikan, dan meringkas hubungan diidentifikasi. Secara teknis, data mining adalah proses menemukan korelasi atau pola di antara puluhan bidang dalam database relasional besar.

Inovasi terus menerus
Meskipun data mining adalah istilah yang relatif baru, teknologi ini tidak. Perusahaan telah menggunakan komputer kuat untuk menyaring volume data scanner supermarket dan menganalisis laporan riset pasar selama bertahun-tahun. Namun, inovasi terus menerus dalam kekuatan pemrosesan komputer, penyimpanan disk, dan perangkat lunak statistik secara dramatis meningkatkan akurasi analisis saat mengemudi menurunkan biaya.

Contoh
Sebagai contoh, salah satu rantai toko Midwest menggunakan kapasitas data mining perangkat lunak Oracle untuk menganalisis pola pembelian lokal. Mereka menemukan bahwa ketika orang membeli popok pada hari Kamis dan Sabtu, mereka juga cenderung untuk membeli bir. Analisis lebih lanjut menunjukkan bahwa pembeli biasanya melakukan kelontong mingguan mereka berbelanja pada hari Sabtu. Pada hari Kamis, namun, mereka hanya membeli beberapa item. Pengecer menyimpulkan bahwa mereka membeli bir untuk memilikinya tersedia untuk akhir pekan mendatang. Rantai kelontong bisa menggunakan informasi ini baru ditemukan dalam berbagai cara untuk meningkatkan pendapatan. Misalnya, mereka bisa memindahkan tampilan bir lebih dekat ke tampilan popok. Dan, mereka bisa membuat bir yakin dan popok yang dijual dengan harga penuh pada hari Kamis.

Data, Informasi, dan Pengetahuan
Data
Data adalah setiap fakta, angka, atau teks yang dapat diproses oleh komputer. Hari ini, organisasi mengumpulkan sejumlah besar dan berkembang dari data dalam format yang berbeda dan database yang berbeda. Ini termasuk: operasional atau transaksional data seperti, penjualan, biaya, persediaan, penggajian, dan akuntansi nonoperational data, seperti penjualan industri, data perkiraan, dan data ekonomi makro meta data - data tentang data itu sendiri, seperti desain database logis atau definisi kamus data
Informasi
Pola, asosiasi, atau hubungan di antara semua data ini dapat memberikan informasi. Misalnya, analisis titik ritel data transaksi penjualan dapat menghasilkan informasi mengenai produk yang dijual dan kapan.
Pengetahuan
Informasi dapat diubah menjadi pengetahuan tentang pola-pola historis dan tren masa depan. Misalnya, ringkasan informasi penjualan supermarket ritel dapat dianalisis dalam terang upaya promosi untuk memberikan pengetahuan tentang perilaku konsumen membeli. Dengan demikian, produsen atau pengecer dapat menentukan item yang paling rentan terhadap upaya promosi.

Data Gudang
Kemajuan dramatis dalam data capture, kekuatan pemrosesan, transmisi data, dan kemampuan penyimpanan yang memungkinkan organisasi untuk mengintegrasikan berbagai database mereka ke dalam gudang data. Data pergudangan didefinisikan sebagai suatu proses manajemen data terpusat dan pengambilan. Data pergudangan, seperti data mining, adalah istilah yang relatif baru meskipun konsep itu sendiri telah sekitar selama bertahun-tahun. Data pergudangan merupakan visi ideal mempertahankan repositori pusat dari semua data organisasi. Sentralisasi data yang diperlukan untuk memaksimalkan akses pengguna dan analisis. Kemajuan teknologi dramatis membuat visi menjadi kenyataan bagi banyak perusahaan. Dan, kemajuan sama dramatis dalam perangkat lunak analisis data yang memungkinkan pengguna untuk mengakses data ini secara bebas. Perangkat lunak analisis data yang mendukung data mining.
 
Apa yang dapat data mining lakukan?
Data mining terutama digunakan saat ini oleh perusahaan dengan fokus konsumen yang kuat - ritel, organisasi keuangan, komunikasi, dan pemasaran. Hal ini memungkinkan perusahaan-perusahaan untuk menentukan hubungan antara "internal" faktor-faktor seperti harga keterampilan, positioning produk, atau staf, dan "eksternal" faktor-faktor seperti indikator ekonomi, persaingan, dan demografi konsumen. Dan, hal itu memungkinkan mereka untuk menentukan dampak pada penjualan, kepuasan pelanggan, dan keuntungan perusahaan. Akhirnya, hal itu memungkinkan mereka untuk "menelusuri" menjadi informasi ringkasan untuk melihat data detail transaksional.
Dengan data mining, pengecer bisa menggunakan point-of-sale catatan pembelian pelanggan untuk mengirim promosi yang ditargetkan berdasarkan sejarah pembelian individu. Dengan pertambangan data kependudukan dari kartu komentar atau garansi, pengecer bisa mengembangkan produk dan promosi untuk menarik segmen pelanggan tertentu.
Sebagai contoh, Blockbuster Entertainment tambang video yang database sejarah sewa untuk merekomendasikan di pelanggan individu. American Express dapat menyarankan produk untuk pemegang kartu yang didasarkan pada analisis pengeluaran bulanan mereka.
WalMart adalah perintis besar data mining untuk mengubah hubungan pemasok nya. WalMart menangkap point-of-sale transaksi dari lebih dari 2.900 toko di 6 negara dan terus menerus mengirimkan data ini ke yang sangat besar 7,5 terabyte gudang Teradata data. WalMart memungkinkan lebih dari 3.500 pemasok, untuk mengakses data pada produk mereka dan melakukan analisis data. Pemasok ini menggunakan data ini untuk mengidentifikasi pola pembelian konsumen pada tingkat tampilan toko. Mereka menggunakan informasi ini untuk mengelola persediaan toko lokal dan mengidentifikasi peluang merchandising baru. Pada tahun 1995, komputer WalMart diproses lebih dari 1 juta query data yang kompleks.
The National Basketball Association (NBA) sedang menjajaki aplikasi data mining yang dapat digunakan bersama dengan rekaman gambar permainan basket. Perangkat lunak Pramuka Lanjutan menganalisis gerakan pemain untuk membantu memainkan pelatih mengorganisir dan strategi. Sebagai contoh, analisis lembar play-by-play dari permainan dimainkan antara New York Knicks dan Cleveland Cavaliers pada 6 Januari 1995 mengungkapkan bahwa ketika Mark Price memainkan posisi Guard, John Williams mencoba empat tembakan melompat dan membuat masing-masing satu! Pramuka maju tidak hanya menemukan pola ini, namun menjelaskan bahwa itu menarik karena berbeda jauh dari persentase rata-rata penembakan 49.30% untuk Cavaliers selama pertandingan itu.
Dengan menggunakan jam NBA universal, pelatih otomatis dapat membuka klip video yang menunjukkan masing-masing tembakan melompat dicoba oleh Williams dengan Harga di lantai, tanpa perlu menyisir jam rekaman video. Mereka klip menunjukkan permainan pick-and-roll yang sangat sukses di mana harga menarik pertahanan Knick dan kemudian menemukan Williams untuk tembakan melompat terbuka.

Bagaimana cara kerja data mining?
Sementara skala besar teknologi informasi telah berkembang transaksi terpisah dan sistem analitis, data mining menyediakan link antara keduanya. Perangkat lunak data mining menganalisis hubungan dan pola dalam data transaksi disimpan berdasarkan terbuka permintaan pengguna. Beberapa jenis perangkat lunak analitis yang tersedia: statistik, pembelajaran mesin, dan jaringan saraf. Umumnya, salah satu dari empat jenis hubungan yang dicari:
Kelas: Data Stored digunakan untuk mencari data dalam kelompok yang telah ditentukan. Sebagai contoh, sebuah rantai restoran bisa menambang data pelanggan pembelian untuk menentukan kapan pelanggan mengunjungi dan apa yang mereka biasanya memesan. Informasi ini dapat digunakan untuk meningkatkan lalu lintas dengan memiliki spesial sehari-hari.
    
Cluster: Data item dikelompokkan menurut hubungan logis atau preferensi konsumen. Sebagai contoh, data dapat ditambang untuk mengidentifikasi segmen pasar atau konsumen afinitas.
    
Asosiasi: Data dapat ditambang untuk mengidentifikasi asosiasi. Contoh bir popok adalah contoh pertambangan asosiatif.
    Pola Sequential: Data ditambang untuk mengantisipasi pola perilaku dan tren. Sebagai contoh, pengecer peralatan outdoor bisa memprediksi kemungkinan ransel yang dibeli berdasarkan pembelian konsumen tidur tas dan sepatu hiking.
Data mining terdiri dari lima elemen utama:
    Mengekstrak, mengubah, dan data beban transaksi ke sistem data warehouse.
    Menyimpan dan mengelola data dalam sistem database multidimensi.
    Menyediakan akses data untuk analis bisnis dan profesional teknologi informasi.
    Menganalisis data dengan perangkat lunak aplikasi.
    Menyajikan data dalam format yang bermanfaat, seperti grafik atau tabel.
Tingkat analisis yang berbeda yang tersedia:
    Jaringan saraf tiruan: Non-linear model prediksi yang belajar melalui pelatihan dan menyerupai jaringan syaraf biologis dalam struktur.
Algoritma genetik: Optimasi teknik yang menggunakan proses seperti kombinasi genetik, mutasi, dan seleksi alam dalam desain berdasarkan konsep evolusi alam.
    Pohon keputusan: Pohon-berbentuk struktur yang mewakili set keputusan. Keputusan ini menghasilkan aturan untuk klasifikasi dataset. Metode pohon keputusan tertentu termasuk Pohon Klasifikasi dan Regresi (CART) dan Chi Square Otomatis Deteksi Interaksi (CHAID). Kereta dan CHAID merupakan teknik pohon keputusan digunakan untuk klasifikasi dataset. Mereka menyediakan seperangkat aturan yang dapat Anda terapkan untuk dataset (unclassified) baru untuk memprediksi catatan akan memiliki hasil yang diberikan. Kereta segmen dataset dengan menciptakan 2-arah perpecahan sedangkan segmen CHAID menggunakan tes chi square untuk menciptakan multi-arah perpecahan. Kereta biasanya membutuhkan persiapan data yang kurang dari CHAID.
    Metode tetangga terdekat: Sebuah teknik yang mengklasifikasikan setiap record dalam dataset berdasarkan pada kombinasi kelas dari catatan k (s) yang paling mirip dengan itu dalam dataset sejarah (di mana k 1). Kadang-kadang disebut teknik tetangga k-terdekat.
    Induksi aturan: Ekstraksi berguna jika-maka aturan dari data berdasarkan signifikansi statistik.    Data visualisasi: The interpretasi visual dari hubungan yang kompleks dalam data multidimensi. Alat grafis yang digunakan untuk menggambarkan hubungan data.

Apa infrastruktur teknologi yang diperlukan?
Saat ini, aplikasi data mining yang tersedia pada semua sistem ukuran untuk mainframe, client / server, dan platform PC. Sistem harga berkisar dari beberapa ribu dolar untuk aplikasi terkecil hingga $ 1 juta terabyte untuk terbesar. Aplikasi enterprise-wide umumnya berkisar dalam ukuran dari 10 gigabyte untuk lebih dari 11 terabyte. NCR memiliki kapasitas untuk memberikan aplikasi melebihi 100 terabyte. Ada dua driver teknologi penting:
    
Ukuran database: semakin banyak data yang diproses dan dipelihara, sistem yang lebih kuat diperlukan.
    
Kompleksitas Query: semakin kompleks pertanyaan dan semakin besar jumlah permintaan sedang diproses, sistem yang lebih kuat diperlukan.
Penyimpanan database relasional dan teknologi manajemen memadai untuk data mining aplikasi kurang dari 50 gigabyte banyak. Namun, infrastruktur ini perlu ditingkatkan secara signifikan untuk mendukung aplikasi yang lebih besar. Beberapa vendor telah menambahkan kemampuan pengindeksan yang luas untuk meningkatkan kinerja query. Lainnya menggunakan arsitektur hardware baru seperti Prosesor Massively Paralel (MPP) untuk mencapai order-of-besarnya perbaikan dalam waktu permintaan. Sebagai contoh, sistem MPP dari ratusan Link NCR berkecepatan tinggi prosesor Pentium untuk mencapai tingkat kinerja yang melebihi orang-orang dari superkomputer terbesar.

Tidak ada komentar:

Posting Komentar