www.wikidata.id-id.nina.az
Penggalian data bahasa Inggris data mining adalah ekstraksi pola yang menarik dari data dalam jumlah besar 1 Suatu pola dikatakan menarik apabila pola tersebut tidak sepele implisit tidak diketahui sebelumnya dan berguna Pola yang disajikan haruslah mudah dipahami berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu berguna dan baru Penggalian data memiliki beberapa nama alternatif meskipun definisi eksaknya berbeda seperti KDD knowledge discovery in database analisis pola arkeologi data pemanenan informasi dan intelegensia bisnis Penggalian data diperlukan saat data yang tersedia terlalu banyak misalnya data yang diperoleh dari sistem basis data perusahaan e commerce data saham data sensus dan data bioinformatika tetapi tidak tahu pola apa yang bisa didapatkan Daftar isi 1 Proses Pencarian Pola 2 Latar belakang 3 Teknik Penggalian Data 4 Lihat pula 5 Referensi 6 Referensi 7 Pranala luarProses Pencarian Pola SuntingPenggalian data adalah salah satu bagian dari proses pencarian pola Berikut ini urutan proses pencarian pola Pembersihan Data yaitu menghapus data pengganggu noise dan mengisi data yang hilang Integrasi Data yaitu menggabungkan berbagai sumber data Pemilihan Data yaitu memilih data yang relevan Transformasi Data yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data Penggalian Data yaitu menerapkan metode cerdas untuk ekstraksi pola Evaluasi pola yaitu mengenali pola pola yang menarik saja Penyajian pola yaitu memvisualisasi pola ke pengguna Latar belakang SuntingPerkembangan yang pesat di bidang pengumpulan data dan teknologi penyimpanan di berbagai bidang menghasilkan basis data yang terlampau besar Namun data yang dikumpulkan jarang dilihat lagi karena terlalu panjang membosankan dan tidak menarik Seringkali keputusan yang katanya berdasarkan data dibuat tidak lagi berdasarkan data melainkan dari intuisi para pembuat keputusan sehingga lahirlah cabang ilmu penggalian data ini Analisis data tanpa menggunakan otomasi dari penggalian data adalah tidak memungkinkan lagi kalau 1 data terlalu banyak 2 dimensionalitas data terlalu besar 3 data terlalu kompleks untuk dianalisis manual misalnya data time series data spatiotemporal data multimedia data streams Teknik Penggalian Data SuntingPada dasarnya penggalian data dibedakan menjadi dua fungsionalitas yaitu deskripsi dan prediksi Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan Karakterisasi dan Diskriminasi yaitu menggeneralisasi merangkum dan mengkontraskan karakteristik data Penggalian pola berulang yaitu pencarian pola asosiasi association rule atau pola intra transaksi atau pola pembelian yang terjadi dalam satu kali transaksi Klasifikasi yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut atributnya Kelas target sudah tersedia dalam data sebelumnya sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri Prediksi yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang menggunakan model dari klasifikasi Penggugusan Cluster analysis yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya Kelas target tidak tersedia dalam data sebelumnya sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas Analisis outlier yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya Contoh mengenali noise dan pengecualian dalam data Analisis trend dan evolusi meliputi analisis regresi penggalian pola sekuensial analisis periodisitas dan analisis berbasis kemiripan Berikut ini adalah 10 algoritme penggalian data yang paling populer berdasarkan konferensi ICDM 06 semua algoritme dinominasikan oleh para pemenang ACM KDD Innovation Award dan IEEE ICDM Research Contributions Award 2 C4 5 61 suara 3 k Means 60 suara 4 SVM atau Support Vector Machine 58 suara 5 Apriori 52 suara 6 EM 48 suara 7 PageRank 46 suara 8 AdaBoost 45 suara 9 kNN 45 suara 10 Naive Bayes 34 suara 11 Berikut ini adalah yang hanya masuk nominasi CART 12 FP Tree 13 HITS 14 BIRCH 15 GSP 16 PrefixSpan 17 CBA 18 Finding Reduct 19 gSpan 20 Lihat pula SuntingPenambangan teks AnalitikaReferensi Sunting http www amazon com Data Mining Concepts Techniques Management dp 1558609016 qid 1278582726 Salinan arsip PDF Diarsipkan dari versi asli PDF tanggal 2010 06 22 Diakses tanggal 2010 07 08 Quinlan J R C4 5 Programs for Machine Learning Morgan Kaufmann 1993 MacQueen J B Some methods for classification and analysis of multivariate observations in Proc 5th Berkeley Symp Mathematical Statistics and Probability 1967 Vapnik V N 1995 The Nature of Statistical Learning Theory Springer Verlag Rakesh Agrawal and Ramakrishnan Srikant Fast Algorithms for Mining Association Rules In VLDB 94 McLachlan G and Peel D 2000 Finite Mixture Models J Wiley New York Brin S and Page L 1998 The anatomy of a large scale hypertextual Web search engine In WWW 7 1998 Freund Y and Schapire R E 1997 A decision theoretic generalization of on line learning and an application to boosting J Comput Syst Sci 55 1 Aug 1997 119 139 Hastie T and Tibshirani R 1996 Discriminant Adaptive Nearest Neighbor Classification TPAMI 18 6 Hand D J Yu K 2001 Idiot s Bayes Not So Stupid After All Internat Statist Rev 69 385 398 L Breiman J Friedman R Olshen and C Stone Classification and Regression Trees Wadsworth 1984 Han J Pei J and Yin Y 2000 Mining frequent patterns without candidate generation In SIGMOD 00 Kleinberg J M 1998 Authoritative sources in a hyperlinked environment SODA 1998 Zhang T Ramakrishnan R and Livny M 1996 BIRCH an efficient data clustering method for very large databases In SIGMOD 96 Srikant R and Agrawal R 1996 Mining Sequential Patterns Generalizations and Performance Improvements In Proceedings of the 5th International Conference on Extending Database Technology 1996 J Pei J Han B Mortazavi Asl H Pinto Q Chen U Dayal and M C Hsu PrefixSpan Mining Sequential Patterns Efficiently by Prefix Projected Pattern Growth In ICDE 01 Liu B Hsu W and Ma Y M Integrating classification and association rule mining KDD 98 Zdzislaw Pawlak Rough Sets Theoretical Aspects of Reasoning about Data Kluwer Academic Publishers Norwell MA 1992 Yan X and Han J 2002 gSpan Graph Based Substructure Pattern Mining In ICDM 02 Referensi SuntingPang Ning Tan Michael Steinbach and Vipin Kumar Introduction to Data Mining 2005 ISBN 0 321 32136 7 companion book site Kurt Thearling An Introduction to Data Mining Diarsipkan 2011 05 05 di Wayback Machine also available is a corresponding online tutorial Diarsipkan 2011 05 18 di Wayback Machine Richard O Duda Peter E Hart David G Stork Pattern Classification Wiley Interscience ISBN 0 471 05669 3 see also Powerpoint slides Diarsipkan 2011 07 15 di Wayback Machine Phiroz Bhagat Pattern Recognition in Industry Elsevier ISBN 0 08 044538 1 Ian Witten and Eibe Frank Data Mining Practical Machine Learning Tools and Techniques with Java Implementations 2000 ISBN 1 55860 552 5 see also Free Weka software Yike Guo and Robert Grossman editors High Performance Data Mining Scaling Algorithms Applications and Systems Kluwer Academic Publishers 1999 Dean W Abbott I Philip Matkovsky and John Elder IV Ph D An Evaluation of High end Data Mining Tools for Fraud Detection Diarsipkan 2007 01 05 di Wayback Machine published a comparative analysis of major high end data mining software tools that was presented at the 1998 IEEE International Conference on Systems Man and Cybernetics San Diego CA October 12 14 1998 Mierswa Ingo and Wurst Michael and Klinkenberg Ralf and Scholz Martin and Euler Timm YALE Rapid Prototyping for Complex Data Mining Tasks in Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining KDD 06 2006 Mark F Hornick Erik Marcade Sunil Venkayala Java Data Mining Strategy Standard And Practice A Practical Guide for Architecture Design And Implementation Broche Pranala luar Sunting Inggris Data Mining Program University of Central Florida Inggris Andrew Moore of Carnegie Mellons tutorials Diarsipkan 2006 09 24 di Wayback Machine Inggris A Master thesis dealing with the use of datamining in banking nbsp Artikel bertopik komputer ini adalah sebuah rintisan Anda dapat membantu Wikipedia dengan mengembangkannya lbs Diperoleh dari https id wikipedia org w index php title Penggalian data amp oldid 18926399