Tampilkan postingan dengan label Statistik. Tampilkan semua postingan
Tampilkan postingan dengan label Statistik. Tampilkan semua postingan

Sabtu, 05 Juli 2014

Apakah Data Mining itu? : Sebuah Penjelasan Sederhana

Wah saya merasa sangat bersalah... karena pertanyaan dalam kotak komentar dari salah satu pengunjung blog ini tidak segera terjawab... penyebabnya adalah, karena memang saya tidak mendapat notifikasi kalau ada komentar yang masuk! mohon maaf bagi para komentator, bahwasannya saya tidak memantau terus menerus blog ini :(

Gara-gara kesalahan saya itu, kali ini saya ingin menebusnya dengan suatu (percobaan) penjelasan yang sederhana mengenai pengertian data mining buat seseorang di sana yang secara tak sengaja saya cuekin (semoga sudi memaafkan saya juga) dan bagi para pembelajar di Indonesia pada umumnya... yuk tariikkkk maaangggg...!

data mining berasal dari dua kata yaitu data dan mining (ya iya lah..!). data (menurut KBBI online) adalah keterangan yang benar dan nyata. Menurut Merriam-Webster online, data adalah factual information (as measurements or statistics) used as a basis for reasoning, discussion, or calculation (terjemahan menurut Google Translate : informasi faktual (sebagai pengukuran atau statistik) digunakan sebagai dasar untuk penalaran, diskusi, atau perhitungan). mining berasal dari kata dasar mine yang berarti tambang, mendapat akhiran -ing sehingga menjadi kata kerja yaitu menambang atau penambangan. Jadi kalau diartikan asal-asalan bin ngaco bin ngawur oleh bukan pakar bahasa, arti data mining adalah menambang data atau penambangan data (:p)

Nah sekarang kita lihat apa kata pakar IT di bidang data mining :

Data mining is synonymous with knowledge discovery in databases, knowledge extraction, data or pattern analysis, data archeology, data dredging, data snooping, data fishing, information harvesting, and business intelligence (Hand et al., 2001; Giudici, 2003; Han & Kamber, 2006) -Wang, John, Encyclopedia of Data Warehousing and Mining Second Edition, p. lxiv-

Terjemahan : Data mining ini identik dengan penemuan pengetahuan dalam database, ekstraksi pengetahuan, analisis data atau pola, arkeologi data, pengerukan data, menyadap data (seperti menyadap getah pohon karet), memancing data, memanen informasi, dan intelijen bisnis.

Itulah arti kata data ming dan pengertian data mining menurut pakar.... udah jelas kan? pasti beluuummmm... iya kaannnn...??? :)

Sekarang dengerin (maksudna : baca) dongeng saya mengenai data mining ...

Once upon a time (...halah!) ada suatu toko kelontong (eh, masih ada yang tahu arti kata kelontong ga ya? cari ndiri di KBBI online yak! :p ) yang laris manis, yang menjual barang sebanyak 1234 item setiap hari dari pagi sampe malem selama satu tahun cuma libur lebaran dan natal doang ( ...kesian amat pegawainya ya?!), melayani ribuan pembeli tiap harinya, dari sabang sampai merauke... merdeka!!!

Om Joni si empunya toko kelontong ini untungnya sudah melek TI... biar gampang ngitung kes flo (cash flow) dan laba rugi jualannya, om Joni menggunakan sistem terkomputerisasi. Semua data transaksi penjualan dan kulakannya disimpan pada database. Jadi tiap mau tutup toko atau tiap minggu atau tiap bulau atau tiap tahun, om Joni bisa langsung tahu kes flo dan laba ruginya dengan cepat, akurat.

Nah, pada chapter (...halah!) dongeng di atas tuh, yang diceritain adalah sistem informasi akuntansi pada toko kelontong om Joni... trus data miningnya mana??? sabar jooo... makan dulu tuh kacang goreng sama minum black coffee-nya! :p

Namanya bisnis, pasti punya saingan. Dari waktu ke waktu muncul toko-toko kelontong saingan toko om Joni... dan om Joni pun merasa terancam... kekhawatirannya terbukti dengan menurunnya omset penjualannya yang tampil di setiap laporan mingguan. Om Joni cari akal putar otak. Tiiiinnnggg! muncul ide gimana kalau barang-barang yang paling laku yang dibeli bersamaan dipajang bersebelahan sehingga si pembeli bisa langsung comat-comot tanpa keliling toko kelontongnya yang luas, dengan harapan agar bisa menaikkan omset penjualannya.

Untuk dapat mengetahui barang-barang yang paling laku yang dibeli secara bersamaan om Joni mendaulat programmernya untuk membuat query SQL untuk data transaksi satu tahun terakhir guna mengetahui barang-barang yang paling laku yang dibeli secara bersamaan. Dengan jurus sakti dan senjata pamungkas, si programmer secepat kilat mendapatkan data yang diinginkan om Joni ...jebreettt!!!

Om Joni apalagi programmernya bingung... ternyata barang yang laku yang dibeli secara bersamaan dalam kurun waktu satu tahun terakhir banyak bingiits cuyy!!! Melihat bossnya yang melongo bin garuk-garuk kelapa eh kepala... si programmer langsung mengontak bala bantuan kakak seperguruan, seorang jawara ilmu sakti statistika.

Bahu membahu, si programmer dan kakak perguruannya, jungkir balik mengerahkan segala daya dan kemampuannya mengolah data transaksi yang berukuran besar tersebut untuk mendapatkan hasil yang diinginkan. Akhirnya selama dua hari dua malam, dua pedjoeang tersebut berhasil memecahkan masalah yang dihadapi bossnya... kkrraaakkk!!!

Om Joni tidak langsung senang, dengan mimik serius, om Joni langsung mengawasi penataan barang-barang yang dijual di tokonya sesuai dengan hasil dari programmer dan jawara statistika.

Hari demi hari, minggu demi minggu, omset penjualan toko kelontong om Joni mulai merangkak naik. Wajah om Joni yang tadinya mendung kelabu berubah menjadi cerah ceria... programmer dan kakak seperguruannya dianugerahi tanda jasa berupa Bintang Satya Darma Jualan Jaya yang terbuat dari emas murni 24 karat seberat 100 gram... wuiiiihhh lumayan tuh kalo digadein! :p

Esok harinya si programmer dipanggil menghadap. Om Joni menanyakan kepada programmer apakah bisa meramal barang apa yang akan laku dan tidak laku di masa depan sehingga bagian kulakan bisa mudah bekerja. Si programmer menyanggupi, namun ia memberi syarat kepada om Joni, untuk memberinya waktu mendalami jurus AI (Artificial Intelligence : kecerdasan buatan) agar menjadi seorang jawara, soalnyta ilmu AI programmer saat itu masih pemula. Om Joni langsung mengiyakan, ia langsung memberikan pundi-pundi perak agar programmernya mendalami ilmu AI tingkat dewa.

Singkat cerita, dari hasil pendalaman ilmu AI sampai tingkat dewa, programmer dapat meramalkan dan memprediksi barang-barang yang laku dan tidak laku di masa depan. Alhasil toko om Joni mulai mengalahkan toko-toko kelontong pesaing lainnya.

Pesan moral yang disampaikan dongeng ini (...halah!) adalah :

Dari dongeng di atas, programmer dan kakak seperguruannya si jawara statistik melakukan data mining untuk mencari tahu barang-barang yang paling laku yang dibeli secara bersamaan. Selain itu programmer melakukan data mining untuk memprediksi barang-barang yang laku atau tidak laku di masa depan dengan menggunakan AI.

Dalam data mining, ada data dalam jumlah yang sangat-sangat amat besar sekali, disimpan di dalam suatu database. Kemudian data besar yang ada di dalam database itu diolah-olah menggunakan algoritma-algoritma dan kaidah-kaidah statistik yang bertujuan menghasilkan informasi baru (yang nantinya disebut sebagai : knowledge -pengetahuan-).

Jadi data mining itu adalah proses pengolahan data menggunakan algoritma-algoritma dan kaidah-kaidah statistik yang bertujuan menghasilkan informasi baru. Eits!!! ntar dulu seiring perkembangannya, data mining tidak hanya membutuhkan ilmu mengenai database, algoritma, statistika, kecerdasan buatan, namun juga visualisasi, komputasi performa tinggi, IR (information retrieval) dan ilmu-ilmu lainnya.


Kamis, 06 Februari 2014

Belajar Mudah Algoritma Data Mining C4.5

File PDFnya bisa dibaca dan didonlod di sini

Isinya sebenarnya saya comot dari sana sini dan saya kompilasi sehingga (mudah-mudahan) lebih mudah dipelajari dari pada tulisan-tulisan dengan topik yang sama yang sudah beredar duluan di dunia maya.

Algoritma C4.5 merupakan salah satu algoritma modern untuk melakukan data mining. Algoritma ini biasa digunakan untuk melakukan klasifikasi / segmentasi atau prediksi. Algoritma C4.5 dikembangkan dari pohon keputusan atau decision tree. Untuk belajar lebih dalam lagi silahkan klik pada link yang telah disediakan di atas.

Selamat belajar!

Selasa, 04 Februari 2014

Belajar Mudah Algoritma Data Mining Apriori

Alhamdulillah..... selesai juga nerjemahin 'n ngetik cara mempelajari algoritma data mining apriori. Bagi yang sedang belajar algoritma apriori untuk me-mining data silahkan unduh di sini dalam format PDF.

Buat yang belum tahu, algoritma apriori adalah algoritma klasik data mining. Dengan algoritma ini kita dapat mencari asosiasi berdasarkan data yang ada. Contohnya misalnya kita punya data transaksi penjualan barang. Lalu dari data-data tersebut kita ingin tahu, jika pembeli membeli suatu barang, barang lain apakah yang juga dibeli? begitu penjelasan singkatnya. Untuk mengetahui lebih lanjut silahkan diunduh saja file-nya

Selamat belajar!

Jumat, 03 Januari 2014

Tutorial RapidMiner Tentang Linear Regression

RapidMiner adalah suatu aplikasi opensource yang digunakan untuk melakukan data mining. salah satu metode data mining adalah menggunakan regresi linier. Regresi linier ini merupakan metode statistik yang digunakan untuk melakukan estimasi atau perkiraan berdasarkan data yang ada. Untuk dapat menggunakan regresi linier menggunakan RapidMiner, silahkan lihat dan donlod di sini

Selamat belajar!

Jumat, 07 Juni 2013

Teorema Bayes

Gara-gara karena tugas kuliah kecerdasan buatan atau artificial intelligence tentang jaringan keyakinan atau belief network, terpaksa deh cari-cari materi tentang teorema Bayes, yang kalau dibaca buku ilmu Statistik bikin pusing abisssss. Nah, akhirnya ketemu artikel di situs web : http://www.idomaths.com/id/peluang5.php yang menjelaskan teorema Bayes dengan sederhana dan mudah dicerna. Tulisan di bawah ini bener-bener di-copas dari situs tersebut tanpa minta ijin terlebih dahulu. Untuk itu saya mohon maaf.... silahkan artikelnya dibaca di bawah ini atau langsung ke situs sumbernya.

*** awal copas-an ***
Teorema Bayes, diambil dari nama Rev. Thomas Bayes, menggambarkan hubungan antara peluang bersyarat dari dua kejadian A dan B sebagai berikut:
P(A | B) = P(B | A) P(A)
P(B)
or
P(A | B) = P(B | A) P(A)
P(B | A)P(A) + P(B | A)P(A)
Contoh aplikasi dari Teorema Bayes
Di sebuah negara, diketahui bahwa 2% dari penduduknya menderita sebuah penyakit langka. 97% dari hasil tes klinik adalah positif bahwa seseorang menderita penyakit itu. Ketika seseorang yang tidak menderita penyakit itu dites dengan tes yang sama, 9% dari hasil tes memberikan hasil positif yang salah.
Jika sembarang orang dari negara itu mengambil test dan mendapat hasil positif, berapakah peluang bahwa dia benar-benar menderita penyakit langka itu?
Secara sepintas, nampaknya bahwa ada peluang yang besar bahwa orang itu memang benar-benar menderita penyakit langka itu. Karena kita tahu bahwa hasil test klinik yang cukup akurat (97%). Tetapi apakah benar demikian? Marilah kita lihat perhitungan matematikanya.
Marilah kita lambangkan informasi di atas sebagai berikut:
  • B = Kejadian tes memberikan hasil positif.
  • B = Kejadian tes memberikan hasil negatif.
  • A = Kejadian seseorang menderita penyakit langka itu.
  • A = Kejadian seseorang tidak menderita penyakit langkat itu.
Kita ketahui juga peluang dari kejadian-kejadian berikut:
  • P (A) = 2%
  • P (A) = 98%
  • P (B | A) = 97%
  • P (B | A) = 9%
Dengan menggunakan rumus untuk peluang bersyarat, dapat kita simpulkan peluang dari kejadian-kejadian yang mungkin terjadi dalam tabel di bawah ini:

A (2%)A (98%)
BPositif yang benar
P (BA) = P (A) × P (B | A) = 2% × 97% = 0,0194
Positif yang salah
P (BA) = P (A) × P (B | A) = 98% × 9% = 0,0882
BNegatif yang salah
P (BA) = P (A) × P (B | A) = 2% × 3% = 0,0006
Negatif yang benar
P (BA) = P (A) × P (B | A) = 98% × 91% = 0,8918
Misalnya seseorang menjalani tes klinik tersebut dan mendapatkan hasil positif, berapakah peluang bahwa ia benar-benar menderita penyakit langka tersebut?
Dengan kata lain, kita mencoba untuk mencari peluang dari A, dimana B atau P (A | B).
Dari tabel di atas, dapat kita lihat bahwa P (A | B) adalah peluang dari positif yang benar dibagi dengan peluang positif (benar maupun salah), yaitu 0,0194 / (0,0194 + 0,0882) = 0,1803.
Kita dapat juga mendapatkan hasil yang sama dengan menggunakan rumus teorema Bayes di atas:
P(A | B) = P(BA)
P(B)
= P(B | A) × P(A)
P(B | A)P(A) + P(B | A)P(A)
= 97% × 2%
(97% × 2%) + (9% × 98%)
= 0.0194
0.0194 + 0.0882
= 0.0194
0.1076
P(A | B) = 0.1803
Hasil perhitungan ini sangat berbeda dengan intuisi kita di atas. Peluang bahwa orang yang mendapat hasil tes positif itu benar-benar menderita penyakit langka tidak sebesar yang kita bayangkan. Cuma ada sekitar 18% kemungkinan bahwa dia benar-benar menderita penyakit itu.
Mengapakah demikian?
Ketika mengira-ngira peluangnya, seringkali kita lupa bahwa dari seluruh populasi negara itu, hanya 2% yang benar-benar menderita penyakit langka itu. Jadi, walaupun hasil tes adalah positif, peluang bahwa seseorang menderita penyakit langka itu tidaklah sebesar yang kita bayangkan.
Kita bisa juga meninjau situasi di atas sebagai berikut. Misalnya populasi negara tersebut adalah 1000 orang. Hanya 20 orang yang menderita penyakit langka itu (2%). 19 orang dari antaranya akan mendapat hasil tes yang positif (97% hasil positif yang benar). Dari 980 orang yang tidak menderita penyakit itu, sekitar 88 orang juga akan mendapat hasil tes positif (9% hasil positif yang salah).
Jadi, 1000 orang di negara itu dapat kita kelompokkan sebagai berikut:
  • 19 orang mendapat hasil tes positif yang benar
  • 1 orang mendapat hasil tes negatif yang salah
  • 88 orang mendapat hasil tes positif yang salah
  • 892 orang mendapat hasil tes negatif yang benar
Bisa kita lihat dari informasi di atas, bahwa ada (88 + 19) = 107 orang yang akan mendapatkan hasil tes positif (tidak perduli bahwa dia benar-benar menderita penyakit langka itu atau tidak). Dari 107 orang ini, berapakah yang benar-benar menderita penyakit? Hanya 19 orang dari 107, atau sekitar 18%.
~ Jimmy Sie
*** akhir copas-an ***

Semoga bermanfaat :)