Berikut adalah jawaban dari Pertanyaan Data Mining UTS
Jelaskan pengertian datamining dan KDD!
Serangkaian proses untuk menggali nilai tambah berupa informasi yang belum diketahui secara manual dari database. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola-pola penting atau menarik dari data yang terdapat dalam database.Sebutkan hal-hal di balik datamining?
- Luapan data ( overload data ) dialami oleh berbagai instansi, perusahaan atau organisasi.
- Kelimpahan data ini merupakan akumulasi data transaksi yang tercatat selama bertahun-tahun.
- Data tersebut merupakan data transaksi yang pada umumnya diolah menggunakan aplikasi komputer yang biasa disebut dengan OLTP ( On Line Transaction Processing ).
Sebutkan dan jelaskan manfaat menggunakan datamining?
Dari segi komersial,
pemanfaatan dataming dapat digunakan untuk menangani volume data yang meledak. Bagaimana cara menyimpannya, ekstrak dan gunakan. Berbagai teknik komputasi dapat digunakan untuk menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi aset untuk meningkatkan daya saing suatu institusi. Data mining tidak hanya digunakan untuk menangani masalah penimbunan data/informasi dan bagaimana cara menyimpannya tanpa kehilangan informasi penting ( warehousing ). Data mining juga diperlukan untuk memecahkan masalah atau menjawab kebutuhan bisnis itu sendiri, misalnya:- Bagaimana mengetahui kehilangan pelanggan karena pesaing
- Bagaimana mengetahui produk atau barang konsumen yang memiliki kesamaan karakteristik
- Cara mengidentifikasi produk yang dijual bersamaan dengan produk lain.
- Bagaimana memprediksi tingkat penjualan
- Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu barang.
- Bagaimana memprediksi perilaku bisnis di masa depan
- Sensor jarak jauh ditempatkan pada satelit
- Sebuah teleskop yang digunakan untuk memindai langit
- Simulasi ilmiah yang menghasilkan data dalam terabyte
Dari sudut pandang ilmiah
penambangan data dapat digunakan untuk menangkap , menganalisis, dan menyimpan data waktu nyata dan sangat besar, misalnya:Sebutkan dan jelaskan secara singkat manfaat dari level KDD?
KDD adalah keseluruhan proses nontrivial untuk menemukan dan mengidentifikasi pola dalam data, dimana pola yang ditemukan adalah valid, baru, berguna dan dapat dipahami. Serangkaian proses yang memiliki tingkatan sebagai berikut
Pembersihan data dan integrasi data (cleaning and integration)
Proses ini digunakan untuk menghilangkan data yang tidak konsisten dan berisik dari data yang ditemukan di berbagai database yang mungkin memiliki format dan platform berbeda yang kemudian diintegrasikan ke dalam satu database gudang data .
Sebutkan dan jelaskan macam-macam metode seleksi?
- Sampling adalah pemilihan subset yang representatif dari populasi data yang besar.
- Denoising, adalah proses menghilangkan noise dari data yang akan ditransformasikan
- Ekstraksi fitur, adalah proses membuka spesifikasi data yang signifikan dalam konteks tertentu.
Sebutkan dan jelaskan macam-macam metode transformasi?
- Centering , mereduksi setiap data dengan rata-rata dari setiap atribut yang tersedia.
- Normalisasi, membagi setiap data terpusat dengan standar deviasi atribut yang relevan.
- Scaling, mengubah data hingga berada pada skala tertentu.
Sebutkan dan jelaskan minimal 4 fungsi yang biasa diterapkan dalam datamining?
- Asosiasi , adalah proses untuk menemukan aturan asosiatif antara kombinasi item dalam suatu waktu
- Urutan hampir sama dengan asosiasi , bedanya urutan diterapkan pada lebih dari satu periode.
- Clustering adalah proses pengelompokan sejumlah data/objek ke dalam kelompok data (cluster) sehingga setiap cluster akan berisi data yang serupa.
- Klasifikasi, adalah proses menemukan model atau fungsi yang menjelaskan atau membedakan suatu konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.
Berikan 4 contoh dan penjelasan implementasi datamining?
Analisis dan Manajemen Pasar
Untuk analisis pasar, banyak sumber data yang bisa digunakan seperti transaksi kartu kredit, kartu keanggotaan klub tertentu, kupon diskon, keluhan pembeli, ditambah dengan kajian gaya hidup masyarakat.Telekomunikasi
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat jutaan transaksi masuk mana yang masih harus ditangani secara manual (dilayani oleh orang). Tujuannya tak lain untuk menambah layanan otomatis khusus untuk transaksi yang masih ditangani secara manual. Dengan demikian, jumlah operator yang menerima transaksi manual masih bisa ditekan seminimal mungkin.Keuangan
Jaringan Penegakan Kejahatan Finansial di Amerika Serikat baru-baru ini menggunakan penambangan data untuk menambang triliunan dari berbagai subjek seperti properti, rekening bank, dan transaksi keuangan lainnya untuk mendeteksi transaksi keuangan yang mencurigakan (seperti pencucian uang). Mereka menyatakan bahwa akan sulit dilakukan jika menggunakan analisis standar. (www.senate.gov/~appropriations/treasury/testimony/sloan.htm. Mungkin sudah saatnya Lembaga Pemeriksa Keuangan Republik Indonesia menggunakan teknologi ini untuk mendeteksi aliran dana BLBI.Pertanggungan
Komisi Asuransi Kesehatan Australia menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak diperlukan tetapi tetap dilakukan oleh peserta asuransi. Hasil? Mereka berhasil menghemat satu juta dolar per tahun. Tentunya hal ini tidak hanya berlaku pada asuransi kesehatan saja, tetapi juga pada berbagai jenis asuransi lainnya.Jelaskan implikasi dari metodologi datamining berikut?
- Regresi adalah fungsi pembelajaran yang memetakan elemen data ke variabel prediksi nilai nyata.
- Jaringan saraf tiruan , adalah jaringan dari sekelompok unit pemrosesan kecil yang dimodelkan pada jaringan saraf manusia. JST adalah sistem adaptif yang dapat mengubah strukturnya untuk memecahkan masalah berdasarkan informasi eksternal dan internal yang mengalir melalui jaringan.
- Sebuah pohon keputusan digunakan untuk memodelkan masalah yang terdiri dari serangkaian keputusan yang mengarah pada solusi. Setiap node bagian dalam mengekspresikan hasilnya, sedangkan daun mengekspresikan solusinya.
- Algoritma genetika, adalah teknik pencarian dalam ilmu komputer untuk menemukan solusi perkiraan untuk optimasi dan masalah pencarian. Atau bisa juga disebut kelas khusus dari algoritma evolusioner dengan menggunakan teknik yang terinspirasi dari biologi evolusioner seperti pewarisan, mutasi, seleksi alam dan rekombinasi (atau persilangan ).
Jelaskan pengertian datawarehousing dari Inmon dan Poe!
- Menurut WH Inmon dan Richard DH , data warehousing adalah pengumpulan data yang memiliki sifat pengumpulan data yang berorientasi subjek, terintegrasi, time-variant, dan tetap dalam mendukung proses pengambilan keputusan manajemen.
- Menurut Vidette Poe, pergudangan data adalah database analitis dan hanya-baca yang digunakan sebagai dasar dari sistem pendukung keputusan.
Jelaskan pengertian dari istilah pergudangan berikut?
- Datamart, merupakan Data warehouse yang mendukung kebutuhan di tingkat departemen atau fungsi bisnis tertentu di perusahaan.
- OLAP adalah pendekatan untuk dengan cepat memberikan jawaban atas pertanyaan analitik multidimensi di alam. OLAP adalah bagian dari kategori pemikiran bisnis yang lebih global, yang juga mencakup hubungan antara pelaporan dan penambangan data.
- Tabel Dimensi, a adalah sekelompok tabel pendamping untuk tabel fakta.
- Tabel Fakta, merupakan tabel yang berisi pengukuran tentang meter atau fakta bisnis. itu sering ditempatkan di tengah skema bintang dan dikelilingi oleh tabel pengukuran
Jelaskan perbedaan antara data operasional dan gudang data?
Data Operasional
- Dirancang berorientasi hanya pada aplikasi dan fungsi tertentu
- Fokusnya adalah pada desain dan proses database
- Berisi detail atau detail data
- Relasi antar tabel berdasarkan aturan terbaru (selalu ikuti aturan terbaru)
Gudang data
- Direncanakan berdasarkan mata pelajaran tertentu (utama)
- Fokusnya adalah pada pemodelan data dan desain data
- Berisi data historis yang akan digunakan dalam proses analisis
- Banyak aturan bisnis dapat disajikan di antara tabel
Sebutkan dan jelaskan secara singkat tugas-tugas yang dilakukan oleh gudang data?
- Pembuatan laporan, Pembuatan laporan merupakan salah satu kegunaan data warehousing yang paling umum dilakukan. Dengan menggunakan query sederhana didapatkan laporan perhari,perbulan, pertahun atau jangka waktu kapanpun yang diinginkan.
- On-Line Analytical Processing (OLAP), Dengan adanya data warehouse, semua informasi baik detail maupun hasil summary yang dibutuhkan dalam proses analisa mudah didapat. OLAP mendayagunakan konsep data multi dimensi dan memungkinkan para pemakai menganalisa data sampai mendetail, tanpa mengetikkan satupun perintah SQL. Hal ini dimungkinkan karena pada konsep multi dimensi, maka data yang berupa fakta yang sama bisa dilihat dengan menggunakan fungsi yang berbeda. Fasilitas lain yang ada pada sofware OLAP adalah fasilitas rool-up dan drill-down. Drill-down adalah kemampuan untuk melihat detail dari suatu informasi dan roll-up adalah kebalikannya.
- Proses informasi eksekutif, data warehousing dapat membuat ringkasan informasi yang penting dengan tujuan membuat keputusan bisnis, tanpa harus menjelajahi keseluruhan data. Dengan menggunakan data warehousing segala laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara lengkap, sehingga mempermudah proses pengambilan keputusan. Informasi dan data pada laporan data warehousing menjadi target informatif bagi pengguna.
Sebutkan 4 keuntungan menggunakan data warehouse!
- Data diorganisir dengan baik untuk query analisis dan sebagai bahan untuk pemrosesan transaksi.
- Perbedaan diantara struktur data yang heterogen pada beberapa sumber yang terpisah dapat diatasi.
- Aturan untuk transformasi data diterapkan untuk memvalidasi dan mengkonsolidasi data apabila data dipindahkan dari basisdata OLTP ke data warehouse
- Masalah keamanan dan kinerja bisa dipecahkan tanpa perlu mengubah sistem produksi.
Sebutkan dan jelaskan secara singkat tiga jenis dasar sistem data warehouse?
- Data Warehouse Fungsional, Data warehouse dibuat lebih dari satu dan dikelompokan berdasar fungsi yang ada di dalam perusahaan seperti fungsi keuangan, marketing dan personalia.
- Data Warehouse Terpusta, Sumber data dikumpulkan dalam satu tempat tempat terpusat, kemudian data tersebar ke dalam fungsinya masing-masing sesuai kebutuhan perusahaan.
- Data Warehouse Terdistribusi, dalam warehouse ini digunakan gateway yang berfungsi sebagai jemabatan penghubung antara data warehouse dengan workstation yang menggunakan sistem beranek ragam. Jadi dapat perusahaan dapat mengakses sumber data yang berada di luar lokasi perusahaan.
Sebutkan 3 jenis dasar dan kelebihan dari 3 jenis dasar sistem data warehouse!
- Data Warehouse Fungsional, yaitu sistem mudah dibangun dengan biaya relatif murah.
- Data Warehouse Terpusat, yaitu data benar-benar terpadu karena konsistensinya yang tinggi.
- Data Warehouse Terdistribusi,nya yaitu data tetap konsisten karena sebelum data di gunakan data terlebih dahulu di sesuaikan atau mengalami proses sinkronisasi.
Sebutkan dan jelaskan komponen dari struktur data warehouse!
- Detail data terkini , detail data yang sedang aktif
- Data detail yang lebih lama , "Terdiri dari data historis dari data detail saat ini
- Data rangkuman ringan , merupakan hasil rangkuman dari data detail terkini
- Highly summary data , merupakan hasil ringkasan yang bersifat totalitas
- Metadata , data tentang data
Sebutkan dan jelaskan 4 tahapan awal metodologi dalam perencanaan database untuk data warehouse?
Pemodelan prediktif adalah membantu model untuk memprediksi suatu nilai yang memiliki karakteristik tertentu.Analisis asosiasi, yaitu menghasilkan sejumlah aturan yang menjelaskan sejumlah data yang saling berhubungan kuat satu sama lain.
Clustering adalah mengelompokkan data yang sejenis sehingga data pada cluster yang sama memiliki banyak kesamaan dibandingkan dengan data pada cluster yang berbeda.
Deteksi anomali, yaitu menemukan anomali atau outlier, yaitu data yang berbeda dengan data lainnya.
Sumber : https://lingkupkuliah.blogspot.com/2019/02/jawaban-soal-uts-data-mining.html?m=1