Monday 23 January 2012

Algoritma C4.5


1.      JUDUL
MERAMALKAN JUMLAH MAHASISWA BARU YANG REGISTRASI PADA UNIVERSITAS SWASTA X DI SURAKARTA DENGAN ALGORITMA C4.5

2.      LATAR BELAKANG MASALAH
Banyaknya lulusan Sekolah Menengah atas dan sederajat di wilayah Surakarta menyebabkan diperlukan tempat untuk melanjutkan cita-cita dari mereka.  Sebagian dari mereka pasti banyak yang memilih untuk meneruskan pendidikannya yang lebih tinggi, namun tidak sedikit dari mereka yang langsung turun ke dunia kerja. Namun banyaknya peminat untuk melanjutkan pendidikan yang lebih tinggi harus diseimbangan dengan jumlah perguruan tingginya. Sehingga pemerintah memiliki kewajiban untuk memberikan penddikan yang layak kepada setiap rakyatnya. Banyak perguuan tinggi didirikan dari yang negeri, swasta, terbuka, hingga sekolah tiggi yang bertujuan untuk sekolah kedinasan. Peminat perguruan swasta pun semakin meningkat seiring banyaknya lulusan sekolah menengah yang belum tertampung di Universitas negeri ataupun sekolah kedinsan.
      Di dalam kehidupan manusia sehari-hari, manusia selalu dihadapkan oleh berbagai macam masalah dari berbagai macam bidang. Masalah-masalah yang dihadapi oleh manusia memiliki tingkat kesulitan dan kompleksitas yang sangat bervariasi, mulai dari masalah yang teramat sederhana dengan sedikit faktor-faktor yang terkait, sampai dengan masalah yang sangat rumit dengan banyak sekali faktor-faktor yang terkait dan perlu untuk diperhitungkan. Untuk menghadapi masalah-masalah ini, manusia mulai mengembangkan sebuah sistem yang dapat membantu manusia agar dapat dengan mudah mampu untuk menyelesaikan masalah-masalah tersebut. Adapun pohon keputusan ini adalah sebuah jawaban akan sebuah sistem yang manusia kembangkan untuk membantu mencari dan membuat keputusan untuk masalah-masalah tersebut dan dengan memperhitungkan berbagai macam faktor yang ada di dalam lingkup masalah tersebut. Dengan pohon keputusan, manusia dapat dengan mudah mengidentifikasi dan melihat hubungan antara faktor-faktor yang mempengaruhi suatu masalah dan dapat mencari penyelesaian terbaik dengan memperhitungkan faktor-faktor tersebut. Pohon keputusan ini juga dapat menganalisa nilai resiko dan nilai suatu informasi yang terdapat dalam suatu alternatif pemecahan masalah. Peranan pohon keputusan sebagai alat bantu dalam mengambil keputusan (decision support tool) telah dikembangkan oleh manusia sejak perkembangan teori pohon yang dilandaskan pada teori graf. Kegunaan pohon keputusan yang sangat banyak ini membuatnya telah dimanfaatkan oleh manusia dalam berbagai macam sistem pengambilan keputusan.
Algoritma C4.5 adalah algoritma klasifikasi data dengan teknik pohon keputusan yang terkenal dan disukai karena memiliki kelebihan-kelebihan. Kelebihan ini misalnya dapat mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang mudah diintrepetasikan dan tercepat diantara algoritma-algoritma yang lain. Keakuratan prediksi yaitu kemampuan model untuk dapat memprediksi label kelas terhadap data baru atau yang belum diketahui sebelumnya dengan baik. Dalam hal kecepatan atau efisiensi waktu komputasi yang diperlukan untuk membuat dan menggunakan model.  Kemampuan model untuk memprediksi dengan benar walaupun data ada nilai dari atribut yang hilang.  Dan juga skalabilitas yaitu kemampuan untuk membangun model secara efisien untuk data berjumlah besar (aspek ini akan mendapatkan penekanan). Terakhir interpretabilitas yaitu model yang dihasilkan mudah dipahami.

3.      PERUMUSAN MASALAH
Berdasarkan latar belakang masalah diatas, dapat dibuat suatu rumusan masalah yaitu bagaimana meramalkan  jumlah mahasiswa baru yang registrasi pada  Universitas Swasta X di Surakarta dengan Algoritma C4.5.

4.      TUJUAN PENELITIAN
Tujuan dari penelitian ini adalah untuk mengetahui :
a)      Algoritma C4.5 merupakan metode yang cocok melakukan studi terhadap algoritma klasifikasi data mining, khususnya Algoritma C4.5.
b)      Perkiraan jumlah registrasi mahasiswa baru Universitas Swasta di Surakarta

5.      MANFAAT PENELITIAN
Diharapkan dengan melakukan penelitian ini dapat diambil  manfaat yaitu
a)      Bagi penulis, membantu menambah wawasan tentang dunia pendidikan dalam penerimaan mahasiswa baru mengenai meramalkan jumlah mahasiswa baru yang registrasi pada Universitas Swasta X di Surakarta dengan Algoritma C4.5
b)      Bagi jurusan, tugas akhir ini dapat dijadikan referensi bagi pihak perpustakaan sebagai bahan bacaan bagi mahasiswa yang membutuhkan untuk lebih memahami manfaat algoritma C4.5 dalam membantu meramalkan jumlah mahasiswa baru yang registrasi pada Universitas Swasta X di Surakarta
c)      Bagi Universitas Swasta , dapat dijadikan sebagai bahan pertimbangan dalam mengambil keputusan yang tepat dan dapat mengetahui perkiraan jumlah mahasiswa baru yang akan registrasi.

6.      TINJAUAN PUSTAKA
Untuk menyelesaikan perumusan masalah, perlu untuk menguraikan terlebih dahulu beberapa hal yang mendasari penelitian ini. Adapun beberapa hal tersebut memuat beberapa definisi data mining dan algoritma C4.5 dalam memperkirakan jumlah mahasiswa baru yang akan registrasi.
Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining  adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban,dkk.2005)
Pengertian dari data mining itu sendiri yaitu suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola sepeerti teknik statistik dan matematika (Larose,2005).
Istilah data mining sudah berkembang jauh dalam mengadaptasi setiap bentuk analisa data. Pada dasarnya data mining berhubungan dengan analisa data dan penggunaan teknik-teknik perangkat lunak untuk mencari pola dan keteraturan dalam himpunan data yang sifatnya tersembunyi
Algoritma merupakan kumpulan perintah yang tertulis secara sistematis guna menyelesaikan permasalahan logika dari matematika. Pengertian Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Sedang pohon keputusan dapat diartikan suatu cara untuk memprediksi atau mengklarifikasi yang sangat kuat. Pohon keputusan dapat membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan.
Dalam algoritma C4.5 untuk membangun pohon keputusan hal pertama yang dilakukan yaitu memilih atribut sebagai akar. Kemudian dibuat cabang untuk tiap-tiap nilai didalam akar tersebut. Langkah berikutnya yaitu membagi kasus dalam cabang. Kemudian ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Untuk memilih atribut dengan akar, didasarkan pada nilai gain tertinggi dari atribut-tribut yang ada. Untuk menghitung gain digunakan  rumus sebagai berikut:



Keterangan:
S     : himpunan kasus
A    : Atribut
N    : jumlah partisi atribut A
 : jumlah kasus pada partisi ke-i
  : jumlah  kasus dalam S
Sehingga akan  diperoleh nilai gain dari atribut yang paling tertinggi. Gain adalah salah satu  atribute selection measure yang digunakan untuk memilih test atribute tiap node pada tree. Atribut dengan information gain tertinggi dipilih sebagai test atribut dari suatu node.
Sementara itu, penghitungan nilai entropi dapat dilihat pada persamaan :

Keterangan :
S     : himpunan kasus
A     : Atribut
N     : jumlah partisi S
    : proporsi dari  terhadap S
Untuk mengetahui analisis kemungkinan  pengunduran diri seorang calon mahasiswa baru adalah dengan melakukan klasifikasi dari kumpulan data calon mahasiswa yang ada. Salah satu model klasifikasi adalah dengan membuat pohon keputusan. Berikut ini adalah penjelasan lebih terperinci mengenai tiap-tiap langkah dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk menyelesaikan permasalahan.
         Untuk langkah-langkah dalam  membuat aplikasinya adalah sebagai berikut, yaitu pertama melakukan pemilihan variabel. Variabel tersebut diambil dari kolom data yang berupa variabel keputusan dan variabel penentu. Untuk variabel keputusan dapat dipilih salah satu kolom pada data, sedangkan untuk variabel penentu diperoleh dari sisa-sisa kolom pada data tersebut.  Pemilihan variabel-variabel tersebut dengan pertimbangan bahwa jumlah nilai variabelnya tidak banyak sehingga diharapkan calon siswa yang masuk dalam satu klasifikasi nilai variabelnya cukup banyak. Tahap berikutnya yaitu melakukan Pra-Proses berdasarkan variabel-variabel yang sudah dipilih, format data akan berubah. Yaitu perubahannya akan dikelompokan sesuai kolom-kolom yang dipilih sebagai variabel dan diperoleh range dalam setiap kolomnya. Kemudian merancang diagram alir data aliran data yang digunakan untuk mengetahui proses yang akan dilakukan algoritma C4.5 pada data mining. Kemudian  merancang basis data yaitu tabel-tabel didalam data tersebut akan dibagi menjadi dua kelompok. Dua kelompok tabel tersebut meliputi tabel yang dibuat saat pembangunan dan tabel yang dibuat saat aplikasi dijalankan. Sehingga dapat membentuk Algoritma Pembentukan tree dilakukan secara rekursif. Inisialisasi awal pembentukan tree dapat dilihat pada Gambar 7.2.2.


Gambar 7.2.2 Algoritma inisialisasi pembentukan node

Salah satu langkah pada algoritma inisialisasi pembentukan node adalah buat_node.  Untuk tahap yang berikutnya yaitu  mengimplementasikan algoritma C4.5, penulis mengkodekannya menggunakan bahasa pemrograman Borland Delphi dengan bantuan Software Pengelola Database Interbase. Sehingga dapat diperoleh hasil hasil peramalan hasil mahasiswa baru yang registrasi pada Universitas Swasta X di Surakarta.
7.      KERANGKA PEMIKIRAN
Data diperoleh dari penelitian yang dilakukan selama 4 tahun terakhir pada universitas swasta X.  Data tersebut akan diolah menggunakan Algoritma C4.5. Penelitian ini akan meneliti tentang perkiraan jumlah registrasi mahasiswa baru Universitas Swasta di Surakarta setelah dilakukannya pengumuman penerimaan. Sehingga Universitas Swasta X tersebut dapat melakukan estimasi jumlah mahasiswa baru yang akan registrasi tidak akan mengurangi jumlah kuota mahasiswa baru.

8.      METODE PENELITIAN
Teknik dokumentasi adalah suatu usaha yang dilakukan dengan penelitian untuk mengumpulkan data dengan cara menggunakan data yang tersedia sebagai sumber informasi untuk mencapai tujuan yang diharapkan.
Metode yang digunakan pada penelitian ini adalah dengan menggunakan data mining yaitu mengambil data dari salah satu Universitas Swasta X di Surakarta.
Langkah-langkah penelitian yang digunakan untuk mencapai tujuan penelitian ini adalah sebagai berikut:
1.      Mengambil data dari salah satu Universitas Swasta X di Surakarta
2.      Memilih atribut sebagai akar
3.      Membagi kasus dalam cabang
4.      Mengulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas sama.
5.      Memperoleh hasil peramalan mahasiswa baru yang registrasi pada Universitas Swasta X di Surakarta.
Dengan langkah-langkah tersebut maka diharapkan dapat mempermudah penelitian dengan menggunakan Data Mining Algoritma C4.5 ini. Selain itu penelitian ini dapat dilaksanakan dengan sistem yang jelas dan runtut sesuai teori yang telah ada.

9.      JADWAL PENELITIAN
Seluruh kegiatan dalam penulisan skripsi ini diatur dalam jadwal penelitian. Dengan adanya jadwal penelitian, diharapkan proses penulisan skripsi berjalan lancar dan sesuai dengan target. Jadwal penelitian dalam penulisan skripsi ini terlihat pada Tabel 10.1

Kegiatan
Bulan
I
II
III
IV
V
VI
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
Menulis Proposal TA




















Ujian Proposal TA























Menulis Revisi






















Menulis Bab I





















Menulis Bab II




















Menulis Bab III




















Menulis Bab IV




















Menulis Bab V





















Menulis Artikel






















Pelaksanaan Seminar Hasil























Pelaksanaan Ujian Pendadaran























Tabel 10.1 Jadwal Kegiatan

DAFTAR PUSTAKA
Kusrini dan Emha Taufiq Luthfi. 2009. Algoritma Data Mining. Penerbit Andi Offset,
Yogyakarta.
Fayyad, Usama. 1996. Advances in Knowledge and Data Mining. MIT Press. Vol. 17 No. 3
Larose, Daniel T.  2005 .  Discovering Knowledge in Data : An Introduction to Data Mining.  John Willey & Sons, Inc.
MacLennan, J. dan Tang, Z.H. 2005. Data Mining with SQL Server 2005 United States of America : Willey Publishing.
Turban, E, dkk. 2005.  Decision Support Systems and Intelegent Systems.  Yogyakarta : Andi Offset.


Catatan : Fyi, makalah ini hanya sebagai latihan membuat proposal tugas akhir untuk memenuhi salah satu tugas mata kuliah di jurusan Matematika FMIPA UNS. Untuk proposal TA dan Skripsi saya tidak membahas tentang ini, melainkan Penyelesaian Masalah Sturm-Liouville dari Persamaan Gelombang Suara di Bawah Air dengan Metode Beda Hingga.

11 comments:

Gery Lineker said...

tinjauan pustaka salah, landasan teori mana??

Muslichun Alcharis Tri atmaja said...

tolong cantumkan source code untuk implementasi algorithma C4.5 atau tree ... *.php atau *.java. untuk kasus tersebut.... thanks.. kirim ke emailku yach
ar3_cuakep@yahoo.co.id

Ghozainul said...

aku juga minta sourcenya dong

Ndonk said...

itu pake PHP apa java?

tri said...

bg bagi source code nya dong
trye.arnando@gmail.com

Unknown said...

tolong bagi source code nya
ardhyinformatika@gmail.com

Unknown said...

tolong source code nya KE Email wahyudicuy@gmail.com
Minta tolong

Anonymous said...

kalau berkenan dan tidak keberatan saya izin untuk meminta source codenya
raniramadini2@gmail.com
Terima kasih

ThànhThị BiDan said...

kalau berkenan dan tidak keberatan saya izin untuk meminta source codenya
sweetbidan@gmail.com
Terima kasih

Izza Khaeranni said...

kalau tidak keberetan saya minta source code ke zzakhaerani@gmail.com terimakasih banyak

FIQIH SOFIANA said...

all : Maaf sebelumnya, sudah saya tuliskan dibagian bawah dari postingan saya. Kalau ini hanyalah latihan pembuatan proposal. Jadi, saya juga tidak membuat program ataupun source codenya, selain itu saya juga berkonsentrasi di bidang pemrograman. Terimakasih, semoga kalian diberikan jawaban dari ketidaktahuan sesegera mungkin :)