Layanan Tesis dan Disertasi S3 Kedokteran, hubungi Meruya Statistik 0812 1944 9060

PENGEMBANGAN PENDEKATAN MULTIPLE MINIMUM SUPPORT UNTUK

MENGGALI FREQUENT CLOSED ITEMSET

*Endah Purwanti, **Eva Hariyanti

Program Studi Sistem Informasi, Fakultas Sains dan Teknologi,

Universitas Airlangga Kampus C Unair

Jl. Mulyosari Surabaya 60115

E-Mail: *endahpurwanti@fst.unair.ac.id, **eva.hariyanti@fst.unair.ac.id

Abstrak

Frequent closed itemsets merupakan himpunan itemset yang berperan dalam proses penggalian rule pada association rule mining. Penggalian frequent pattern seringkali menghasilkan sejumlah besar frequent itemsets dan rule, sehingga mengurangi efisiensi dan keefektifan dari proses mining karena user harus menyaring sejumlah besar rule hasil penggalian untuk menemukan rule yang penting. Oleh karena itu proses penggalian dapat diwakili hanya pada frequent closed itemsets. Penggunaan multiple minimum support bertujuan untuk menampung adanya perbedaan sifat dan frekuensi yang ada pada tiap item. Pada penelitian ini digunakan pengembangan pendekatan multiple minimum support untuk menggali frequent closed itemset. Multiple minimum support dihitung dengan memperhatikan nilai ‘support difference’ (SD). Pendekatan ini dilakukan agar item yang jarang bisa ikut tergali sebagai frequent itemset. Algoritma yang dikembangkan menggunakan struktur Multiple Item Support Tree (MIS-tree) untuk menyimpan pola yang ringkas dan penting tentang frequent pattern. Uji coba dilakukan pada tiga buah dataset, dengan memberikan nilai yang berbeda-beda pada parameter α yaitu 0.9, 0.5, dan 0.25, ë diisi dengan nilai rata-rata. Variasi nilai α menyebabkan nilai MIS juga bervariasi. Hasil uji coba menunjukkan bahwa frequent closed itemsets yang berhasil digali jumlah menurun selaras dengan meningkatnya nilai MIS.

Kata kunci: datamining, association rule, frequent closed itemsets, multiple minimum support.

Abstract

Frequent closed itemset is an itemset set the play in the process of extracting the association rule mining rule. Mining frequent pattern often produces a large number of frequent itemsets and rules, thereby reducing the efficiency and effectiveness of the mining process because the user have a large number of rules. Therefore the mining process can be represented only on frequent closed itemsets. The use of multiple minimum support aims to accommodate the differences in the nature and frequency for each item. This paper used multiple minimum support development approach to explore frequent closed itemset. Multiple minimum support is calculated by taking into account the value of 'support difference’ (SD). This approach is a rare item that can come as a frequent itemset mined. The algorithm was developed using Multiple Item Support Tree structure (MIS-tree) to store a concise and important pattern of frequent patterns. Tests carried out on three datasets, by giving different values to the parameter α. The trial results showed that the frequent closed itemsets unearthed decreasing amount in line with the rising value of SD.

Key word: datamining, association rule, frequent closed itemsets, multiple minimum support.

PENDAHULUAN

Datamining merupakan proses penggalian pola yang penting dan tersembunyi dari data yang sangat besar. Salah satu topik penting dalam datamining adalah association rule mining. Association rule mining [1] digunakan untuk menemukan relasi antar item yang ada pada database transaksi. Sejak association rule mining dikenalkan, telah banyak penelitian yang dilakukan untuk menemukan metode yang efektif untuk melakukan penggalian frequent itemset. Telah diakui bahwa penggalian frequent pattern memegang peranan penting pada proses association rule mining.

Frequent pattern mining seringkali menghasilkan sejumlah besar frequent itemsets dan rule, yang mengurangi tidak hanya efisiensi namun juga keefektifan dari proses mining karena user harus menyaring sejumlah besar rule hasil penggalian untuk menemukan rule yang penting. Pasquier dkk [2] telah melakukan penelitian dan menyatakan bahwa sebagai ganti mining complete set dari frequent itemset, association rule mining hanya perlu untuk menemukan frequent closed itemsets. Penggalian hanya pada frequent closed itemsets mampu mengurangi jumlah rule yang redundan yang dihasilkan dan menaikkan efisiensi dan keefektifan dari proses mining itu sendiri.

Elemen kunci yang membuat association rule mining dapat dijalankan adalah minimum support (minsup). Minsup digunakan untuk memangkas atau memperkecil ruang pencarian frequent itemsets dan juga untuk membatasi jumlah rule yang akan dihasilkan. Menggunakan single minsup secara implisit mengasumsikan bahwa semua item pada database memiliki sifat dan frekuensi yang sama. Padahal tidak demikian pada kenyataannya. Pada basis data retail, biasanya item yang berhubungan dengan keperluan sehari-hari, barang konsumsi dan barang-barang dengan harga rendah akan dibeli lebih sering daripada barang mewah atau barang dengan harga mahal. Pada situasi tersebut, jika minsup yang digunakan terlalu tinggi, semua pola yang ditemukan akan berhubungan dengan barang-barang harga murah. Padahal barang tersebut hanya memberikan keuntungan sedikit. Namun jika minsup yang diberikan telalu rendah, maka rule yang dihasilkan akan sangat banyak, yang mungkin saja banyak yang tidak berguna. Dan akan

menyebabkan kesulitan bagi pengambil keputusan untuk memahami pola yang ada yang dihasilkan dari datamining.

Untuk menyelesaikan masalah tersebut, [3] telah mengembangkan model association rule yang memperbolehkan user untuk menggunakan multiple minimum support. Multiple minimum support digunakan untuk menggambarkan sifat dasar dan frekuensi yang berbeda dari item-item yang ada. Pendekatan yang digunakan disebut dengan Multiple Support Apriori (MSApriori). Ternyata MSApriori masih belum bisa menangani ‘rule missing’ dan ‘rule explosion’. Jika nilai α tinggi, nilai MIS untuk item jarang secara relatif akan lebih mendekati nilai supportnya dibandingkan dengan frequent item. Akibatnya, itemset yang berisi item jarang akan gagal memenuhi nilai support. Sehingga himpunan frequent yang berisi item jarang akan terlewatkan. Selanjutnya apabila nilai α rendah, akan menyebabkan frequent item berasosiasi dengan semua item, akibatnya akan menghasilkan himpunan frequent item yang banyak.

Pada penelitian ini akan dilakukan pengembangan pendekatan untuk menemukan multiple minimum support, yaitu dengan menggunakan notasi ‘support difference’ (SD) yang diusulkan oleh [8]. Nilai SD memastikan perbedaan konstan antara item support dan nilai minsup untuk setiap item. ukan penggalian frequent closed itemsets dengan menggunakan multiple minimum support. Penggalian akan dilakukan dengan menggunakan struktur Multiple Item Support Tree (MIS-Tree) dan algoritma CLOSET [4]. MIS-tree merupakan struktur pohon yang dikembangkan serupa dengan struktur FP-tree untuk menyimpan informasi yang ringkas dan penting mengenai frequent pattern. Algoritma CLOSET merupakan algoritma untuk menggali frequent closed itemsets, namun dengan menggunakan single minimum support.

Association Rule Mining

Sebuah transaksi I={i1,i2,i3,...,id} adalah himpunan item yang ditransaksikan dan T={t1,t2,t3,...,tn} adalah himpunan transaksi. Setiap transaksi ti terdiri dari item yang merupakan subset dari I. Sebuah itemset X adalah himpunan bagian tidak kosong dari I.

Support dari sebuah itemset X, disimbolkan dengan sup(X), adalah jumlah transaksi yang

mengandung itemset X. Association rule R: X

4 Y adalah implikasi antara dua itemset X dan Y dimana X, Y c I dan X n Y=fly. Nilai support dari rule disebut dengan sup(X4Y), didefinisikan sebagai sup(Xv Y). Confidence dari rule, disebut dengan conf(X4Y),

sup( )

X v Y

didefinisikan sebagai (X) . Untuk

sup

menemukan association rule dari sebuah transaksi, diperlukan nilai batasan yaitu minimum support (minsup) dan minimum confidence (minconf).

Frequent Closed Itemset

Menurut Liu et al [3], sebuah itemset Y adalah closed itemsets jika Y adalah frequent dan tidak terdapat superset langsung Y’ D Y sedemikian hingga sup(Y’)=sup(Y). Frequent itemsets sendiri adalah itemsets yang nilai support-nya lebih besar atau sama dengan minsup yang telah ditentukan.

Misalkan diketahui sebuah transaksi I={i1,i2,i3,...,id} adalah himpunan item yang ditransaksikan dan T={t1,t2,t3,...,tn} adalah himpunan transaksi. Setiap transaksi ti terdiri dari item yang merupakan subset dari I. Sebuah itemset X adalah himpunan bagian tidak kosong dari I. Support dari sebuah itemset X, disimbolkan dengan sup(X), adalah jumlah transaksi yang mengandung itemset X. Sebuah itemset Y adalah closed itemset jika Y adalah frequent itemset dan tidak terdapat superset langsung Y’ Y sedemikian hingga Dsup(Y’)=sup(Y). Frequent closed itemset yang dapat digali dari database transaksi pada Tabel 1 yaitu {f, c, b, fb, cb, cp, fcam, fcamp}.

Tabel 1. Database Transaksi

TID Item Item terurut sesuai

MIS

100 a c f m p f c a m p

200 a c d f m p f c a m p d

300 a b c f g m f c a b g m

400 b f i f b i

500 b c n p c b p n

MIS-Tree

Pada model ini, definisi umum dari minimum support diubah. Secara umum nilai minsup adalah sama untuk semua item, namun pada model ini setiap item dalam database dapat memiliki nilai minsup-nya sendiri¬sendiri yang disebut dengan minimum item support (MIS). Artinya user dapat memberikan

nilai MIS yang berbeda untuk item-item yang berbeda. Dengan memberikan nilai MIS yang berbeda untuk setiap item, maka hal tersebut akan merefleksikan sifat alamiah dari item itu sendiri dan mengakomodasikan adanya variasi frekuensi dalam database.

MIS-tree [5] adalah pengembangan dari struktur FP-tree, merupakan struktur pohon yang digunakan untuk menyimpan frequent item dengan multiple minimum support

Multiple Item Support

Misalkan I={a1, a2, ..., am} adalah himpunan item dan MIS(ai) menunjukkan nilai MIS untuk item ai. Maka nilai MIS dari itemset A={a1, a2, ..., ak} (1<k<m) adalah: min[MIS(a1), MIS(a2), ..., MIS(ak)]. [5]

Contoh 1:

Dalam database terdapat item bread, shoes, dan clothes. Dengan nilai MIS yang telah ditentukan sebagai berikut: MIS(bread)=2%, MIS(shoes)=0.1%, dan MIS(clothes)=0.2%. Jika nilai support dari itemset {clothes, bread}=0.15% maka itemset {clothes, bread} adalah infrequent. Karena nilai MIS dari itemset {clothes, bread} = min[MIS(clothes), MIS(bread)]=0.2%, yaitu lebih besar dari 0.15%.

Tabel 2. Nilai MIS Tiap Item

Item MIS

F 4 (80%)

C 4 (80%)

A 3 (60%)

B 3 (60%)

G 3 (60%)

M 3 (60%)

P 2 (40%)

D 2 (40%)

I 2 (40%)

N 2 (40%)

Berikut ini langkah-langkah untuk membuat MIS-tree dari data transaksi pada Tabel 1 dengan nilai MIS tiap item pada Tabel 2. Langkah pertama adalah membuat tabel header yang berisi nilai MIS tiap item. Pada MIS-tree, item-item yang infequent tetap dimasukkan dalam tabel header, namun nanti akan dihapus pada proses pruning. Setiap item pada tabel header dihubungkan ke node pada tree yang mempunyai nama yang sama melalui head of node-link. Setelah tabel header terbentuk langkah selanjutnya adalah membuat

root dengan nilai null. Kemudian baca transaksi pertama dari database untuk membuat cabang pertama dari MIS-tree: ((f:1), (c:1), (a:1), (m:1), (p:1)). Transaksi kedua (f,

c, a, m, p, d) memiliki prefix yang sama (f, c, a, m, p) dengan jalur yang sudah ada. Sehingga count dari setiap node sepanjang prefix dinaikkan 1 dan sisa item (d) pada transaksi kedua akan dibuatkan node baru sebagai anak dari node p:2. Demikian seterusnya sampai dengan transaksi dalam database habis. Demikian seterusnya sampai dengan transaksi dalam database habis.

Karena dalam tabel header masih terdapat item yang tidak frequent, maka diperlukan sebuah proses pemangkasan (pruning). Item yang tidak frequent yaitu {d, i, n} karena nilai support-nya lebih kecil daripada nilai MIS. Struktur pohon juga mengalami penyesuaian karena penghapusan item-item tersebut dari tabel header. Setelah proses pemangkasan, dimungkinkan node-node dari MIS-tree mempunyai nama yang sama, sehingga perlu dilakukan proses penggabungan (merge). Untuk membuat bentuk kompak dilakukan penelusuran pada pohon dan ditemukan bahwa node (m:2) mempunyai dua anak dengan nama yang sama yaitu p. Dilakukan penggabungan dua node tersebut menjadi sebuah node item-name = p, dan count diisi dengan jumlah count dari kedua node tersebut. Bentuk MIS-tree yang lengkap dan kompak bisa dilihat pada Gambar 1.

F 4

C 4

A 3

B 3

G 3 M 3 P 2

Gambar 1. MIS-tree Lengkap dan Kompak Algoritma CLOSET

Ide dasar untuk menggali frequent closed itemsets pada algoritma CLOSET adalah dengan menggunakan teknik devide and conquer. Caranya adalah sebagai berikut :

Membuat conditional pattern base dan conditional FP-Tree untuk setiap item yang frequent secara bottom up dengan mengacu pada tabel header.

Mengulangi proses pada langkah a untuk setiap conditional FP-Tree yang terbentuk sampai dengan FP-Tree kosong atau tinggal memiliki 1 jalur saja.

Conditional pattern base harus dibangun untuk semua item yang terdapat pada tabel header. Dari conditional FP-tree yang terbentuk akan ditemukan kandidat frequent closed itemsets. Algoritma penggalian frequent closed itemsets dapat dituliskan seperti berikut ini:

ALGORITMA: Frequent Closed

Itemsets dengan Multiple minimum support (FCI_MIS)

INPUT: 1. database transaksi, 2. nilai MIS untuk setiap item, 3. MIS-tree

OUTPUT: himpunan lengkap frequent closed itemsets

METODE: Panggil fungsi

FCI_MIS(MIS-tree, null) Procedure FCI_MIS(tree, f)

{ for f anggota tabel header do

{ bangun proyeksi MIS-tree β

dengan prefiks f

Update tabel header

If tree β ≠null then Get_FCI_MIS(tree β, f, }}

Get_FCI_MIS(tree, f,

anggota header tabel do

{ buat conditional database

dengan prefiks f

Update tabel header

If tree β ≠null then

{ Get FCI MIS(tree

_ _

β, f, MIS(f))

If f.support ≠

f.superset.support and f bukan subset dari frequent closed itemsets yang telah ditemukaan

Close=true; }}}

Support Difference

Support difference (SD) merujuk pada simpangan yang masih dapat diterima oleh sebuah item dari frekuensi atau supportnya.

Sehingga sebuah itemset dapat dianggap sebagai frequent itemset. Perhitungan minsup untuk setiap item ij (MIS(ij)) dapat dilihat pada persamaan (1).

MIS(ij) = S(ij) – SD, jika (S(ij) – SD)

< LS = LS , untuk yang lainnya (1)

Keterangan:

LS = nilai support terendah yang didefinisikan sebelumnya

SD = X(1-a)

X = parameter yang bisa diisi dengan nilai rata-rata, median, atau modus

a = parameter yang bernilai antara 0 dan 1 yang ditentukan sendiri oleh user

Nilai X dan a memegang peranan penting dalam mendefinisikan SD. Kedua nilai tersebut dapat disesuaikan dengan sifat statistik dari data.

HASIL DAN PEMBAHASAN

Uji coba dilakukan dengan menggunakan dataset yang biasa digunakan untuk menguji algoritma association rule mining yaitu basis data transaksi yang terdapat secara on-line. Dataset yang digunakan yaitu T1014D100K, Mushroom, dan Gazelle. Masing-masing dataset tersebut memiliki karakteristik yang berbeda. Karakteristik dari dataset-dataset besar ini dituliskan pada Tabel 2. Nilai a yang digunakan dalam uji coba adalah 0.9; 0.5; dan 0.25, sedangkan X diisi dengan nilai rata-rata. Mula-mula digunakan a kecil (a=0.25), dengan persamaan (1) nilai SD mendekati nilai rata-rata (X), untuk item jarang nilai MIS akan sama dengan LS. Hal ini dilakukan dengan harapan item jarang akan masuk dalam frequent itemsets. Pada a=0.9, nilai SD menjadi kecil sekali, sehingga MIS mendekati nilai support. Hal ini menyebabkan item jarang tidak akan berhasil masuk sebagai frequent itemset. Hasil penggalian frequent closed itemset dapat dilihat pada Gambar 2.

Tabel 2. Karakteristik Dataset

Dataset # Tuples # Item

Mushroom 8124 120

Gazelle 59601 498

T1014D100k 100k 433329169

Gambar 2. Grafik Jumlah Frequent Closed Itemsets dengan variasi nilai a Pada ketiga Dataset

Hasil uji coba pada Gambar 2 menunjukkan bahwa jumlah frequent closed itemsets yang berhasil digali menurun selaras dengan meningkatnya nilai SD. Ketika nilai a=0.25, nilai MIS pada item jarang menjadi sama dengan LS, sehingga banyak frequent closed itemset yang berhasil digali. Sebaliknya ketika nilai a=0.9, nilai MIS mendekati nilai supportnya sehingga jumlah frequent closed itemsets yang berhasil digali menjadi kecil. Berkurangnya jumlah frequent closed itemsets menunjukkan bahwa penggunaan multiple minimum support mampu menaikkan efisiensi dari proses penggalian aturan asosiasi. Hasil frequent closed itemsets ini akan digunakan dalam proses penggalian aturan asosiasi selanjutnya.

KESIMPULAN

Pada penelitian ini digunakan

pengembangan pendekatan multiple minimum support untuk menggali frequent closed itemset. Multiple minimum support dihitung dengan memperhatikan nilai ‘support difference’ (SD). Pendekatan ini dilakukan agar item yang jarang bisa ikut tergali sebagai

frequent itemset. Algoritma yang

dikembangkan menggunakan struktur Multiple Item Support Tree (MIS-tree) untuk menyimpan pola yang ringkas dan penting tentang frequent pattern. Pada uji coba dipilih nilai a 0.9; 0.5; dan 0.25. Nilai ini dipilih untuk memberikan variasi pada nilai MIS, untuk a kecil, nilai MIS pada item jarang menjadi sama dengan LS. Sebaliknya pada a besar nilai MIS akan mendekati nilai supportnya. Hasil uji coba menunjukkan bahwa frequent closed itemsets yang berhasil digali jumlah meningkat selaras dengan menurunnya nilai MIS.

Untuk pengembangan lebih lanjut dari penelitian ini dapat dititikberatkan pada pemberian nilai LS (Low Support) dengan menggunakan suatu formula tertentu yang mampu mengakomodasi kepentingan item-item yang jarang.

SUMBER PUSTAKA

[1] Agrawal, R., Imielinski, T., and Swami, A. (1993), “Mining association rules between sets of items in large databases”, In Proc. 1993 ACM-SIGMOD Int. Conf. Management of Data (SIGMOD’93), Washington, DC, pp. 207–216.

[2] Han, J., Pei, J.dan Yin, Y., (2000), ”Mining Frequent Pattern Without Candidate Generation”, In Proc. 2000 ACM-SIGMOD Int. Conf. Management of Data (SIGMOD’00), Dallas, TX.

[3] Liu, B., Hsu, W. dan Ma, Y., (1999)”Mining Association Rules with Multiple minimum support”, Proceedings of the ACM SIGKDD In. Conf. on Knowledge Discovery and Data Mining (KDD-99), San Diego, CA, USA.

[4] Pasquier, N., Bastide, Y., Taouil, R., dan Lakhal, L., (1999), ” Discovering Frequent Closed Itemsets for association Rules”, In Proc. 7th Int. Conf. Database Theory (ICDT’99), pages 398-416, Jerusalem, Israel.

[5] Pei, J., Han, J., Mao, R., (2000), "CLOSET: An efficient algorithm for mining frequent closed itemsets", Proceedings of the 2000 ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, Dallas, Texas.

[6] Purwanti, E., Arif, D., (2009) “Penggalian Frequent Closed Itemsets dengan Menggunakan Multiple Minimum Suppot”, Proceeding Seminar Nasional Pascasarjana ITS 2009, Surabaya.

[7] Tan, P., Steinbach, M., Kumar, V.(2006), “Introduction to Data Mining”, Pearson Education, Boston.

[8] Kiran U., Krishna R, (2009), “An Improved Multiple minimum support Based Approach to Mine Rare Association Rules”, Computational Intelligence and Data Mining, CIDM ’09, pages 340-347

[9] Wang, J. , Han, J., Pei J., (2003), “CLOSET+: Searching for Best Strategies for Mining Frequent Closed Itemset”, Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'03), Washington, D.C., USA, hal 236-345.

[10] Ya-Han Hu, Yen-Liang Chen, (2006),

“ Mining Association Rules with Multiple minimum supports: a New Mining Algorithm and a Support Tuning Mechanism ”, Decision Support Systems, Volume 42, Issue 1, Pages 1-24.

Layanan Tesis dan Disertasi S3 Kedokteran, hubungi Meruya Statistik 0812 1944 9060

Sabtu, 19 Juli 2014

Tidak ada komentar:

Posting Komentar