Hierarchical Clustering Analysist untuk Tingkat Produksi Hewan Ternak Provinsi Jawa Tengah 2020

Ghaitsa Zahira Shafa
3 min readJul 24, 2021

--

Assalamualaikum..

Welcome back, data enthusiast!

Pada kesempatan kali ini, aku ingin membagi sedikit ilmuku tentang Analisis Clustering Hierarki. Apa sih itu? Clustering adalah metode pengelompokan data yang memiliki karakteristik sama.

Hierarchical Clustering adalah suatu metode yang menggabungkan “n” buah klaster menjadi satu klaster tunggal. Sekarang mari kita coba praktik menggunakan data produksi ternak di Jawa Tengah tahun 2020

Pertamaa… Install dulu packages yang kamu butuhkan..

Kemudian inputkan data pada RStudio dan tampilkan visualisasinya menggunakan sintaks seperti ini..

ternak = read.csv(file.choose(), sep = ";", header = T)
ternak
View(ternak)
fig <- plot_ly(ternak, x = ~ternak$Kabupaten.Kota, y = ~ternak$Sapi,
type = 'bar', name = 'Jumlah Produksi Sapi')
fig <- fig %>% add_trace(y = ~ternak$Kambing, name = 'Jumlah Produksi Kambing')
fig <- fig %>% add_trace(y = ~ternak$kelinci, name = 'Jumlah Produksi Kelinci')
fig <- fig %>% layout(yaxis = list(title = 'Count'), barmode =
'group')
fig

Setelah itu, lakukan perbandingan korelasi cophenetic menggunakan kelima metode cluster hierarki yaitu single, average, complete, ward, dan centroid.

#Single
d1=dist(ternak[,2:4])
hc= hclust(d1, "single")
d2= cophenetic(hc)
cor.sing = cor (d1,d2)
cor.sing
#Average
d1=dist(ternak[,2:4])
hc= hclust(d1, "ave")
d2= cophenetic(hc)
cor.ave = cor (d1,d2)
cor.ave
#Complete
d1=dist(ternak[,2:4])
hc= hclust(d1, "complete")
d2= cophenetic(hc)
cor.comp = cor (d1,d2)
cor.comp
#Ward
d1 <- dist(ternak[,2:4])
hc <- hclust(d1, "ward.D")
d2 <- cophenetic(hc)
corward=cor(d1, d2)
corward
#Centroid
d1 <- dist(ternak[,2:4])
hc <- hclust(d1, "centroid")
d2 <- cophenetic(hc)
corcent=cor(d1, d2)
corcent

Untuk melakukan analisa cluster, dapat dilakukan dengan menggunakan koefisien korelasi cophenetic. (Alfina , Santosa, & Barakbah, 2012) Namun analisa ini hanya terbatas pada cluster yang dibentuk dengan menggunakan algoritma hierarchical clustering. Dari tabel dapat dilihat bahwa nilai koefisien korelasi cophenetic yang paling tinggi adalah metode average , sehingga dapat disimpulkan bahwa metode tersebut merupakan metode cluster terbaik untuk digunakan pada penelitian ini. Hal ini dikarenakan metode ini merupakan satusatunya metode clustering yang memperhitungan setiap jarak antar titiknya dalam menentukan urutan membentuk cluster. Selanjutnya adalah penentuan jumlah cluster yang optimal menggunakan metode shilouette.

fviz_nbclust(ternak[,2:4], hcut, method="silhouette")

Pendekatan rata-rata nilai pada metode shilhouette bertujuan untuk menduga kualitas dari klaster yang terbentuk. Berdasarkan grafik pada gambar di atas diperoleh hasil klaster optimal yang terbentuk sebanyak 3.

Kemudian hasil tersebut akan digunakan untuk membuat plot dendrogram dan mengetahui hasil pengelompokan daerahnya.

plot(hirarki.ave, labels= ternak$Kabupaten.Kota)
rect.hclust(hirarki.ave, k=3, border = 2:4)

Nahh.. gimana? Mudah kan? Kalian bisa memodifikasi menggunakan data-data lain untuk lebih mempelajarinya. See u guys! Wassalamualaikum..

Referensi :

Alfina , T., Santosa, B., & Barakbah, A. R. (2012). Analisa Perbandingan Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam Cluster Data. JURNAL TEKNIK ITS, Vol 1.

BPS. (2020). Peternakan Dalam Angka. Badan Pusat Statistik.

Fauziah, A. (2019). Hierarchical Cluster Analysis Industri Manufaktur Besar dan Sedang Berdasarkan Status Penanaman Modal. Studi Kasus: Industri Manufaktur Besar dan Sedang di Jawa Tengah Tahun 2015. Skripsi Jurusan Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Islam Indonesia.

--

--