Regresi poisson merupakan regresi yang memiliki sebaran nilai variabel dependen berbentuk distribusi poisson. Tentunya regresi poisson termasuk dalam regresi non linear. Bentuk – bentuk regresi non linear lainnya bisa dibaca pada artikel: Tehnik setrika pada regresi.
Apa yang menarik dari regresi poisson?
Seperti logit atau regresi logistik, tipe regresi ini dibedakan karena sifat dari data dependen variabel atau nilai Y dalam persamaan regresi yang berbeda dengan regresi berganda pada umumnya. Regresi poisson memiliki nilai Y dengan ciri sebaran berbentuk poisson.
Apa itu sebaran poisson? Pertama, data berbentuk diskret, yakni data yang tidak berhubungan satu sama lain. jika melihat grafik, data tersebut berupa titik titik dan tidak berada dalam satu garis. Sebagai contoh pada kasus catat produk dalam suatu proses produksi. Jika digambarkan dengan waktu dalam sebuah chart maka akan timbul noktah noktah yang terpisah. Pada lima menit pertama kemungkinan ada produk cacat 1, tetapi kemungkinan itu baru muncul setelah beberapa jam kemudian.
Kedua, probabilitas atau peluang terjadinya diskrit tersebut sangatlah kecil dari total kejadian secara keseluruhan yang sangat besar. Mungkin probabilitas hanya berkisar 10 persen atau bahkan lebih kecil. Poin ini penting karena logistik sebenarnya hampir mirip dengan poisson. Jika poisson mencatat berapa produk cacat dalam satu batch produksi, jika nilai ini besar (peluang kejadiannya besar), akan mirip dengan logistik dengan mengubahnya menjadi dummy. Tetapi, logistik membutuhkan pembagian kedua kelompok dummy itu dengan nilai yang seimbang. Jika salah satunya hanya sedikit, maka analisis yang tepat menggunakan poisson.
Ketiga, distribusi poisson hampir mirip dengan distribusi binomial, namun memiliki persayaratan yakni nilai mean sama dengan nilai variannya. Asumsi ini disebut sebagai asumsi equidispersi. Sepertinya asumsi ini yang membuat kondisi sulit dipenuhi karena tidak ada jaminan nilai dependen variabel selalu mengikuti syarat ini. Regresi poisson dalam prakteknya akan menggunakan eksponensial. Jika sebaran Y tidak memenuhi syarat poisson, biasanya dilakukan metode lain seperti binomial negatif yang menggunakan konversi log.
Latihan: data dapat diunduh di bawah ini, klik nama filenya:
Buka minitab, dan copikan data tersebut. Klik stat – regression – poisson regressiion – fit poisson model
Kemudian masukkan variabel discoloration defects sebagai variabel response / dependen variabel, size of screw sebagai categorical predictors atau dummy, sisanya masukkan ke continuous predictors.
Klik OK untuk melihat hasil.
Pertama, kita melihat nilai goodness of fit
Goodness-of-Fit Tests
Test DF Estimate Mean Chi-Square P-Value
Deviance 31 13.77824 0.44446 13.78 0.997
Pearson 31 13.80059 0.44518 13.80 0.997
Terlihat dari dua uji test, keduanya tidak menghasilkan nilai p value dibawah 0.05. artinya bahwa tidak cukup bukti bahwa model yang dikeluarkan dapat menjelaskan kejadian discoloration defects. Pada nilai hasil test deviance dan pearson sebenarnya bisa ditentukan apakah sebaran nilai Y overdispersi. Namun minitab tidak mengeluarkan hasil tersebut.
Kedua, melihat regresi equationnya:
Regression Equation
Discoloration Defects = exp(Y’)
Size of Screw
large Y’ = 4.403 – 0.009421 Clump Defects – 0.000194 Temperature
+ 0.003377 Hours Since Cleanse
small Y’ = 4.154 – 0.009421 Clump Defects – 0.000194 Temperature
+ 0.003377 Hours Since Cleanse
Terlihat bahwa pada model ini menggunakan variabel Y’ yang memiliki hubungan dengan variabel discoloration defects yakni Discoloration Defects = exp(Y’)
Pada gambar diatas terlihat ada dua variabel karena regresi pada contoh menggunakan dummy. Dari persamaan tersbeut dapat digunakan untuk menghitung peluang terjadinya cacat produk. Tapi jangan lupa bahwa persamaan tersbeut adalah nilai Y’, yang harus dikonversi ke dalam variabel sebenarnya discoloration defect, yakni exp(Y’).
Cara membacanya: misal pada variabel temperature: Perbedaan dalam log nilai harapan discoloration defects diperkirakan 0.000194 lebih rendah (karena bernilai negatif) untuk variabel temperatur, asumsi yang lain tetap. Masih menggunakan kata log, karena konstanta ini berada dalam fungsi exp.
Ketiga, melihat masing – masing koefisien. Sama dengan regresi pada umumnya, masing masing koefisien dilihat apakah signifikan mempengaruhi berdasarkan nilai p value yang dimiliki.
Deviance Table
Source DF Adj Dev Adj Mean Chi-Square P-Value
Regression 4 20.0833 5.0208 20.08 0.000
Clump Defects 1 2.1704 2.1704 2.17 0.141
Temperature 1 0.1615 0.1615 0.16 0.688
Hours Since Cleanse 1 0.1734 0.1734 0.17 0.677
Size of Screw 1 9.2887 9.2887 9.29 0.002
Error 31 13.7782 0.4445
Total 35 33.8616
Pertanyaan yang sering muncul adalah: bagaimana jika sebaran Y yang kita miliki tidak mengikuti kaidah sebaran peluang poisson? Jawabnnya bisa menggunakan binomial negatif yang insha allah akan ditulis pada artikel selanjutnya.
Selamat Belajar!
Note:
- Jika membaca di mobile phone kemungkinan tabel akan berantakan, sebaiknya membaca di PC
- Kemungkinan besar akan banyak pertanyaan: dari mana sumbernya atau bukunya? Sengaja rumus rumusnya tidak kami tampilkan. Silahkan download di link dibawah ini: