Regresi Poisson untuk data diskrit

Posted on

Regresi poisson merupakan regresi yang memiliki sebaran nilai variabel dependen berbentuk distribusi poisson. Tentunya regresi poisson termasuk dalam regresi non linear. Bentuk – bentuk regresi non linear lainnya bisa dibaca pada artikel: Tehnik setrika pada regresi.

Apa yang menarik dari regresi poisson?

Seperti logit atau regresi logistik, tipe regresi ini dibedakan karena sifat dari data dependen variabel atau nilai Y dalam persamaan regresi yang berbeda dengan regresi berganda pada umumnya. Regresi poisson memiliki nilai Y dengan ciri sebaran berbentuk poisson.

Apa itu sebaran poisson? Pertama, data berbentuk diskret, yakni data yang tidak berhubungan satu sama lain. jika melihat grafik, data tersebut berupa titik titik dan tidak berada dalam satu garis. Sebagai contoh pada kasus catat produk dalam suatu proses produksi. Jika digambarkan dengan waktu dalam sebuah chart maka akan timbul noktah noktah yang terpisah. Pada lima menit pertama kemungkinan ada produk cacat 1, tetapi kemungkinan itu baru muncul setelah beberapa jam kemudian.

Kedua, probabilitas atau peluang terjadinya diskrit tersebut sangatlah kecil dari total kejadian secara keseluruhan yang sangat besar. Mungkin probabilitas hanya berkisar 10 persen atau bahkan lebih kecil. Poin ini penting karena logistik sebenarnya hampir mirip dengan poisson. Jika poisson mencatat berapa produk cacat dalam satu batch produksi, jika nilai ini besar (peluang kejadiannya besar), akan mirip dengan logistik dengan mengubahnya menjadi dummy. Tetapi, logistik membutuhkan pembagian kedua kelompok dummy itu dengan nilai yang seimbang. Jika salah satunya hanya sedikit, maka analisis yang tepat menggunakan poisson.

Ketiga, distribusi poisson hampir mirip dengan distribusi binomial, namun memiliki persayaratan yakni nilai mean sama dengan nilai variannya. Asumsi ini disebut sebagai asumsi equidispersi. Sepertinya asumsi ini yang membuat kondisi sulit dipenuhi karena tidak ada jaminan nilai dependen variabel selalu mengikuti syarat ini. Regresi poisson dalam prakteknya akan menggunakan eksponensial. Jika sebaran Y tidak memenuhi syarat poisson, biasanya dilakukan metode lain seperti binomial negatif yang menggunakan konversi log.

Latihan: data yang diunduh. Data berasal dari sample kasus di minitab

Buka minitab, dan copikan data tersebut. Klik stat – regression – poisson regressiion – fit poisson model

poisson regression on minitab

Kemudian masukkan variabel discoloration defects sebagai variabel response / dependen variabel, size of screw sebagai categorical predictors atau dummy, sisanya masukkan ke continuous predictors.

step by step of regression poisson

Klik OK untuk melihat hasil.

Pertama, kita melihat nilai goodness of fit

Goodness-of-Fit Tests

Test      DF  Estimate     Mean  Chi-Square  P-Value

Deviance  31  13.77824  0.44446       13.78    0.997

Pearson   31  13.80059  0.44518       13.80    0.997

Terlihat dari dua uji test, keduanya tidak menghasilkan nilai p value dibawah 0.05. artinya bahwa tidak cukup bukti bahwa model yang dikeluarkan dapat menjelaskan kejadian discoloration defects. Pada nilai hasil test deviance dan pearson sebenarnya bisa ditentukan apakah sebaran nilai Y overdispersi. Namun minitab tidak mengeluarkan hasil tersebut.

Kedua, melihat regresi equationnya:

Regression Equation

Discoloration Defects  =  exp(Y’)

Size of Screw

large    Y’ = 4.403 – 0.009421 Clump Defects – 0.000194 Temperature

              + 0.003377 Hours Since Cleanse

small    Y’ = 4.154 – 0.009421 Clump Defects – 0.000194 Temperature

              + 0.003377 Hours Since Cleanse

Terlihat bahwa pada model ini menggunakan variabel Y’ yang memiliki hubungan dengan variabel discoloration defects yakni  Discoloration Defects  =  exp(Y’)

Pada gambar diatas terlihat ada dua variabel karena regresi pada contoh menggunakan dummy. Dari persamaan tersbeut dapat digunakan untuk menghitung peluang terjadinya cacat produk. Tapi jangan lupa bahwa persamaan tersbeut adalah nilai Y’, yang harus dikonversi ke dalam variabel sebenarnya discoloration defect, yakni exp(Y’).

Cara membacanya: misal pada variabel temperature: Perbedaan dalam log nilai harapan discoloration defects diperkirakan 0.000194 lebih rendah (karena bernilai negatif) untuk variabel temperatur, asumsi yang lain tetap. Masih menggunakan kata log, karena konstanta ini berada dalam fungsi exp.

Ketiga, melihat masing – masing koefisien. Sama dengan regresi pada umumnya, masing masing koefisien dilihat apakah signifikan mempengaruhi berdasarkan nilai p value yang dimiliki.

Deviance Table

Source                 DF  Adj Dev  Adj Mean  Chi-Square  P-Value

Regression              4  20.0833    5.0208       20.08    0.000

Clump Defects         1   2.1704    2.1704        2.17    0.141

Temperature           1   0.1615    0.1615        0.16    0.688

  Hours Since Cleanse   1   0.1734    0.1734        0.17    0.677

Size of Screw         1   9.2887    9.2887        9.29    0.002

Error                  31  13.7782    0.4445

Total                  35  33.8616

Pertanyaan yang sering muncul adalah: bagaimana jika sebaran Y yang kita miliki tidak mengikuti kaidah sebaran peluang poisson? Jawabnnya bisa menggunakan binomial negatif yang insha allah akan ditulis pada artikel selanjutnya.

Selamat Belajar!

Note:

  1. Jika membaca di mobile phone kemungkinan tabel akan berantakan, sebaiknya membaca di PC
  2. Kemungkinan besar akan banyak pertanyaan: dari mana sumbernya atau bukunya? Sengaja rumus rumusnya tidak kami tampilkan. Silahkan download di link dibawah ini:

Sumber bacaan regresi poisson

Gravatar Image
Peneliti bidang sosial ekonomi pertanian. Pernah bekerja di bidang supply chain. Detil info silahkan kunjungi laman about me.

Leave a Reply

Your email address will not be published. Required fields are marked *