Seperti yang sudah kita ketahui bahwa regresi logistik memiliki variabel dependen berbentuk dummy, biasanya 0 dan 1. Hal ini menjadikan peneliti seolah – olah sedang meneliti dua group yang berbeda. Satu grup diidentifikasi sebagai Y sama dengan 0 dan group lainnya diidentifikasi dengan Y sama dengan 1.
Pengertian dasar ini sering menjebak mahasiswa dan peneliti bahwa mereka akan menemukan variabel independen yang signifikan apabila kedua group tersebut memang benar-benar berbeda sempurna. Misal penelitian tentang peluang petani mengadopsi tehnik alsitan modern, dengan Y = 1 adalah petani yang melakukan tehnik modern, dan Y = 0 adalah petani yang tidak melakukan. Kemudian peneliti membuat satu variabel yakni kepemilikan traktor sebagai mesin pengolah lahan. Dalam survey pun dia memperioritaskan dan menggiring arah penelitian agar petani yang memiliki traktor dengan mudah diidentifikasi sebagai petani yang melakukan teknik alsintan modern. Di sisi lain, dia menemui petani yang tidak memiliki traktor dengan olah tanah yang tradisional. Ketika mengolah hasil penelitian, alih alih hasilnya signifikan, datanya justru tidak bisa diolah. Mengapa demikian?
Mengenal istilah complete separation pada regresi logistik
Kasus diatas disebut sebagai complete separation. Complete separation merupakan suatu kondisi pada regresi logistik dimana sebaran data pada variabel independen atau salah satu variabel independennya terpisah sempurna pada dua kutub, Y=0 dan Y=1.
Untuk lebih jelasnya perhatikan gambar individual plot salah satu variabel terhadap Y diatas. Terlihat sekali terjadi dikotomi antara nilai Y = 1 dan nilai Y=0. Nilai variabel X3 diatas untuk kelompok Y=0 berkisar antara 2,0 – 3. Sedangkan nilai variabel X3 untuk kelompok Y=1 berkisar antara 3.5 – 5. Tidak ada satupun anggota di range tersebut yang menjadi anggota atau memilih Y=0, begitu sebaliknya.
Sebenarnya kondisi ini juga berpeluang terjadi pada regresi berganda. Hanya saja dengan kondisi yang berbeda. Pada regresi berganda istilahnya disebut sebagai overFit, dimana bauran variabel independen benar benar dapat memprediksi nilai Y secara sempurna. Biasanya nilai R squared pada regresi berganda tersebutdiatas 95% untuk ketiga R squared dengan kondisi yang tidak lazim (baca: Perbedaan R squared, R squared adjusted, dan R squared predicted)
Kembali lagi ke regresi logistik. Jika kondisi ini dipaksakan untuk di running hasilnya akan error. Mengapa? Karena regresi logistik menghitung peluang. Jika tidak ada pembauran data maka tidak ada error, sehingga peluang hanya ada 100% dan 0% saja. Jika sudah begitu, buat apa menghitung peluang?
Mengatasi complete separation pada regresi logistik
Berikut cara yang bisa dilakukan dan pernah saya gunakan untuk mengatasi complete separation pada regresi logistik
Identifikasi variabel independen
Pertama yang harus anda lakukan jika menemui complete separation tersebut adalah segera lakukan identifikasi terhadap masing – masing variabe independen. Jika variabel independen secara bersama – sama di regresi dan menghasilkan error, belum tentu jika dilakukan secara individu atau masing masing variabel independen tersebut. Temukan diantara variabel variabel independen yang anda gunakan, manakah yang mengalami complete separation.
Bila perlu gunakan individual value plot secara group di minitab. Caranya?
Klik graph – individual value plot. Kemudian pilih with group. Pada windows baru yang muncul isikan variabel X dan Y yang akan dibuat individual value plot.
Kemudian silahkan diidentifikasi apakah range nilai X mana yang kosong, dan kondisi dikotomi pada variabel independen tersebut.
Menambah responden
Sebagian besar mahasiswa yang mengajukan bimbingan kepada saya merasa keberatan jika melakukan survey kembali. Hal ini memang bisa dimaklumi karena biaya survey tidaklah murah dengan perjuangan yang tidak bisa dikatakan mudah bagi peneliti muda atau mahasiswa yang baru merasakan aroma penelitian.
Namun dari segi kepentingan, sebenarnya menambah responden diperlukan untuk menambal range yang kosong pada dikotomi complete separation tersebut. Jika dilakukan penambahan data atau responden, diharapkan data lebih menyebar pada semua range nilai X terhadap Y= 1 dan Y= 0. Berikut ini adalah contoh individual value plot pada variabel yang signifikan terhadap Y
Terlihat pada gambar tersebut tidak ada dikotomi kelompok pada Y=1 dan Y=0. Data membaur pada range nilai 5 hingga 7. Pada range tersebut responden ada yang memilih Y=0 ada juga yang memilih Y = 1. Jika kondisi variabel seperti ini, tentunya regresilogistik akan mudah menghitung peluang pada responden baru berdasarkan kriteria yang dimilikinya.
Eliminasi Variabel yang mengalami complete separation
Jika menambah responden untuk melengkapi kekurangan data tersebut tidak bisa dilakukan, maka agar model regresi tetap bisa dilanjutkan, variabel yang mengalami complete separation tersebut terpaksa dibuang atau dielimnasi.
Maksud dibuang buakan berarti tidak digunakan. Anda bisa menggunakan variabel yang mengalami complete separation tersebut dengan menggunakan uji beda. Bisa menggunakan uji T atau uji beda lainnya tergantung jenis data (Nominal, ordinal, interval atau rasio)
Jadi materi ini bisa ditambahkan pada deskripsi responden atau penjelasan tambahan (sub bab) untuk mengidentifikasi perbedaan kedua kelompok tersebut. Biasanya data complete separation akan signifikan pada uji beda. Tapi ingat, uji beda hanya menjelaskan beda karakter pada dua kelompok, tidak bisa tiba tiba muncul kata peluang, atau pengaruh karakteristik tersebut terhadap nilai Y.
Sekian penjelasan tentang complete separation.
Selamat belajar, terima kasih sudah berkunjung..
pagi sya sedang melakukan regresi untuk 2 variable X, 1 variable Y dan 1 variable Z.. dan menghasilkan adjusted R nya 1,000
hal itu terjadi setelah saya menambah 4 sampel penelitian, sebelumnya bahkan hanya 0,06.
Apakah itu tidak apa apa?