Cara Mengeliminasi Variabel: Regresi merupakan tehnik statistik yang paling populer yang menjelaskan hubungan antara variabel independen dengan variabel dependennya, baik secara bersamaan, ataupun masing-masing variabelnya. Anda yang biasa menggunakannya pasti kenal dengan R-square atau R-square adj, dimana indikator satu ini menjelaskan baiknya model yang dikeluarkan oleh regresi baik berganda, linear, biner, logistic, geometri, dan lain-lain. Kesemuanya menggunakan r-square untuk indikator goodness of fit meskipun terkadang hanya beda istilahnya saja.
R-square mengindikasikan bahwa variabel independen secara bersama – sama mampu memprediksi variabel dependen sebesar nilai r-square tersebut. Sedangkan sisanya (1 – r-square) merupakan nilai error yang tidak bisa dijelaskan oleh variabel-variabel di dalam model persamaan regresi. Tentunya kita mengharapkan nilai r-square yang mendekati nilai 1 atau 100% agar penelitian yang kita lakukan berhasil dan dapat segera menginterpretasikan hasil dan mulai menulis pembahasan.
Kriteria r-square atau juga biasa disebut dengan koefisien determinasi dibatasi oleh nilai 0.75; 0.5; dan 0.25. nilai r-squared yang sama dengan 0.75 sampai 1 menunjukkan bahwa model yang dikeluarkan merupakan model yang kuat, sedangkan nilai r-square antara 0.5 sampai 0.74 adalah model yang sedang, dan sisanya; 0.25 hingga 0.5 merupakan model yang lemah.
Banyak peneliti atau mahasiswa yang frustasi apabila menjumpai nilai r-square yang kecil atau model yang dihasilkan ternyata lemah. Beberapa cara biasa dilakukan agar nilai r-square ini meningkat setidaknya berada di kelas sedang atau jika memungkinkan berada pada wilayah model yang kuat. Salah satu tehnik untuk meningkatkan nilai r-square adalah tehnik eliminasi atau biasa dikenal dengan bongkar pasang variabel untuk menentukan variabel mana saja yang berpengaruh nyata terhadap variabel dependennya.
Mengapa harus dieliminasi?
Tujuan eliminasi variabel bukan tanpa sebab. Salah satu sebab utama adalah mendeteksi hubungan antar variabel independen itu sendiri, atau biasa disebut dengan multikolinearitas. Karena banyak variabel independen atau variabel bebas yang digunakan, besar kemungkinan terdapat beberapa variabel bebas yang memiliki hubungan kuat antar satu sama lain. Hal ini mempengaruhi kebaikan model sehingga nilai r-square akan menjadi rendah.
Maka tehnik eliminasi pun dilakukan dengan cara mencoba-coba mengeliminasi variabel yang digunakan dan mencatat nilai r-square yang dihasilkan. Nilai r-square yang tertinggilah kemudian kita gunakan untuk proses selanjutnya dengan tanpa melupakan pemeriksaan terhadap uji klasik.
Permasalahan terjadi apabila variabel yang kita gunakan lebih dari 5 atau 10 atau bahkan ada puluhan variabel. Berapa kombinasi yang harus kita masukkan kedalam persamaan model regresi berganda yang selanjutnya kita periksa satu – persatu nilai kebaikmodelnya? Sangat melelahkan.
Pengalaman saat mahasiswa, saya mengeliminasi satu persatu variabel dan membuat semua kombinasi yang memungkinkan dari variabel yang saya gunakan selama penelitian. Ternyata, setelah saya lulus, saya baru menyadari terdapat fitur alat analisis baik di minitab ataupun SPSS yang membantu kita untuk langsung menemukan kombinasi terbaik dari variabel – variabel yang kita gunakan.
Manfaat yang paling dirasakan untuk menggunakan tools ini adalah menghemat waktu, ketepatan tinggi, dan membantu dalam pengambilan keputusan. Memasukkan kombinasi variabel membutuhkan waktu yang cukup lama, karena semua kombinasi harus anda coba unruk mengetahui kombinasi mana yang paling tepat. Bisa saja anda lupa mencoba sebuah kombinasi variabel yang ternyata kombinasi tersebut memiliki nilai r-square yang paling tinggi dari kombinasi – kombinasi yang telah anda lakukan sebelumnya. Hal ini menjadikan ketepatan pada model yang anda gunakan patut dipertanyakan kembali. Berapa lama waktu yang anda hemat untuk tidak melakukan percobaan – percobaan tersebut? Setelah mengetahui hasilnya, anda bisa langsung memutuskan apakah perlu melakukan pengambilan data kembali, dengan cara memasukkan variabel baru misalnya, ataukah anda akan tetap meneruskan penelitian dengan hasil yang sudah ada.
Saya akan menjelaskan beberapa tehnik eliminasi variabel yang disajikan oleh minitab dan SPSS. Adapun mana yang lebih baik dan lebih simple, anda bisa menyimpulkan sendiri setelah membaca artikel ini. Kedua software ini memiliki kelebihan dan kekurangan masing-masing. Minitab menurut saya simple dan cepat dalam mengambil model. Software ini juga relatif lebih ringan dibanding dengan SPSS. Namun, anda sepertinya perlu juga melakukan analisa di SPSS jika memerlukan hasil yang lebih mendalam, setelah mengetahui gambaran umum di minitab.
Silahkan mengunduh data yang saya gunakan disini:
Bahan eliminasi variabel
kita akan latihan mengeliminasi variabel pada regresi. Disini saya menggunakan 9 variabel bebas termasuk didalamnya variabel dummy atau kategori (0 dan 1).
Minitab
Copikan data latihan ke worksheet di minitab, sebagai pembanding, kita akan regresikan semua variabel terlebih dahulu. Klik stat – regression – regression – fit regression model. Masukkan y dalam kolom response, kemudian X3 kedalam categorical predictors, karena variabel ini merupakan variabel dummy/biner. Sisanya masukkan kedalam kolom continuous predictors. Tekan OK
Dan hasilnya adalah
Terlihat bahwa model tersebut memiliki nilai R-square 87.77% atau R-sq (adj) sebesar 84.95%. apakah ada kombinasi lain yang lebih baik dari kombinasi ini?
Kita akan mencoba menggunakan alternatif kombinasi lain, klik stat – regression – regression – best subsets
Masukkan variabel Y pada variabel response, dan variabel lainnya (variabel bebas/variabel independen) ke dalam free predictors. Untuk kolom predictors in all models, anda bisa masukkan variabel yang harus ada dalam persamaan ini, artinya variabel ini tidak boleh dibuang. Untuk kali ini kosongkan dulu. Kemudian klik OK.
Akan terlihat hasilnya pada session.
Dari 9 variabel bebas yang anda gunakan, terdapat 17 model yang ditawarkan oleh minitab. Kita bisa memilih mau menggunakan model yang mana saja. Terlihat bahwa model regresi ini hanya bisa menghasilkan r-sq sebesar 87.8% dan r-sq (adj) sebesar 86.0%. sebaiknya anda menggunakan r-sq (adj) karena r-sq (adj) ini relatif lebih stabil terhadap penambahan atau pengurangan variabel baru dalam model. Sehingga, model yang terbaik adalah model yang berisi variabel bebas: X1, X3, X4, X6, dan X8. Anda bisa meregresikan kombinasi tersebut seperti langkah sebelumnya.
Sekarang, bagaimana apabila ada variabel yang tidak boleh dibuang? Misalnya saja variabel tersebut merupakan variabel utama pembahasan penelitian anda. Maka, kita menggunakan fungsi minitab untuk memasukkan secara paksa variable ini kedalam semua persamaan. Inilah salah satu kelebihan fitur minitab yang tidak ada di SPSS. Contoh saja bahwa di latihan ini misalnya variabel yang tidak boleh dibuang adalah X2 maka, settingannya adalah sebagai berikut:
Langkahnya sama dengan sebelumnya, hanya variabel X2 pindah ke kolom predictors in all models.klik OK. Hasilnya adalah sebagai berikut:
Terlihat bahwa dengan mewajibkan variabel X2 kedalam persamaan, maka ada 15 kombinasi persamaan yang memberikan nilai R-sq (adj) yang berbeda-beda. Nilai R-sq (adj) terbesar pada nilai 85.7% dan itupun ada dua kombinasi yakni kombinasi : X1, X3, X4, X6, X8, dan kombinasi X1, X3, X3, X6, X7, X8. Tentunya kedua kombinasi ini ada X2 di dalamnya.
Mudah bukan? Bayangkan jika anda harus mengeliminasi satu satu dan melakukan percobaan kombinasi yang anda lakukan. Tentu tidak sesimple cara ini.
SPSS
Beda minitab, beda pula SPSS dalam mengeliminasi variabel dalam regresi. SPSS memiliki beberapa tehnik yang berbeda, diantaranya yang akan saya jelaskan disini adalah backward, forward dan stepwise.
Anda copikan data excel ke worksheet SPSS. Jangan lupa setting nama masing masing variabel di variabel view dengan X3 adalah nominal, dan yang lainnya termasuk skala, sesuai dengan karakteristik variabel – variabel tersebut.
Backward
Merupakan salah satu tehnik regresi yang menampilkan model terbaik dengan cara memasukkan keseluruhan variabel, kemudian SPSS melakukan eliminasi satu per satu variabel yang tidak signifikan, kemudian proses ulang dengan tanpa variabel yang tidak signifikan tersebut, terus menerus, sehingga ditemukan model yang sekiranya tepat untuk merepresentasikan model. Istilah bahasa sehari harinya adalah tehnik jalan mundur. Caranya adalah : klik analyze – regression – linear
Masukkan variabel Y didalam kolom dependent, dan variabel lainnya di dalam kolom independen. Kemudian pilih method : backward. (biasanya jika langsung proses regresi tanpa eliminasi variabel menggunakan methode enter). Kemudian klik OK
Hasilnya adalah :
Terlihat bahwa SPSS mengeliminasi variabel X5 pada proses regresi kedua, kemudian mengeliminasi kembali X9, X2, X7, dan X6 pada proses regresi selanjutnya secara berturut-turut. Eliminasi ini berdasarkan kriteria probability of F.
Kemudian pada tabel dibawahnya dijelaskan model summary yang keluar dari tehnik backward ini :
Terlihat bahwa hasil akhir dengan nilai R-sq (adj sebesar 85.7% dengan kombinasi X4, X8, X3, dan X1.
Tabel dibawahnya terdiri dari tabel annova dengan tingkat signifikansi F pada masing- masing kombinasi
Terlihat bahwa kesemua model sudah signifikan dibawah 0.05. kemudian tabel berikutnya merupakan uji T atau nilai masing-masing koefisien.
Karena keterbatasan layar laptop, saya tidak bisa menampilkan keseluruhannya. Nilai T akan signifikan apabila memiliki nilai sig < 0.05. artinya variabel tersebut berpengaruh signifikan terhadap variabel dependen. Misalnya pada model 1, variabel yang signifikan adalah : X1, X3, X4, dan X8. Begitu juga cara membaca model kedua, tga, dan seterusnya. Adapun collinearity menjelaskan tentang ada tidaknya unsur mulikolinearitas atau hubungan antar variabel bebas. Multikoliniearitas terjadi apabila nilai VIF > 10 atau tolerance < 0.1
Forward
Tehnik ini kebalikan dari tehnik backward, dimana SPSS memulai dari 0, artinya memasukkan satu persatu variabel yng dianggap signifikan mempengaruhi variabel dependen. Kemudian bertahap memasukan kembali variabel lainnya sampaia akhirnya diketemukan model yang sekiranya merupakan model yang terbaik.
Caranya hampir sama dengan metode backward, hanya saja saat memasukkan variabel, kita pilih metode forward.
Hasilnya adalah sbb:
Pada metode forward, kombinasi variabel yang dipilih sebagai model yang terbaik adalah X4, X3, dan X8 dengan nilai R-sq (adj) sebesar 84.8%. selanjutnya SPSS juga memberikan annova, coeffesient, dan diagnosa multikolinear baik include maupun exclude variabel. Cara membaca tabel ini sama dengan diatas (dalam penjelasan backward)
Stepwise
Metode ini hampir mirip dengan metode forward, bedanya Forward menggunakan kriteria probability of F <= 0.05 untuk memilih variabel yang masuk dalam model, sedangkan stepwise menggunakan kriteria probability of F <= 0.05 untuk memilih variabel yang masuk dalam model, dan juga bisa meremove kombinasi tersebut apabila probability of F >= 0.1
Artinya : jika metode forward memilih variabel dengan metode maju, atau pemilihan variabel diawal tetap akan digunakan dan mencari variabel berikutnya. Sedangkan untuk stepwise, dia akan mempertimbangkan lagi kombinasi variabel terutama varaibel yang di awal dipilihnya.
Bahasa mudahnya: jika X1 dipilih diawal oleh metode forward, maka X1 tidak mungkin dieliminasi lagi. Tapi jika stepwise, ada kemungkinan di eliminasi dengan masuknya variabel yang baru, karena kombinasi yang baru akan diperiksa ulang nilai Fnya.
Hasil yang diperoleh pada latihan ini kebetulan sama dengan hasil forward.
Data yang bisa diunduh
Demikian tehnik dan langkah untuk mengeliminasi variabel pada regresi, semoga bermanfaat. Jangan lupa bantu sebarkan ke rekan atau teman yang membutuhkan.
selain eliminasi variabel, saya juga telah menjelaskan bagaimana cara mengeliminasi responden berdasarkan data pencilan dan eliminasi responden berdasarkan konsep R square
Terima kasih telah berkunjung
Tinggalkan Balasan