Memahami R-Square Secara Konsep

Memahami R-square secara konsep diperlukan untuk membuat sebuah penelitian yang dapat dengan mudah menemukan solusi dan penyelesaiannya. Mayoritas mereka yang bertanya tentang mengapa hasil r-square yang kecil karena belum sepenuhnya mengerti konsep dari R-square.

R-square seolah merupakan hasil wajib yang harus diperoleh oleh mahasiswa atau peneliti yang menggunakan regresi sebagai alat penelitiannya. Hampir 50% dari mahasiswa yang meminta solusi atau bimbingan statistik meminta masukan tentang r-square yang kecil.

Mari kita bicara secara teori, R-square merupakan nilai persentase jumlah data dari variabel independen yang secara bersama-sama mempengaruhi varaiabel dependen, sedangkan nilai 1 – (r-square) merupakan nilai yang tidak bisa dijelaskan dalam model tersebut, atau biasa kita sebut dengan nilai error.

Lalu, bagaimana jika ternyata kita mendapati error yang lebih tinggi dibandingkan r-squarenya? Berdasarkan teori tersebut berarti model yang dihasilkan dari regresi tidak baik dan kemungkinan besar terjadi kesalahan definisi dan hipotesis awal. Dengan kata lain, hipotesis penulis tentang adanya hubungan antara variabel independen ke variabel dependen secara simultan tidak terbukti.

Guna menghindari kejadian yang tidak diharapkan, berikut tips yang dapat dilakukan sebelum melakukan sebuah penelitian:

Identifikasi variabel

Pikirkan secara matang, dugaan adanya hubungan antara variabel independen ke variabel dependen memanglah kuat. Bila diperlukan, untuk lebih meyakinkan, cari literatur atau baca penelitian penelitian terdahulu untuk menerangkan hubungan tersebut. Mencari literatur dan membaca penelitian terdahulu tidak hanya mencari apakah hubungan variabel independen berpengaruh kuat terhadap variabel dependen, namun juga melihat apakah variabel yang akan anda gunakan sudah pernah dibahas oleh penelitian sebelumnya dan anda bisa melihat hasilnya, yang kemudian anda bisa analisis dengan kondisi yang akan anda temui nantinya di lapangan.

Apabila memang ditemukan adanya variabel yang meyakinkan berpengaruh terhadap variabel Y, gunakan variabel yang berpengaruh kuat tersebut minimal satu variabel. Lebih bagus jika ada hukum atau teori kuat yang mendukungnya atau sebuah hubungan yang tidak bisa dibantah lagi. Misalnya, apabila anda menambahkan variabel luas lahan terhadap produksi padi, tentunya akan mendapat hasil yang signifikan karena luas lahan termasuk kedalam faktor produksi. Hasil tentu akan berbeda jika anda mengganti luas lahan dengan variabel kerusakan lahan hutan terhadap produksi padi.

Hal yang saya sampaikan ini tidak bertujuan untuk menyamakan semua penelitian sehingga hanya berorientasi terhadap nilai R-square nya saja. Akan tetapi jika peneliti memang yakin dengan fenomena variabel yang tidak umum tersebut dapat mempengaruhi variabel dependen, maka variabel tersebut bisa digunakan. Fenomena yang tidak umum misalnya bisa diindentifikasi awal dengan menggunakan korelasi antar kedua variabel tersebut. Karena regresi dan korelasi merupakan dua alat analisis yang sama tapi tidak serupa. Korelasi menjelaskan hubungan kuat/lemah/sedang antara dua variabel, namun tidak bisa digunakan apakah salah satu variabel tersebut mempengaruhi variabel lainnya. Sedangkan regresi yang merupakan alat analisis yang berada di satu tingkat lebih tinggi dibandingkan korelasi, mampu menjelaskan hubungan kuat/lemah/sedang dan dapat menjelaskan bahwa variabel independen mampu mempengaruhi nilai variabel dependen.

Artinya, jika hasil regresinya baik dan kuat, otomatis nilai korelasinya juga kuat. Namun tidak berlaku sebaliknya, jika nilai korelasinya kuat belum tentu hasil regresinya baik dan kuat. Paham???

Gunakan logika saat identifikasi hipotesis

Setelah anda menetapkan varaibel independennya, pikirkan dengan matang apakah variabel yang digunakan memang secara nalar dan logika memang dapat dijelaskan hubungannya. Bagaimana pun regresi merupakan alat analisis yang tidak bisa mengkonfirmasi hasil nya sendiri. Dalam regresi ada yang dikenal sebagai regresi palsu. Sebagai gambarannya akan saya berikan sebuah ilustrasi:

Ada data jumlah ibu hamil dan tinggi tanaman bawang merah. Keduanya diregresikan dan ternyata menghasilkan regresi yang baik. Tentu secara nalar tidak pernah dapat dibuktikan bagaimana tinggi tanaman bawang merah mempengaruhi jumlah ibu hamil di suatu wilayah? Inilah ilustrasi dari regresi palsu.

Fenomena regresi palsu ini biasanya karena penulis tidak memiliki hipotesis kuat dan hanya terpaku pada hasil regresi. Padahal, sekali lagi saya katakan regresi adalah sebuah alat. Minitab atau SPSS tidak akan pernah mengenal apakah data yang dimasukkan kepadanya adalah data yang masuk akal atau tidak. Mereka hanya mengerjakan perintah sintax untuk menentukan hubungan antara kedua variabel yang anda masukan.

Tetapkan jumlah responden melebihi batas

Kepada siapapun yang meminta bimbingan ststistik kepada saya,saya selalu menyarankan untuk mencari responden melebihi yang sudah ditetapkan olehnya ataupun oleh dosennya. Tujuannya adalah agar penulis bisa melakukan eliminasi responden. Jika minimal regresi sudah dapat menghasilkan analisanya dalam jumlah minimal responden 30, maka sebaiknya andamendapatkan 60 samai 100 responden jika memungkinkan. Rasa lelah yang diperoleh saat berjuang memperoleh responden akan trebayar saat anda meregresikan variabel tersebut dan dapat dengan leluasa memilih responden untuk mendapatkan r-square yang lebih baik.

Perlu saya tekankan disini perbedaan eliminasi responden dengan sampling dan rekayasa data. Eliminasi responden akan salah apabila anda menggunakan responden diluar daerah sample yang anda tentukan. Maka tetapkan berpedoman terhadap daerah sampling yang sudah ditetapkan, juga termasuk teknik samplingnya. Eliminasi responden akan bisa dilakukan jika anda menggunakan random sampling dalam menentukan responden. Adapun jika anda menggunakan teknik sampling dengan responden yang sudah ditetapkan, tentu ini tidak bergunaΒ  karena anda tidak diperkenanan memiliki pilihan responden lain.

Kemudian perlu dijelaskan tentang eliminasi responden dengan rekayasa data. Kedua hal ini sangat sangat sangat berbeda. Yang dimaksud eliminasi responden adalah kita mengganti responden satu dengan responden lainnya. Jika kita menemukan variabel x di no data ke-n memiliki masalah, maka anda dapat menghapus responden tersebut. Artinya baik nilai Y, X1, X2, dst dari responden tersebut dihapus.

Jika anda hanya mengganti nilai x yang bermasalah tadi dengan nilai x dari responden lain (hanya mengganti 1 variabel saja, tidak menghapus semua), anda masuk kedalam kategori manipulasi data atau rekayasa data dan ini SANGAT tidak diperkenankan. Jika memang data ini disayangkan untuk dibuang, maka sebaiknya anda datang ke responden yang dimaksud untuk mengkonfirmasi jawabanya apakah akan ada perubahan pada jawabnnya.

Dan maniulasi data atau rekayasa data ini sangat mudah untuk dibuktikan, dan saya rasa dosen anda juga mengetahui cara membuktikannya. Tentu saya tidak akan membahasnya disini.. πŸ™‚

Oke, berdasarkan judul dari artikel ini tentang memahami r-square secara konsep. Saya akan memberikan sebuah contoh bagaimana kita bisa meningkatkan nilai r-squre dengan cara tehnik eliminasi dan konsep dari r-square.

Data untuk latihan memahamikonsep R-square silahkan di download disini.

Pada file excell tersebut terdapat 4 sheet, data awal, seleksi 1, seleksi 2, dan seleksi 3 (final). Data awal merupakan keseluruhan data yang akan diolah dengan jumlah 3 variabel independen. Mari kita running regresi di minitab atau spss. Saya mendapatkan hasil yang tidak diharapkan, sebagai berikut:

01 Memahami R-Square Secara Konsep statistik regresi berganda regresi r square
hasil regresi data awal

R-square yang diperolah hanya 6 persen saja. Artinya sekitar 94% bauran datanya adalah error. Jika anda menjumpai hal begini, jangan kecewa dan stress dulu ya… mari kita perhatikan lagi hasil regresinya. Dari nilai individual, P value untu nilai X1 dan X2 adalah signifian karena dibawah 0,05. Ini adalah pertanda baik. Kemudian nilai VIF juga normal, tidak ada identifikasi multikol.

Kemudian kita lihat koefisien nilai X1 dan X2 ternyata bernilai positif. Artinya hubungan X1 dengan Y adalah hubungan searah. Jika X1 tinggi maka Y akan rendah, sebaliknya jika X1 rendah, maka Y juga ikut turun. Hal ini berlaku juga untuk variabel X2.

Nah, tiba juga di titik point dimana kita akan mengimplementasikan bagaimana mengeliminasi responden dengan konsep R-square. Pada kali ini, saya mengasumsikan bahwa X1 akan benar-benar berhubungan kuat terhadap Y. Kemudian kita ketahui bahwa R square nilainya 6% selebihnya error. X1 berhubungan searah dengan Y.

Maka, saya akan mengeliminasi data responden yang memiliki nilai X1 yang berbalik arah dengan variabel Y. Artinya jika nilai X1 sama dengan 0 tapi memiliki nilai Y diatas 1.5 maka masuk dalam ketegori eliminasi. Begitupun jika ada nilai X1 sama dengan 1 namun memiliki nilai Y dibawah 1.5 atau dibawah 1.4, juga masuk kategori eliminasi.

Responden yang saya eliminasi, masih berada di sheet data awal, kemudian saya arsir kuning di variabel x1.Β  Responden yang saya arsir kuning tersebut kemudian saya eliminasi (delete row di excel) dan hasilnya ada di sheet seleksi 1. Kemudian mari kita run regresi kembali dan hasilnya adalah:

02 Memahami R-Square Secara Konsep statistik regresi berganda regresi r square
hasil regresi seleksi 1

R square nya sudah naik ke 39% dan r-squarednya sudah menjadi 36%. Masih merasa kurang? Saya pun melakukan eliminasi lagi dengan cara yang sama seperti sebelumnya, kemudian hasilnya ada di sheet seleksi 2. Hasil regresinya adalah:

03 Memahami R-Square Secara Konsep statistik regresi berganda regresi r square
Hasil regresi data seleksi 2

Hasilnya adalah 57%. Saya rasa r square akan dikatakan cukup bila diatas 60 persen, maka saya pun lakukan seleksi lagi (untuk ketiga kalinya) dan hasilnya saya ada di sheet seleksi 3(final). Kemudian saya regresikan dan hasilnya adalah sebagai berikut:

04 Memahami R-Square Secara Konsep statistik regresi berganda regresi r square
Hasil regresi final

R-square yang diperoleh sebesar 64.73 persen dengan jumlah responden awal 105 responden menjadi 57 responden. Saya berhenti sampai disini karena nilai ini sudah tidakbisa dipaksa kembali. Jika terlalu over mengeliminasi nantinya akan timbul complete separation. Apa itu? Suatu saat akan saya jelaskan jika ada waktu.

Artikel ini saya tutup dengan pernyataan bahwa kita sebagai peneliti diperkenankan mengeliminasi responden selagi masih dalam lingkup samplingnya. Kejujuran pelaku peneliti sangat diharapkan karena hasilnya akan dipertanggungjawabkan.

sebelum artikel ini, saya juga pernah menuliskan cara lain untuk mengeliminasi data responden agar mendapat R square yang baik. dan juga cara mengeliminasi variabel pada regresi

 

Selamat Belajar …

One Comment

Add a Comment

Your email address will not be published. Required fields are marked *