contact meTerima Kasih sudah berkunjung dan berkontribusi

Apa perbedaaan R Squared, R squared adjusted, dan R Squared Predicted

Siapa yang berkutat dengan regresi sederhana, regresi berganda, atau regresi logistik pasti mengenal istilah R-squared. Namun, jia kita jeli melihat hasil output minitab atau SPSS, disana terdapat 3 R squared yang berbeda. R squared, R Squared adjusted, dan R squared predicted. Lalu apa bedanya dan bagaimana cara menginterpretasikan dan menggunakannya? Mari kita bahas satu persatu.

R Squared

R squared merupakan angka yang berkisar antara 0 sampai 1 yang mengindikasikan besarnya kombinasi variabel independen secara bersama – sama mempengaruhi nilai variabel dependen. Semakin mendekati angka satu, model yang dikeluarkan oleh regresi tersebut akan semakin baik.

Secara manual, R squared merupakan rumus pembagian antara Sum Squared Regression dengan Sum Squared Total.

Screenshot_1-1 Apa perbedaaan R Squared, R squared adjusted, dan R Squared Predicted statistik regresi berganda regresi r squared

SSR : Kuadrat dari selisih nilai Y prediksi dengan nilai rata-rata Y  = ∑ (Ypred – Yrata-rata)2

SST : Kuadrat dari selisih nilai Y aktual dengan nilai rata-rata Y =  ∑ (Yaktual – Yrata-rata)2

Jika melihat rumus tersebut, sebenarnya R squared tidak hanya bisa digunakan pada regresi saja, melainan kita dapat menggunakan rumus tersebut di semua model untuk menentukan kebaik atau tidaknya model tersebut. Misalnya model pada rumus time series, jika anda ingin menggunakan indikator lain selain MSE, SSE pada time series, anda bisa menggunakan R squared ini sebagai tambahan untuk memperkuat dari model yang sudah anda dapatkan.

Kembali lagi pada topik regresi, jika kita perhatikan rumus R squared diatas sangat dipengaruhi oleh nilai Y prediksi atau nilai Y dari hasil rumus dengan nilai Y aktual. Kenyataan yang sering muncul adalah nilai R squared akan semakin membaik (nilainya akan terus mendekati nilai 1) jika kita menambah variabel. Semakin banyak jumlah variabel yang menentukan nilai Y prediksi, maka nilai SSR akan semakin besar yang berakibat pada besarnya nilai R squared.

Sifat R-squared yang akan semakin baik jika menambah variabel inilah yang menjadi kelemahan dari R squared itu sendiri. Semakin banyak variabel independen yang digunakan maka akan semakin banyak “noise” dalam model tersebut dan ini tidak dapat dijelaskan oleh R squared.

R squared adjusted

Guna melengkapi kelemahan R squared tersebut, kita bisa menggunakan R squared adjusted. Pada R squared adjusted ini sudah mempertimbangkan jumlah sample data dan jumlah variabel yang digunakan.

Artikel menarik lainnya  Solusi Rencana Produksi Terhadap Harga Pokok Produksi dengan Linier Programming

Screenshot_2-1 Apa perbedaaan R Squared, R squared adjusted, dan R Squared Predicted statistik regresi berganda regresi r squared

Keterangan:

n : jumlah observasi

p : jumlah variabel

MSE : Mean Squared Error

SST : Sum Squared Total

SSE : Sum Squared Error

Menurut informasi yang saya peroleh dari website minitab dan membaca dari manual booknya, R squared adjusted akan menghitung setiap penambahan variabel dan mengestimasi nilai R squared dari penambahan variabel tersebut. Apabila penambahan pola baru tersebut ternyata memperbaiki model hasil regresi lebih baik dari pada estimasi, maka penambahan variabel tersebut akan meningkatkan nilai R-squared adjusted.

Namun, jika pola baru dari penambahan varaibel tersebut menunjukkan hasil yang kurang dari estimasinya, maka R Squared adjusted akan berkurang nilainya.

Sehingga nilai R squared adjusted tidak selalu bertambah apabila dilakukan penambahan variabel. Tidak heran banyak dosen dan akademisi lainnya yang lebih memilih r squared adjusted dari pada R squared.

Jika melihat dari rumus diatas, nilai R squared adjusted memungkinkan untuk bernilai negatif. Artinya MSEnya lebih besar dibandingkan (SST/p-1). Artinya apa jika Errornya lebih besar? Benar, model tidak baik.

Masih jika kita melihat rumus diatas, nilai R Squared adjusted pasti lebih kecil dibandingkan nilai R squared.

R Squared Predicted

Salah satu tujuan untuk meregresikan variabel independen dengan variabel dependen adalah membuat rumus dan menggunakannya untuk melakukan prediksi dengan nilai nilai tertentu dari variabel independennya. Jika anda ingin melakukan prediksi nilai Y, maka anda juga seharusnya melihat nilai dari R squared predicted

R Squared predicted mengindikasikan seberapa baik mdel tersebut untuk melakukan prediksi dari observasi yang baru.

Rumus predicted R squared

Screenshot_3-1 Apa perbedaaan R Squared, R squared adjusted, dan R Squared Predicted statistik regresi berganda regresi r squared

Dengan nilai Press adalah

Screenshot_4-1 Apa perbedaaan R Squared, R squared adjusted, dan R Squared Predicted statistik regresi berganda regresi r squared

Nilai e adalah selisih dari Y prediksi dengan Y aktual.

Berdasarkan rumusnya, nilai R squared predicted bisa bernilai negatif dan nilainya bisa dipastikan lebih rendah dibandingkan R squared.

Nilai predicted R squared perlu diperhatikan meskipun anda nantinya tidak menggunakan model hasil dari regresi tersebut. Karena nilai R squared predicted ini akan membantu anda untuk mengidentikasi apakah model atau rumus yang anda hasilkan overfit atau tidak. Pengertian overfit adalah bahwa model terlalu bagus jika dilihat dari R squared dan R squared adjusted, namun kebaikmodel ini terlalu berlebihan. Hal ini disebabkan karena banyaknya observasi atau jumlah data yang ada dalammodel tersebut sehingga banyak adanya gangguan atau “noise”.

Artikel menarik lainnya  Mengulas Rapfish dan Multidimensional Scaling di Aplikasi R

Meskipun secara R squared dan R squared adjusted, model tersbeut dikatakan baik, namun jika R squared predicted tidak mencerminkan hal tersebut artinya model anda mengalami overfit tersebut.

Secara singkat saya sedikit menyimpulkan bahwa R squared menunjukkan hubungan secara bersama sama variabel independen terhadap pola variabel dependen. Sedangkan R squared adjusted membantu kita untuk melihat pengaruh jumlah variabel terhadap nilai Y. Dan terakhir, R squared predicted memberi kita informasi tentang kebaikmodel tersebut jika akan menggunakan untuk prediksi observasi baru dan atau memberi informasi tentang overfit pada model.

Jadi mana yang lebih baik digunakan? Jika anda sudah paham tentang definisi ketiganya, maka saya sarankan anda menggunakan semua R squared tersebut.

Latihan

Hambar rasanya jika tidak berlatih langsung. Berikut saya berikan sebuah data yang bisa di download disini. Data tersebut bukan data dari saya, melainkan saya mengambil dari website minitab sebagai latihan.

Data tersebut terdiri dari 1 variabel dependen dan 9 variabel independen. Satu persatu saya masukkan kedalam model dan saya catat nilai R squarednya. Berikut adalah hasilnya

Screenshot_5 Apa perbedaaan R Squared, R squared adjusted, dan R Squared Predicted statistik regresi berganda regresi r squared

Pada kolom R squared terlihat sekali adanya penambahan nilai ketika dimasukkan variable baru di dalam model. Sehingga sampai pada tahap 100%. Hasil yang sangat baik namun perlu diragukan karena dalam kenyataan tidak pernah mungkin ada model yang sempurna J

Berbeda dengan R squared, R squared adjusted tidak searah, nilainya naik dan turun ketika ditambahkan variabel baru. Hal ini yang membuktikan bahwa r squared adjusted tidak berpengaruh terhadap banyak atau sedikitnya variabel di dalam model.

Kolom ketiga yang menjawab kesemua keanehan data ini adalah r squared predicted tidak ada yang bagus. Semua bernilai 0 yang kemudian meledak di nilai 99.46% (overFIT). Jika anda membaca output keseluruhan saat memasukkan variabel 1 hingga 8, terdapat kendala multikolinear disana. Dari r squared predicted inilah dapat disimpulkan bahwa terlalu banyak bias atau noise dalam model tersebut sehingga r squared yang dihasilkan menjadi tidak bisa digunakan. Nilai 0 adalah nilai buruk, tetapi nilai negtaif pada R squared pred akan lebih buruk lagi.

Bagaimana? Sudah mendapat gambaran tentang R squared dan teman – temannya? Tau R squared nya saja sudah pusing, bagaimana R squared lainnya? Hehehehe… jangan bertingkah seolah dosen anda tidak tau tentang ini, karena kemungkinan besar merekasudah lebih paham ketimbang artikel yang saya tulis.

Artikel menarik lainnya  Perbedaan Regresi, Path Analysis, dan Structural Equation Modeling

Selamat Belajar dan terima kasih sudah berkunjung. Silahkan berkomentar yang baik dan tetap semangat ya….

oh iya, ada yang mau mencoba bagaimana mengatasi data seperti diatas?

 

Referensi:

Multiple Regression Analysis: Use Adjusted R squared and Predicted R squared to Include the correct number of Variables

Bantu Share ya..!
One Comment

Add a Comment

Your email address will not be published. Required fields are marked *