|

Apa perbedaaan R Squared, R squared adjusted, dan R Squared Predicted

Sebelum anda membaca perbedaan r squared dalam regression, ada baiknya anda memahami apa itu r squared dan bagaimana cara meningkatkannya. Video dalam artikel ini bisa menjadi referensi dan penjelasan bagaimana R squared tersebut bisa ditingkatkan.

Siapa yang berkutat dengan regresi sederhana, regresi berganda, atau logistik regressio pasti mengenal istilah R-squared. Namun, jia kita jeli melihat hasil output minitab atau SPSS, disana terdapat 3 R squared yang berbeda. R squared, R Squared adjusted, dan R squared predicted. Lalu apa bedanya dan bagaimana cara menginterpretasikan dan menggunakannya? Mari kita bahas satu persatu.

R Squared dalam regression

R squared merupakan angka yang berkisar antara 0 sampai 1 yang mengindikasikan besarnya kombinasi variabel independen secara bersama – sama mempengaruhi nilai variabel dependen. Semakin mendekati angka satu, model yang dikeluarkan oleh regressio tersebut akan semakin baik.

Secara manual, R squared merupakan rumus pembagian antara Sum Squared Regression dengan Sum Squared Total.

R squared dalam regression

SSR : Kuadrat dari selisih nilai Y prediksi dengan nilai rata-rata Y  = ∑ (Ypred – Yrata-rata)2

SST : Kuadrat dari selisih nilai Y aktual dengan nilai rata-rata Y =  ∑ (Yaktual – Yrata-rata)2

Jika melihat rumus tersebut, sebenarnya R squared tidak hanya bisa digunakan pada regressio saja, melainan kita dapat menggunakan rumus tersebut di semua model untuk menentukan kebaik atau tidaknya model tersebut. Misalnya model pada rumus time series, jika anda ingin menggunakan indikator lain selain MSE, SSE pada time series, anda bisa menggunakan R squared ini sebagai tambahan untuk memperkuat dari model yang sudah anda dapatkan.

Kembali lagi pada topik regression, jika kita perhatikan rumus R squared diatas sangat dipengaruhi oleh nilai Y prediksi atau nilai Y dari hasil rumus dengan nilai Y aktual. Kenyataan yang sering muncul adalah nilai R squared akan semakin membaik (nilainya akan terus mendekati nilai 1) jika kita menambah variabel. Semakin banyak jumlah variabel yang menentukan nilai Y prediksi, maka nilai SSR akan semakin besar yang berakibat pada besarnya nilai R squared.

Sifat R-squared yang akan semakin baik jika menambah variabel inilah yang menjadi kelemahan dari R squared itu sendiri. Semakin banyak variabel independen yang digunakan maka akan semakin banyak “noise” dalam model tersebut dan ini tidak dapat dijelaskan oleh R squared.

R squared adjusted dalam regression

Guna melengkapi kelemahan R squared tersebut, kita bisa menggunakan R squared adjusted. Pada R squared adjusted ini sudah mempertimbangkan jumlah sample data dan jumlah variabel yang digunakan.

Keterangan:

n : jumlah observasi
p : jumlah variabel
MSE : Mean Squared Error
SST : Sum Squared Total
SSE : Sum Squared Error

Menurut informasi yang saya peroleh dari website minitab dan membaca dari manual booknya, R squared adjusted akan menghitung setiap penambahan variabel dan mengestimasi nilai R squared dari penambahan variabel tersebut. Apabila penambahan pola baru tersebut ternyata memperbaiki model hasil regresi lebih baik dari pada estimasi, maka penambahan variabel tersebut akan meningkatkan nilai R-squared adjusted.

Namun, jika pola baru dari penambahan varaibel tersebut menunjukkan hasil yang kurang dari estimasinya, maka R Squared adjusted akan berkurang nilainya.

Sehingga nilai R squared adjusted tidak selalu bertambah apabila dilakukan penambahan variabel. Tidak heran banyak dosen dan akademisi lainnya yang lebih memilih r squared adjusted dari pada R squared.

Jika melihat dari rumus diatas, nilai R squared adjusted memungkinkan untuk bernilai negatif. Artinya MSEnya lebih besar dibandingkan (SST/p-1). Artinya apa jika Errornya lebih besar? Benar, model tidak baik.

Masih jika kita melihat rumus diatas, nilai R Squared adjusted pasti lebih kecil dibandingkan nilai R squared.

R Squared Predicted

Salah satu tujuan untuk meregresikan variabel independen dengan variabel dependen adalah membuat rumus dan menggunakannya untuk melakukan prediksi dengan nilai nilai tertentu dari variabel independennya. Jika anda ingin melakukan prediksi nilai Y, maka anda juga seharusnya melihat nilai dari R squared predicted

R Squared predicted mengindikasikan seberapa baik mdel tersebut untuk melakukan prediksi dari observasi yang baru.

Rumus predicted R squared

Dengan nilai Press adalah

Nilai e adalah selisih dari Y prediksi dengan Y aktual.

Berdasarkan rumusnya, nilai R squared predicted bisa bernilai negatif dan nilainya bisa dipastikan lebih rendah dibandingkan R squared.

Nilai predicted R squared perlu diperhatikan meskipun anda nantinya tidak menggunakan model hasil dari regresi tersebut. Karena nilai R squared predicted ini akan membantu anda untuk mengidentikasi apakah model atau rumus yang anda hasilkan overfit atau tidak. Pengertian overfit adalah bahwa model terlalu bagus jika dilihat dari R squared dan R squared adjusted, namun kebaikmodel ini terlalu berlebihan. Hal ini disebabkan karena banyaknya observasi atau jumlah data yang ada dalammodel tersebut sehingga banyak adanya gangguan atau “noise”.

Meskipun secara R squared dan R squared adjusted, model tersbeut dikatakan baik, namun jika R squared predicted tidak mencerminkan hal tersebut artinya model anda mengalami overfit tersebut.

Secara singkat saya sedikit menyimpulkan bahwa R squared menunjukkan hubungan secara bersama sama variabel independen terhadap pola variabel dependen. Sedangkan R squared adjusted membantu kita untuk melihat pengaruh jumlah variabel terhadap nilai Y. Dan terakhir, R squared predicted memberi kita informasi tentang kebaikmodel tersebut jika akan menggunakan untuk prediksi observasi baru dan atau memberi informasi tentang overfit pada model.

Jadi mana yang lebih baik digunakan? Jika anda sudah paham tentang definisi ketiganya, maka saya sarankan anda menggunakan semua R squared tersebut.

Latihan

Hambar rasanya jika tidak berlatih langsung. Berikut saya berikan sebuah data yang bisa di download disini:

Data tersebut terdiri dari 1 variabel dependen dan 9 variabel independen. Satu persatu saya masukkan kedalam model dan saya catat nilai R squarednya. Berikut adalah hasilnya

Pada kolom R squared terlihat sekali adanya penambahan nilai ketika dimasukkan variable baru di dalam model. Sehingga sampai pada tahap 100%. Hasil yang sangat baik namun perlu diragukan karena dalam kenyataan tidak pernah mungkin ada model yang sempurna J

Berbeda dengan R squared, R squared adjusted tidak searah, nilainya naik dan turun ketika ditambahkan variabel baru. Hal ini yang membuktikan bahwa r squared adjusted tidak berpengaruh terhadap banyak atau sedikitnya variabel di dalam model.

Kolom ketiga yang menjawab kesemua keanehan data ini adalah r squared predicted tidak ada yang bagus. Semua bernilai 0 yang kemudian meledak di nilai 99.46% (overFIT). Jika anda membaca output keseluruhan saat memasukkan variabel 1 hingga 8, terdapat kendala multikolinear disana. Dari r squared predicted inilah dapat disimpulkan bahwa terlalu banyak bias atau noise dalam model tersebut sehingga r squared yang dihasilkan menjadi tidak bisa digunakan. Nilai 0 adalah nilai buruk, tetapi nilai negtaif pada R squared pred akan lebih buruk lagi.

Bagaimana? Sudah mendapat gambaran tentang R squared dan teman – temannya? Tau R squared nya saja sudah pusing, bagaimana R squared lainnya? Hehehehe… jangan bertingkah seolah dosen anda tidak tau tentang ini, karena kemungkinan besar merekasudah lebih paham ketimbang artikel yang saya tulis.

Selamat Belajar dan terima kasih sudah berkunjung. Silahkan berkomentar yang baik dan tetap semangat ya….

oh iya, ada yang mau mencoba bagaimana mengatasi data seperti diatas?

Referensi regression :

Multiple Regression Analysis: Use Adjusted R squared and Predicted R squared to Include the correct number of Variables

Similar Posts

4 Comments

  1. Terima kasih mas atas penjelasan dari R Adj.

    Mohon dikoreksi, R Adj memiliki rumus proporsi (1-p), proporsi dikatakan juga sebagai probabiliy nilai 0-1 dengan rumus 1-p. Menurut saya R adj tidak mungkin negatif. kemungkinan asimtotik titik ujung mendekati 0 tapi tidak sampai 0.

  2. saya berterima kasih pada abang
    mohonn penjelasan jg tetnang mencari varians dan tingkat kepercayaan masing masing koefisien regresi.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *