perlunya tehnik setrika data pada regresi karena regresi identik dengan linear. Hal ini disebabkan karena pola baku dari regresi merupakan pola garis lurus. Dimana Y = a +bx +e.. dengan a sebagai konstanta, b merupakan koefisien yang mencerminkan hubungan variabel x dengan Y dan e adalah error atau variabel luar yang tidak dijelaskan pada model regresi.
Permasalahan terjadi saat kita akan meregresikan variabel x dan Y yang ternyata hubungan keduanya merupakan hubungan kuadrat. Jika kita memaksa melakukan regresi maka tentu dapat dipastikan kita akan mendapatkan R squared yang kecil. Salah satu cara untuk mengatasi permasalahan tersebut adalah menggunakan regresi kuadrat.
Apa itu regresi kuadrat?
Sebenarnya kaidah regresi tetap linear. Namun kita memodifikasi sedikit variabel X sehingga seolah olah menjadi persamaan kuadrat. Jika awalnya persamaan tersebut adalah:
Y = a + bx + e, maka kita ubah menjadi:
Y = a + bx2 + e,.
Dengan cara mengkuadratkan variabel x dan seolah olah menjadi variabel baru dalam persamaan regresi. Kemudian kita memprosesnya sama seperti kita memproses regresi berganda.
Tehnik di atas merupakan salah satu tehnik setrika data untuk regresi agar kita bisa menemukan persamaan yang tepat terhadap data yang akan kita olah. Terkadang kita sampai stress memikirkan mengapa kita tak kunjung menjumpai R squared yang cukup untuk bisa menterjemahkan persamaan regresi terhadap permasalahan penelitian. Padahal, data sudah dihimpun dan tidak memungkinkan untuk pengambilan data ulang untuk variabel yang lain. Sering kita mendengar “datanya di setrika dulu, baru di regresi”.
Tehnik ini yang biasanya tidak diajarkan karena biasanya keterbatasan waktu. Sehingga memang perlu kreativitas dari penulis untuk bisa menyelesaikan permasalahan non linear ini. Namun, jika kita jeli sebenarnya sudah banyak yang mengajarkan tehnik ini dengan sebutan regresi non linear.
Berbagai tehnik regresi non linear adalah : regresi kuadrat, regresi hiperbolik, regresi eksponensial, dan regresi geometri/log linear.
Regresi Kuadrat
Saya memiliki data sebagai berikut:
Kemudian saya regresikan menggunakan minitab dengan cara mengcopy data tersebut ke sheet minitab, kemudian memilih stat – regression – regression – fit regression model
Masukkan Y sebagai responses, dan X sebagai continous predictors, kemudian klik OK
Hasilnya terlihat sebagai berikut:
Terlihat bahwa hasil persamaan menghasilkan nilai R-sq(adj) 90.71%. artinya adalah variabel x mampu menjelaskan nilai Y sebesar 90.71%, sedangkan sisanya dijelaskan oleh error atau variabel lain diluar X. persamaan ini sebenarnya sudah bagus untuk menjelaskan hub Y dengan X. namun, saya akan mencoba persamaan kuadrat yang kemudian kita bandingkan hasilnya.
Langkahnya adalah kita membuat variabel baru yakni X1 = X2. Saya menggunakan excel untuk transform data agar lebih mudah. Kemudian saya mengulang langkah diatas. Namun kali ini saya memasukkan Y sebagai responses, dan X1 sebagai continous predictors.
Dan hasilnya adalah sebagai berikut:
Terlihat bahwa regresi Y versus X1 lebih baik dibandingkan Y versus X karena memiliki R-sq(adj) lebih tinggi yakni 98.32% dibandingkan sebelumnya. Artinya persamaan kuadrat ini mampu menggambarkan nilai Y sebesar 98.32%, sisanya dijelaskan oleh variabel diluar persamaan atau disebut sebagai error. Besarnya error yang dimiliki oleh persamaan kuadrat lebih kecil dibandingkan persamaan regresi linear.
Lalu, bagaimana persamaannya?
Jika dilihat dari output minitab tersebut kita simpulkan bahwa persamaan adalah
Y= 2.54 + 0.8029 X1, karena X1 = X2 , maka persamaan bisa kita tulis sebagai:
Y = 2.54 + 0.08029 X2
Sesi tambahan: bagaimana membaca output regresi minitab?
- Kita lihat analisis of Variance, jika di SPSS disebutnya annova. Dalam hal ini kita langsung lihat nilai P-Value. P-Value menunjukkan nilai signifikansi. Jika kita menggunakan tingkat kepercayaan α = 0.05, maka kitabisa mengatakan persamaan bisa kita gunakan jika P-value berada dibawah α = 0.05. begitupun jika kita menggunakan α = 0.1. anova ini menilai persamaan secara keseluruhan atau biasa disebut goodness of fit.
- Goodness of fit kedua, yakni melihat R-squared. Letaknya dibawah analysis of variance dengan judul Model summary. R-squared ini menggambarkan bahwa persamaan yang dihasilkan mampu menjelaskan data Y sebesar nilai R-sq, sisanya (yakni 100 – nilai R-sq) adalah error. Persamaan yang baik setidaknya memiliki R-sq 75%.
- Jika persamaan sudah memenuhi kaidah goodness of fit kita melihat signifikan variabel dan konstanta yang dihasilkan yakni pada bagian Coefficients. Masing masing koeffisien dan variabel menghasilkan t hitung yang signifikan pada P-value. Sama seperti F test/annova, kita melihat langsung di P-value untuk menentukan apakah variabel tersebut signifikan mempengaruhi Y. koeffisien dan variabel dikatakan signifikan mempengaruhi Y apabila memiliki p-value < α. Alpha atau tingkat kepercayaan bisa kita tentukan sebesar 0.05 atau 0.1 sesuai metodelogi yang anda gunakan.
- Bagian akhir yakni regression equation merupakan persamaan yang dihasilkan.
Regresi Hiperbolik (invers)
Masih ingat persamaan hiperbolik? Hiperbolik biasanya 1/x.
Artinya nilai x kita konversi semua ke 1/x.
Langsung kita coba praktekkan ya.. data yang saya gunakan adalah sebagai berikut:
Data nya kali ini saya proses dengan menggunakan IBM SPSS. Copykan data di worksheet spss. SPSS memiliki data view dan variabel view. Kita ubah dahulu variabel view dengan nama variabel Y dan X. kemudian kita pilih analyze – regression – linear.
Kemudian kita masukkan Y sebagai dependent, dan X sebagai independent. Pastikan methode adalah enter. Klik OK
Tunggu spss proses dan akan keluar hasilnya sebagai berikut:
Model summary menjelaskan bahwa R-square adjusted hanya memiliki nilai 0.476. artinya bauran nilai X hanya bisa menjelaskan nilai Y sebesar 47.6%, sisanya yakni 0.524 dijelaskan oleh error atau variabel diluar X. karena nilai error yang begitu besar, maka dapat dikatakan bahwa persamaan yang dihasilkan termasuk yang buruk. Namun, jjika kita lihat annova atau F test, ternyata persamaan ini memiliki signifikan dibawah α = 0.05. dan T test atau koefficientnya dengan konstannya signifikan pada α = 0.1 dan variabel X signifikan dibawah α = 0.05.
Kita bisa menggunakan invers dalam latihan ini. Dengan cara menkonversi x menjadi 1/x. caranya? Jika anda menggunakan spss, spss menyediakan fitur untuk mengkonversi variabel.
Pilih transform – compute variable
Kita ketikkan nama varibel dan rumusnya. Klik OK
Terlihat hasilnya variabel X1 sebagai variabel baru. X1 = 1/X
Kemudian kita regresikan X1 terhadap Y dengan cara yang sama diatas, bedanya kita masukkan Y sebagai dependen dan X1 sebagai independen.
Hasilnya sebagai berikut:
Hal yang penting yang akan saya jelaskan disini adalah nilai R-squared yang berubah menjadi 0.952. artinya modifikasi variabel x sangat berhasil untuk menentukan persamaan Y. bahkan F test dan T test juga menjadi lebih baik dibandingkan persamaan sebelumnya.
Persamaannya adalah:
Y = 2.580 – 6.813 X1 , karena X1 = 1/x, maka bisa ditulis menjadi
Y = 2.580 – (6.813/X)
Ada pertanyaan sampai disini sebelum lanjut ke tehnik berikutnya? Silahkan tulis di komentar
Regresi Eksponential
Berbeda dengan tehnik diatas, regresi ekponensial memodifikasi variabel Y menjadi Ln Y. yuk langsung praktek
Contoh data yang saya miliki :
Data tersebut saya regresikan dan menghasilkan sebagai berikut. Terserah anda menggunakan minitab atau spss.
Kemudian datanya saya modifikasi, yakni Y saya ubah menjadi Ln Y. saya gunakan excell.
Kemudian saya regresikan kembali hasilnya adalah sebagai berikut:
Terlihat bahwa R-sq menjadi 97%. Penjelasannya sama seperti tehnik sebelumnya.
Regresi Geometri/Loglinear
Regresi geometri memodifikasi variabel Y dan X. Y dimodifikasi menjadi Ln Y, dan X menjadi Ln X.
Contoh data:
Saya regresikan dan hasilnya sebagai berikut:
Terlihat hasilnya R-sq 70.48%
Kemudian saya modifikasi variabelnya menjadi X1 dan Y1
Kemudian saya regresikan kembali dan hasilnya adalah…..
Terlihat sekarang persamaan hasil modifikasi memiliki R-Sq 95.12%. dengan persamaan :
Y1 = 1.104 + 3.492 X1, karena Y1 = Ln Y dan X1 = Ln X maka bisa ditulis :
Ln Y = 1.104 + 3.492 Ln X.
Teknik Ln inilah yang sering disebut kebanyakan orang sebagai tehnik setrika. Karena dengan cara me Ln-kan, data yang ribuan bahkan ratusan bisa menjadi hanya desimal saja. Mirip seperti kain yang disetrika. Heheheh..
Oke, demikianlah materi tentang berbagai tehnik mengolah data regresi. Intinya jangan menyerha jika mengalami kebuntuan dalam pengolahan data penelitian. Data bisa dimodifikasi dengan penuh tanggung jawab. Ingat, memodifikasi sangat berbeda dengan memanipulasi. Seorang peneliti sangat dilarang memanipulasi data.
Lalu pertanyaanya adalah “bagaimana kita tau kita menggunakan kuadrat, invers, geometri, atau eksponensial” ?
Pertama, anda harus mengenal baik data yang anda gunakan. Coba ubah data tersebut menjadi grafik (terutama nilai Y) apakah sebaran nilai Y linear, kuadrat, loglinear, invers dan sebagainya. Ini akan membantu anda untuk mengetahui apakah data anda linear atau tidak dan mengetahui tehnik mana yang tepat untuk proses selanjutnya.
Gambar ini adalah contoh yang saya gunakan untuk latihan regresi invers. Terlihat memang plot nilai Y membentuk grafik hiperbolik / invers.
Kedua, gunakan semuanya. Lalu bandingkan outputnya. Jika anda ingin yakin, anda bisa menggunakan semua tehnik. Toh cara mengolah datanya kita dibantu dengan software yang mudah dan tidak perlu menghitung manual? Iya kan?
Terima Kasih telah berkunjung
Saya sudah mencoba ketiga cara di atas namun r square nya masih rendah bagaimana ya?
bisa menggunakan eliminasi error tertinggi. jawaban lebih detil silahkan melihat video TJBudi#02. terima kasih
Maaf apakah boleh minta ini teorinya siapa? Untuk memperkuat saat sidang nanti
silahkan baca buku regresi tentang regresi nonlinear. jawaban lebih detil silahkan melihat video TJBudi#02. terima kasih
maaf pak, untuk regresi invers atau hiperbolik itu, berarti yang di transform hanya nilai x nya saja..? berarti regressnya antara nilai x yang sdah di tranform dengan y tanpa di transform..?
Bisa salah satu, juga bisa dua duanya mbk… asal konsisten saja nanti menerapkan dirumus persamaannya ya..
Ln juga gitu..bisa y nya aja, bisa juga keduanya.
Kasus per kasus biasanya tidak bisa disamaratakan. Terima kasih
Misi pak. Numpang nanya. saya memiliki dua variabel bebas. Trus sya ingin melakukan transformasi data menjadi kuadrat pada salah satu variabel bebas saya yaitu X2. Pertanyaan nya untuk analisis regresi SPSS nya menggunakan data yang telah ditransformasikan Y=b+bX1+bX2^2 atau menggunakan gabungan data asli dan yg telah ditransformasikan Y=b+bX1+bX2+bX2^2.
gunakan data yang telah ditransformasikan: Y=b+bX1+bX2^2. karena jika menggunakan gabungannya akan timbul multikolinear. terima kasih
Mau nanya lagi pak, nilai b untuk variabel X2 saya minus. bagaimana cara membuat nilai b pada variabel X2 saya positif karena sesuai teori variabel x2 saya seharusnya berhubungan positif terhadap variabel Y saya pak. Terima kasih
Saya sudah melakukan transformasi data kuadrat dan akar kuadrat dan hasilnya masih minus pak
Minusnya signifikan atau tidak mas? Berapa r squarednya? Dan signifikan pada uji t tidak?
Jika tidak, maka tidak masalah. Anda tidak perlu membhasnya. Tp jika itu variabel topik pembahasan skripsi maka ada dua cara:
Mengulang penelitian atau mencari tau deskripsi mengapa bisa berlawanan teori. Anda juga bisa mengeliminir responden dengan syrat masih wajar
Minusnya Siqgnifikan
Nilai Rsquare 0,917
Variabel nya merupakan variabel topik pembahasan
Berbeda dgn teori bukan berarti penelitian gagal. Justru topik pembahasan akan mnarik jika anda bisa menemukan penyebabnya.. Semangat..
jika terdapat 2 variabel sehingga menjadi Y = 000 + ax1 + bx2. jika melakukan regresi eksponensial, apakah bisa salah satu saja (lnY = 000 + lnax1 + bx2)? ataukah harus semua (lnY = 000 + lnxa1 + lnxa2)? terima kasih pak.
Bisa dua duanya mas fajar… asal nanti model regresinya konsisten..
pak cara ini bisa dilakukan untuk data primer gak? lalu apakah cara ini diperbolehkan dalam penelitian seperti skripsi?
oiya 1 lagi pak apakah bisa dilakukan jika ada variabel moderasinya pak?
semua jawabnnya bisa mbak… 🙂
Thanks for your explain. I hope be countinue.. Terima kasih banyak atas penjelasannya. Semoga terus berlanjut sebagai media sharing pengetahuan dan ladang amal jariah. Amin Ya Rabbal Alamin.
1) Saya hendak tanya, jika variabel X dengan Y tidak dapat di korelasikan, kiranya apa sebabnya ?
2) Apa dampak jika persamaan regresi linier berganda nilai R-Sq dibawah 50% tapi tetap diloloskan ? artinya oleh pembimbing lolos untuk diuji ?
Amiin… thanks untuk doanya mas adi.
Saya mencoba untuk menjawab:
1. X dan Y tidak dapat dikorelasikan dikarenakan sebaran x dan y yang terlalu acak atau random. Nilai error yang tinggi dari model apapun yang dikeluarkan. Dalam konsep, x dan y tidak berkorelasi karena memang kedua variabel tersebut tdk memiliki hubungan s3bab akibat dari sisi teori.
2. 50 persen adalah masih kurang untuk nilai r square, apalagi dibawah 50 persen. Menurut saya penelitian tersebut tdk akan berdampak apa apa bagi peneliti dan pembimbing karna meloloskannya adalah hak dari pembimbing. Namun, dari sisi scientific atau keilmiahan, hal tersebut tidak dapat diambil sebagai acuan atau pedoman. Karena untuk skripsi sendiri biasanya bukan hasil penelitian yang ditonjolkan, melainkan pembimbing melakukan penekanan terhadap pengalaman mahasiswa untuk melakukan penelitian. Terima kasih
sorry, i didn’t understand. what does “this subject” mean? there are methods to analize. if you asked to me about another methods, i’m preparing article to describe some social economics tools. thanks