Mengolah Mudah Data Panel dengan Regression – Fixed Effect

Data panel sebenarnya tidak begitu berbeda dengan data yang lain. Jika anda melakukan regression pada data cross section atau time series, data panel merupakan gabungan keduanya. Cross section adalah sekelompok data dari beberapa objek penelitian di tahun yang sama; misalnya data produksi padi di setiap provinsi di tahun 2018. Sedangkan time series merupakan sekelompok data dari beberapa tahun/periode di satu objek penelitian, misalnya data produksi padi Provinsi Maluku dari tahun 1990 sampai dengan 2018. Data panel merupakan gabungan keduanya, yakni beberapa objek penelitian dengan beberapa periode atau tahun.

Keuntungan dari data panel ini jelaslah data yang diperoleh akan semakin banyak sehingga menghindari bias atau nilai error yang tinggi. Multikolinearitas juga bisa dihindari karena bauran data akan semakin banyak. Iya, intinya hasil data yang akan diperoleh akan semakin valid, meskipun tidak menjamin pasti valid. Mengapa? Karena sesuai kebutuhan. Regresi data panel hanya sebuah alat, sama dengan alat yang lainnya (regresi linear berganda), memiliki kelebihan dan kekurangan yang berbeda-beda. Dalam kasus tertentu, justru linear regression cukup dan valid untuk menjelaskan hubungan variabel independen terhadap variabel dependennya.

Kali ini saya akan mencoba berlatih untuk menggunakan data panel. Saya akan langsung praktek ketimbang teori. Karena sebelum saya menulis ini, saya menjumpai banyak literatur atau bahan referensi yang “bahasa”-nya sangat formal dan berbau makalah. Padahal bahasa blog seharusnya lebih familiar. Jadi, jika anda mencoba belajar memahami panel regression dengan cara santai terutama untuk mengatasi kebuntuan anda melakukan pengolahan panel regression, saya rasa artikel ini cukup tepat. Namun, jika anda mencari literatur untuk menambahkan bahan di metodelogi penelitian dan tinjauan pustaka, sebaiknya segera mencari artikel yang lain di mesin google 🙂

Konversi data excel ke data panel

Pertama saya mencari data yang akan saya olah dengan panel regression, karena data panel merupakan gabungan cross section dan time series, maka harus ada kolom tambahan untuk menjelaskan pengelompokkan data tersebut.

Data Panel

Tabel di atas menjelaskan bahwa terdapat 2 perusahaan yang masing masing memiliki variabel dependen (variabel Y) dan variabel independen (variabel X1, X2, dan X3). Tidak perlu kuatir karena data ini fiktif dan saya buat sendiri. Masing masing perusahaan memiliki data 15 tahun dan tentu jika saya proses regresi di setiap perusahaan, besar kemungkinan akan menemukan kendala karena data kurang dari 30 (minimal data regresi). Maka kedua perusahaan ini saya gabung dan sebagai konsekuensinya saya menggunakan regresi panel. Data tersebut saya ubah menjadi berikut:

data panel

Ada kolom tambahan yakni kolom perusahaan dengan kode 1 untuk perusahaan A dan kode 2 untuk perusahaan B. Data kemudian disusun memanjang kebawah. Data sudah siap untuk dipindahkan ke sheet data di Stata 12.

Intermezzo: “Mengapa sih saya menulisnya begitu detil? Karena terkadang saya mendapatkan pertanyaan yang sangat tidak saya duga dari pembaca untuk artikel-artikel sebelumnya; seperti bagaimana cara input data, bagaimana cara mengubah format, bagaimana cara membuka menu di software dll, pertanyaan yang dianggap remeh bagi sebagian orang”

Selanjutnya, mari kita buka software Stata 12, saya menggunakan software ini karena software yang biasa saya gunakan, minitab dan SPSS belum menyediakan fitur regresi panel.

tampilan stata

Selanjutnya untuk memasukkan data yang akan diproses, kita klik data – data editor – data editor (edit)

data panel

Akan muncul data editor, mirip sekali sheet SPSS. Nanti kita perlu setting ulang variabel satu persatu.

regresi panel

Kemudian copi-kan data dari excell ke sheet stata tersebut. Datanya saja, tidak dengan judul atau nama variabelnya, karena nama variabel akan di setting satu persatu. Tampilan akan menjadi seperti ini:

data Panel

Untuk mengubah nama label variabel kita klik kolom satu variabel, kemudian kita edit nama, label, type, format di pojok kiri bawah

Data Panel

Selanjutnya perlu diketahui untuk membuat label variabel yakni nilai 1 pada variabel company adalah perusahaan A, dan nilai 2 adalah perusahaan B. caranya anda klik data – data utilities – label utilities – manage value label

Kemudian klik create label

stata

Isi label name sesuai kebutuhan. Dalam latihan ini saya tulis company, kemudian value saya isikan 1, label saya isi A.

Data Panel regression

kemudian klik add. Kemudian isikan lagi angka 2 dan B pada label, klik add. Sehingga tampilan seperti berikut:

Data Panel

Kemudian klik OK. Dan klik close

Kembali lagi ke data editor Stata. Kemudian klik data – variabel manager. Pada variabel company, pada value label, isikan company (data value label yang baru saja dibuat), kemudian klik manage. Kemudian klik apply dan tutup windows. Pada menu ini anda dapat mengatur lebih detil tipe variabel yang dibuat, sesuai dengan pengelompokan atau tipe data yang anada gunakan. Pada pilihan type ada pilihan byte, double, float, int, dan long.

Data Panel

Pada tahap ini, data siap untuk diregresi. Tutup data editor, kembali ke tampilan awal stata.

Jenis Panel regression

Sebelum saya melanjutkan praktek, saya sedikit menjelaskan beberapa pendekatan yang digunakan pada panel regression. Mayoritas peneliti membimbing kita untuk menggunakan 2 metode, yakni Fixed Effect, dan Random Effect. Sebenarnya ada satu pendekatan lagi, yakni common effect.

Common effect merupakan regresi yang umum beredar atau biasa disebut regresi sederhana atau regresi berganda. Pada regresi jenis ini, tidak memperhitungkan adanya perbedaan objek penelitian seperti perbedaan perusahaan, kampus, negara, provinsi, dan lain-lain. Selain itu, common effect juga tidak memperhitungkan adanya time series. Semua data dianggap satu tempat dan satu waktu yang kemudian diregresikan dan diketahui hasil – hasilnya. Untuk lebih jelasnya, saya sudah menjelaskan panjang lebar tentang regresi berganda beserta cara-cara memperoleh hasil yang maksimal.

Asumsi yang digunakan pada common effect tidak lagi relevan apabila ternyata ada perbedaan disetiap objek penelitian karena perilaku individu di tempat yang berbeda memungkinkan untuk memiliki nilai yang berbeda. Misalnya : terdapat penelitian tentang hubungan antara gaji dan pengeluaran (variabel independen = gaji, variabel dependen =pengeluaran). Kemudian peneliti tersebut mengambil 2 objek yang berbeda, yakni kelompok pegawai di perusahaan multinasional dan  kelompok di perusahaan domestik. Kedua objek penelitian tersebut dikhawatirkan mempengaruhi nilai gaji karena berada dalam kondisi lingkungan yang berbeda. Maka dalam hal ini common effect tidak bisa digunakan.

Fixed effect digunakan untuk mengatasi permasalahan yang dijumpai pada common effect. Asumsi fixed effect ini adalah adanya kecenderungan objek penelitian (entitas) memiliki pengaruh terhadap nilai individu atau independen variabel. Fixed effect akan menghilangkan pengaruh tersebut sehingga diperoleh murni hubungan antara variabel dependen dengan independennya (tidak ada pengaruh object penelitian).

Asumsi kedua dari Fixed effect adalah bahwa object-object penelitian/entitas tersebut memiliki karakteristik tersendiri-sendiri sehingga kumpulan error masing-masing kelompok atau objek penelitian tersebut tidak dapat dikorelasikansatu sama lain. Biasanya peneliti menggunakan asumsi ini dengan cara menambahkan variabel dummy, karena pada variabel dummy dapat dengan mudah mengetahui secara parameter apakah masing-masing entitas tersebut berbeda.

Jika ternyata kelompok error dari setiap kelompok tersebut ternyata berkorelasi, maka Fixed effect tidak dapat digunakan, dan kita sebaiknya menggunakan Random effect. Random effect memiliki asumsi berkebalikan dari FE. Random effect memiliki pendekatan bahwa kelompok object penelitian diasumsikan memiliki pengaruh pada dependen variabel. Sehingga fokus pendekatan Random effect adalah pada bauran error-nya (seperti namanya, random effect.. 🙂

Bingung? Begini.. pada Fixed effect parameter entitas berbeda dan bauran errornya tidak berkorelasi. Jika keadaannya sebaliknya, entitas tidak berbeda maka besar kemungkinan bauran errornya akan memiliki hubungan atau korelasi dan selanjutnya besar kemungkinan ini akan mempengaruhi dependen variabel karena pada umunya sebaran error ini memiliki pola yang bisa diukur. Nah, pada kondisi seperti ini, fokus prosesnya pada errornya… sehingga yang digunakan adalah Random Effect.

Mengingat perbedaan dari kedua metode tersebut, fixed effect fokus pada perbedaan entitas dan Random Effect fokus pada errornya, maka kedua metode ini tidak bisa dikatakan satu lebih unggul dibandingkan lainnya. Saya pernah mendapat pertanyaan bagaimana caranya agar data bisa diolah dengan menggunakan RE, padahal saat dia menguji hipotesis, hasilnya sebaiknya fixed effect yang digunakan.

Secara model persamaan dan teori detilnya, anda akan menjumpai bahwa pada Fixed effect memiliki nilai intercept yang berubah namun slope yang sama. Karena sudah banyak literatur yang membahas ini saya tidak perlu membahasnya lagi.

“the crucial distinction between fixed and random effects is whether the unobserved individual effect embodies elements that are correlated with the regressors in the model, not whether these effects are stochastic or not” [Green, 2008, p.183]”

“If you have reason to believe that differences across entities have some influence on your dependent variable then you should use random effects”

Kedua kalimat ini sengaja saya kutip untuk menguatkan penjelasan saya diatas.

Pertanyaan umum: Lalu, metode mana yang harus digunakan?  Pertanyaan bagus, tapi saya belum mau menjelaskan kearah sana. Mungkin saya bahas di artikel selanjutnya.

Mari kita lanjutkan prakteknya setelah teori sudah saya jelaskan … kembali ke stata dan data yang sudah kita input sebelumnya.

Proses Panel Regression

Langkah pertama adalah mendefinisikan variabel yang sudah diinput agar stata memahami bahwa data tersebut data panel yang terdiri dari 2 perusahaan dan beberapa tahun. Klik statistics – longitudinal/panel data – setup and utilities – declare data set to be panel data

Regresi FE

Pada panel ID varibel kita isikan company atau diisi dari variable menjelaskan entitas yang kita gunakan. Pada latihan ini saya menggunakan variabel company yang menjelaskan ada data 2 perusahaan yang saya gunakan. Kemudian beri centang pada time series karena data yang kita gunakan mengandung data time series. Kemudian dibawahnya saya isikan variabel year yang menjelaskan data tersebut memiliki runtun waktu. Kemudian klik OK

Regresi Panel

Pada output akan terlihat sbb:

R squared

Selanjutnya klik statistics – longitudinal/panel data – linear models – linear regression

data panel

Masukkan variabel independen dan independen vaiabel, kemudian anda bisa memilih model type (affect which option are available) terdapat beberapa pilihan, kali ini saya coba pilih fixed-effect

Kemudian klik OK

Regresi Panel

Akan muncul hasil sebagai berikut:

Data Panel

Interpretasi hasil

Interpretasi hasil pada data panel tidak berbeda dengan interpretasi regresi berganda. Disana terdapat R-Sq, Uji F, Uji T, P value. R squared menunjukkan berapa nilai dalam persentase data dalam model (independen variabel) dapat menjelaskan secara tepat variabel dependennya, sisanya dijelaskan dengan error atau variabel lain yang belum ada dalam model. Uji F menguji secara keseluruhan model, sedangkan uji T menguji satu persatu variabel dalam model. Untuk lebih jelasnya mari kita bahas satu persatu

Data Panel

No 1. Menjelaskan tentang Independen variabel (Y), dan dependen variabel (X1, X2, X3) dengan proses FE (fixed effect). Penjelasan di bawah regressi berdasarkan grup “company”

No 2. R Squared. Pada panel data terdapat 3 macam R-sq. Definisi R-Sq within merupakan R-Sq yang dari rata-rata deviasi regression yang diperoleh dari OLS transform data. Biar gampang: ini R-Sq umum yang biasa kita ketahui di regresi.

R-Sq between: Regresi FE ini awalnya menghitung nilai prediksi dengan menggunakan parameter Fixed effect dan rata-rata dari variabel independen. Kemudian nilai prediksi ini dihitung squared korelasinya dengan nilai rata-rata dependen variabel ( variabel Y)

R-Sq Overall: R-Sq diperoleh dari hasil kalkulasi squared correlation antara nilai prediksi dengan data nilai Y (bukan rata-ratanya). nilai prediksi diperoleh dari perhitungan fixed effect dengan nilai independen variabel (bukan rata-ratanya).

Mana yang lebih penting? Tentu ketiga-tiganya memberikan informasi penting. Namun jika fixed effect dicerminkan pada R-Sq overall.

Kemudian dibawahnya terdapat corr(u_i) merupakan penjelasan correlasi antara error dalam entitas/grup (u) dengan regressors dalam model (variabel independen). Seperti yang dijelaskan sebelumnya, sebaiknya nilainya kecil atau tidak berkorelasi untuk Fixed effect

No 3. Merupakan penjelasan tentang deskripsi observasi. Disana terdapat jumlah observasi, jumlah grup, kemudian paling bawah merupakan uji F. Model secara keseluruhan dikatakan baik apabila Prob>F dibawah 0.05 atau sesuai tingkat kepercayaan yang digunakan selama penelitian.

No 4. Merupakan nilai koefisien, uji T, P value secara individu. Variabel akan dikatakan memiliki pengaruh signifikan jika memiliki nilai P value kurang dari 0.05 atau sesuai dengan tingkat kepercayaan yang digunakan

No 5. Sigma_u dan sigma_e merupakan hal yang berbeda dibandingkan regresi. Seperti yang kita ketahui bahwa pada regresi panel terdapat komponen kelompok dan error, atau biasa dijabarkan dalam model dalam bentuk slope dan intersep. Pada sigma_u jika saya definisikan merupakan ke standar deviasi dari residu/error entitas atau kelompok dalam group. Sedangkan sigma_e merupakan standar deviasi dari error secara keseluruhan. Jadi error di data panel ada 2 ya… error keseluruhan, dan error entitas atau kelompok.

Untuk apa sih sigma ini? Nilai sigma ini akan memberi gambaran kepada kita tentang sebaran error baik dalam group maupun secara total. Contohnya: jika sebaran error secara total ternyata lebih tinggi, ada kemungkinan ada variabel yang belum masuk dalam model yang bisa mempengaruhi nilai Y. nilai rho menghubungkan kedua error tersebut. Jika nilai rho 0.297 artinya terdapat 29.7% varians yang disebabkan oleh perbedaan antara kedua kelompok error tersebut. Mana yang lebih bagus? Pasti mintanya variansnya yng lebih kecil karena berarti tidak begitu beragam sebaran errornya.

Regresi Panel

Wow… panjang ya…saya belum belajar ke arah dummy pada fixed effect, Random effect, Hipotesis yang menentukan kedua metode tersebut. Episode ini saya sudahi dulu. Sampai bertemu di episode selanjutnya. Jika ada penjelasan saya yang keliru, saya senang hati jika kita berdiskusi karena apa yang saya catat ini adalah hasil pembelajaran yang saya lalui.

Selamat Belajar!

Update 2 juni 2018

jangan lupa baca juga artikel yang berjudul: memilih fixed atau random dengan hausman test, yakni artikel yang menjelaskan tentang bagaimana cara hausman test memberikan rekomendasi kepada anda tentang regresi yang harus anda gunakan.

53 thoughts on “Mengolah Mudah Data Panel dengan Regression – Fixed Effect

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *