Masih membahas regression, kali ini saya akan mencoba memberikan suatu saran terhadap langkah atau upaya yang mesti dilakukan seandainya jika semua step normal regression telah dilakukan namun tidak mendapatkan hasil sesuai harapan atau hipotesis. Anda bisa melakukan tehnik eliminasi data responden yang sekiranya dapat mengganggu sebaran data lainnya yang disebut sebagai data pencilan.
Sebenarnya hasil yang tidak sesuai dengan harapan juga sudah merupakan suatu hasil. Peneliti sangat tidak diperkenankan untuk memanipulasi data karena itu sudah melanggar kode etik dan moral sebagai peneliti. Jadi, apapun hasil atau kesimpulan yang diperoleh dari suatu pengamatan, laporkanlah atau tulislah dengan apa adanya tidak perlu takut bahwa hasil yang anda peroleh berbeda dengan hasil – hasil penelitian lainnya. Justru, kemungkinan hasil yang berbeda yang anda peroleh akan menjadikan variasi hasil – hasil penelitian sehingga menjadi lebih beragam dengan kondisi yang kemungkinan berbeda- beda.
Saya ambil sebuah contoh kasus, kebetulan ini nyata saya alami. Saya pernah tergabung dalam sebuah tim yang meneliti tentang integrasi tanaman perkebunan – sapi. Secara teoritik dan mayoritas dilaporkan oleh peneliti – peneliti sebelumnya, bahwa usaha integrasi tanaman perkebunan – sapi lebih menguntungkan dibandingkan petani yang hanya mengusahakan tanaman perkebunan saja atau ternak sapi saja (tidak terintegrasi). Namun, kenyataannya saya melihat hasil pengamatan dan survey menunjukkan bahwa usaha yang dilakukan petani integrasi tidak berbeda nyata dengan usaha petani non-integrasi. Tentunya, hal yang perlu digarisbawahi adalah hal tersebut berada pada situasi yang berbeda. Nah, situasi yang berbeda inilah yang perlu saya bahas mengapa hasilnya bisa berbeda dari yang lain. Perlu anda ketahui bahwa pada penelitian sosial ekonomi, penelitian yang sama jika dilakukan di daerah yang berbeda bisa saja menghasilkan kesimpulan yang berbeda.
Data Pencilan
Data pencilan atau outlier merupakan sebuah data yang menyimpang sangat jauh dari data yang lain. Data pencilan ini sangat mempengaruhi statistik kumpulan data tersebut. Ambil sebuah contoh : disebuah desa, terdapat 40 keluarga. 38 keluarga berprofesi sebagai petani, guru, dan buruh. Sedangkan 2 anggota keluarga yang lain berprofesi sebagai anggota Dewan dan pemilik pabrik ternama di Indonesia. Jika kita ambil data aset harta, tentunya kita akan melihat ada dua data yang sangat menyimpang dari kumpulan data yang lain. Inilah yang disebut data pencilan atau outlier. Kita akan mengetahui bagaimana pengaruh data pencilan ini terhadap kebaikmodelan regression yang dihasilkan.
Guna mengantisipasi anda memperoleh data pencilan, biasanya dosen merekomendasikan anda untuk memperoleh data responden melebihi data minimal yang harus dipenuhi untuk memproses regression. Misalkan regresi mengharuskan data sebanyak 30 data, anda sebaiknya mencari responden melebihi 30, misalkan 35 atau bahkan 40 responden. Hal ini berguna untuk mengantisipasi anda jika harus melakukan eliminasi data responden. Namun, penentuan responden ini tetap harus mengacu pada tehnik sampling. Semoga suatu saat saya bisa membagi informasi tentang penentuan sampling.
Anda harus bisa membedakan data sampling dan data populasi. Tehnik eliminasi data responden ini bisa anda lakukan jika data yang anda gunakan menggunakan sampling. Jika data anda berupa populasi, tentunya anda tidak diperkenankan menghilangkan data responden meskipun hanya satu orang.
Latihan Tehnik Eliminasi Data Responden
Kita praktekkan langsung agar dapat dipahami dengan mudah bagaimana data pencilan responden, meskipun hanya sedikit ternyata mempengaruhi cukup banyak terhadap hasil regression.
Saya menggunakan SPSS dengan data mentahnya bisa di download disini:
Data tersebut saya run regresi berganda dan kemudian hasil yang saya peroleh adalah sebagai berikut:

Data R Square sudah sangat bagus. Nilai F atau uji annova juga sangat baik. Namun jika dilihat koeffisien variabel independennya, hanya X1 yang signifikan dengan nilai p-value signifikan pada 0.00. sedangkan X2 tidak signifikan karena memiliki p value 0.89 atau lebih besar dari 0.05.
Asumsikan bahwa pada latihan ini secara teori dan hipotesis saya bahwa X2 ini seharusnya signifikan mempengaruhi nilai Y.
Sesuai judul dari artikel ini, saya coba akan memeriksa data responden yang berjumlah 35 orang/data ini. Pertama saya akan memeriksa sebaran data X2.
Caranya adalah : pada menu SPSS pilih graphs – legacy dialogs – histogram

Masukkan variabel X2 kemudian tekan OK

Pada sheet output SPSS akan muncul gambar histogram. untuk melengkapi keterangan gambar, kita klik 2 kali pada gambar tersebut sehingga muncul chart editor pada SPSS. Kemudian pilih elemen – show data label

Pilih count pada jendela yang muncul, kemudian klik apply kemudian pilih close. Pada gambar histogram tadi akan muncul angka yang menjelaskan frekuensi.

Masih belumlengkap rasanya kita tambahkan sebaran normal pada histogram tersebut dengan cara memilih element – show distribution curve.

Kemudian pilih normal pada tab distribution curve pada jendela atauu windows yang muncul. Klik apply kemudian close. Tutup chart editor. Hasil yang kita peroleh adalah sebagai berikut:

Terlihat sekali bahwa ada tiga data yang dapat dikategorikan pencilan pada gambar tersebut. Satu data pada nilai X2 150 kemudiann dua data pada X2 diantara 200 hingga 250. Ketiga data tersbeut juga diluar dari distribusi normal.
Maka, saya hapus atau eliminasi data responden tersebut. Hapus baik nilai Y, X1 dan X2-nya. Atau jika di SPSS kita cut baris pada data yang akan kita hilangkan. Dalam hal ini saya menghilangkan tiga data, sehingga data saya menjadi 32 data (awal jumlahnya 35 data).
Belum berhenti sampai disini, saya juga melakukan hal yang sama pada variabel X1 dan saya memperoleh hasil grafik histogramnya sebagai berikut:

Pada gambar tersebut juga ada dua data pencilan, yakni data antara 0 sampai 20.000. Data ini juga saya eliminasi karena berada diluar kumpulan data yang lain. Sehingga totalnya saya mengeliminasi 5 data, dan data terakhir tersisa 30 data.
Data yang tersisa kemudian saya regresikan kembali. Hasilnya adalah sebagai berikut:

Hasil yang saya peroleh saat ini adalah kedua variabel independen berpengaruh nyata terhadap variabel dependen. Nilai p value untuk X2 saat ini adalah 0.025 atau lebih kecil dibandingkan 0.05.
Anda bisa juga menggunakan minitab untuk membuat histogram. Menu graph – histogram, kemudian pilih histogram with fits. Hasilnya sebagai berikut untu variable X2:

Tehnik eliminasi data responden ini biasanya jarang sekali dipublikasikan karena termasuk salah satu jurus rahasia para pengolah data. Selain itu, karena sangat berdekatan dengan praktek memanipulasi data, maka dosen pun tidak memberikan materi ini di depan kelas. Semakin anda mengerti pola data dan regression, maka semakin besar godaan untuk mengubah data. Hal ini sangat tidak dibenarkan. Peneliti sangat diharapkan kejujurannya. Teringat akan suatu slogan “ peneliti boleh salah, tapi tidak boleh berbohong”
Demikianlah tehnik eliminasi data responden untuk regresi. Saya sudah banyak membahas tentang regression, salah satunya adalah tentang regresi logistik. Jika anda ingin membaca artikel lainnya tentang regresi gunakan pencarian / search di blog ini yang terletak di bagian paling bawah. Gunakan kata kunci yang anda inginkan.
selain eliminasi responden berdasarkan data pencilan, saya juga telah membahas eliminasi variabel dan eliminasi berdasarkan konsep R square.
Terima kasih telah berkunjung.
Update 16 Mei 2018:
karena banyak pertanyaan tentang bagaimana cara mencari data pencilan tersebut? agar lebih jelas dan tepat sasaran, saya menjelaskan di satu artikel : mengetahui letak data pencilan responden regresi.
Tinggalkan Balasan