Cara Mengeliminasi Data Responden untuk Mendapatkan Model Regresi yang Lebih Baik

Posted on

Masih membahas regresi, kali ini saya akan mencoba memberikan suatu saran terhadap langkah atau upaya yang mesti dilakukan seandainya jika semua step normal regresi telah dilakukan namun tidak mendapatkan hasil sesuai harapan atau hipotesis. Anda bisa melakukan tehnik eliminasi data responden yang sekiranya dapat mengganggu sebaran data lainnya yang disebut sebagai data pencilan.

Sebenarnya hasil yang tidak sesuai dengan harapan juga sudah merupakan suatu hasil. Peneliti sangat tidak diperkenankan untuk memanipulasi data karena itu sudah melanggar kode etik dan moral sebagai peneliti. Jadi, apapun hasil atau kesimpulan yang diperoleh dari suatu pengamatan, laporkanlah atau tulislah dengan apa adanya tidak perlu takut bahwa hasil yang anda peroleh berbeda dengan hasil – hasil penelitian lainnya. Justru, kemungkinan hasil yang berbeda yang anda peroleh akan menjadikan variasi hasil – hasil penelitian sehingga menjadi lebih beragam dengan kondisi yang kemungkinan berbeda- beda.

Saya ambil sebuah contoh kasus, kebetulan ini nyata saya alami. Saya pernah tergabung dalam sebuah tim yang meneliti tentang integrasi tanaman perkebunan – sapi. Secara teoritik dan mayoritas dilaporkan oleh peneliti – peneliti sebelumnya, bahwa usaha integrasi tanaman perkebunan – sapi lebih menguntungkan dibandingkan petani yang hanya mengusahakan tanaman perkebunan saja atau ternak sapi saja (tidak terintegrasi). Namun, kenyataannya saya melihat hasil pengamatan dan survey menunjukkan bahwa usaha yang dilakukan petani integrasi tidak berbeda nyata dengan usaha petani non-integrasi. Tentunya, hal yang perlu digarisbawahi adalah hal tersebut berada pada situasi yang berbeda. Nah, situasi yang berbeda inilah yang perlu saya bahas mengapa hasilnya bisa berbeda dari yang lain. Perlu anda ketahui bahwa pada penelitian sosial ekonomi, penelitian yang sama jika dilakukan di daerah yang berbeda bisa saja menghasilkan kesimpulan yang berbeda.

Data Pencilan

Data pencilan atau outlier merupakan sebuah data yang menyimpang sangat jauh dari data yang lain. Data pencilan ini sangat mempengaruhi statistik kumpulan data tersebut. Ambil sebuah contoh : disebuah desa, terdapat 40 keluarga. 38 keluarga berprofesi sebagai petani, guru, dan buruh. Sedangkan 2 anggota keluarga yang lain berprofesi sebagai anggota Dewan dan pemilik pabrik ternama di Indonesia. Jika kita ambil data aset harta, tentunya kita akan melihat ada dua data yang sangat menyimpang dari kumpulan data yang lain. Inilah yang disebut data pencilan atau outlier. Kita akan mengetahui bagaimana pengaruh data pencilan ini terhadap kebaikmodelan regresi yang dihasilkan.

Guna mengantisipasi anda memperoleh data pencilan, biasanya dosen merekomendasikan anda untuk memperoleh data responden melebihi data minimal yang harus dipenuhi untuk memproses regresi. Misalkan regresi mengharuskan data sebanyak 30 data, anda sebaiknya mencari responden melebihi 30, misalkan 35 atau bahkan 40 responden. Hal ini berguna untuk mengantisipasi anda jika harus melakukan eliminasi data responden. Namun, penentuan responden ini tetap harus mengacu pada tehnik sampling. Semoga suatu saat saya bisa membagi informasi tentang penentuan sampling.

Anda harus bisa membedakan data sampling dan data populasi. Tehnik eliminasi data responden ini bisa anda lakukan jika data yang anda gunakan menggunakan sampling. Jika data anda berupa populasi, tentunya anda tidak diperkenankan menghilangkan data responden meskipun hanya satu orang.

Latihan Tehnik Eliminasi Data Responden

Kita praktekkan langsung agar dapat dipahami dengan mudah bagaimana data pencilan responden, meskipun hanya sedikit ternyata mempengaruhi cukup banyak terhadap hasil regresi.

Saya menggunakan SPSS dengan data mentahnya bisa di download disini.

Data tersebut saya run regresi berganda dan kemudian hasil yang saya peroleh adalah sebagai berikut:

data pencilan mempengaruhi regresi

Data R Square sudah sangat bagus. Nilai F atau uji annova juga sangat baik. Namun jika dilihat koeffisien variabel independennya, hanya X1 yang signifikan dengan nilai p-value signifikan pada 0.00. sedangkan X2 tidak signifikan karena memiliki p value 0.89 atau lebih besar dari 0.05.

Asumsikan bahwa pada latihan ini secara teori dan hipotesis saya bahwa X2 ini seharusnya signifikan mempengaruhi nilai Y.

Sesuai judul dari artikel ini, saya coba akan memeriksa data responden yang berjumlah 35 orang/data ini. Pertama saya akan memeriksa sebaran data X2.

Caranya adalah : pada menu SPSS pilih graphs – legacy dialogs – histogram

data pencilan mempengaruhi regresi

Masukkan variabel X2 kemudian tekan OK

eliminasi data responden

Pada sheet output SPSS akan muncul gambar histogram. untuk melengkapi keterangan gambar, kita klik 2 kali pada gambar tersebut sehingga muncul chart editor pada SPSS. Kemudian pilih elemen –  show data label

regresi berganda

Pilih count pada jendela yang muncul, kemudian klik apply kemudian pilih close. Pada gambar histogram tadi akan muncul angka yang menjelaskan frekuensi.

memilih data responden

Masih belumlengkap rasanya kita tambahkan sebaran normal pada histogram tersebut dengan cara memilih element – show distribution curve.

eliminasi data pada regresi

Kemudian pilih normal pada tab distribution curve pada jendela atauu windows yang muncul. Klik apply kemudian close. Tutup chart editor. Hasil yang kita peroleh adalah sebagai berikut:

histogram

Terlihat sekali bahwa ada tiga data yang dapat dikategorikan pencilan pada gambar tersebut. Satu data pada nilai X2 150 kemudiann dua data pada X2 diantara 200 hingga 250. Ketiga data tersbeut juga diluar dari distribusi normal.

Maka, saya hapus atau eliminasi data responden tersebut. Hapus baik nilai Y, X1 dan X2-nya. Atau jika di SPSS kita cut baris pada data yang akan kita hilangkan. Dalam hal ini saya menghilangkan tiga data, sehingga data saya menjadi 32 data (awal jumlahnya 35 data).

Belum berhenti sampai disini, saya juga melakukan hal yang sama pada variabel X1 dan saya memperoleh hasil grafik histogramnya sebagai berikut:

histogram di SPSS

Pada gambar tersebut juga ada dua data pencilan, yakni data antara 0 sampai 20.000. Data ini juga saya eliminasi karena berada diluar kumpulan data yang lain. Sehingga totalnya saya mengeliminasi 5 data, dan data terakhir tersisa 30 data.

Data yang tersisa kemudian saya regresikan kembali. Hasilnya adalah sebagai berikut:

hasil eliminasi data

Hasil yang saya peroleh saat ini adalah kedua variabel independen berpengaruh nyata terhadap variabel dependen. Nilai p value untuk X2 saat ini adalah 0.025 atau lebih kecil dibandingkan 0.05.

Anda bisa juga menggunakan minitab untuk membuat histogram. Menu graph – histogram, kemudian pilih histogram with fits. Hasilnya sebagai berikut untu variable X2:

tehnik eliminasi data responden

Tehnik eliminasi data responden ini biasanya jarang sekali dipublikasikan karena termasuk salah satu jurus rahasia para pengolah data. Selain itu, karena sangat berdekatan dengan praktek memanipulasi data, maka dosen pun tidak memberikan materi ini di depan kelas. Semakin anda mengerti pola data dan regresi, maka semakin besar godaan untuk mengubah data. Hal ini sangat tidak dibenarkan. Peneliti sangat diharapkan kejujurannya. Teringat akan suatu slogan “ peneliti boleh salah, tapi tidak boleh berbohong”

Demikianlah tehnik eliminasi data responden untuk regresi. Saya sudah banyak membahas tentang regresi, salah satunya adalah tentang regresi logistik. Jika anda ingin membaca artikel lainnya tentang regresi gunakan pencarian / search di blog ini yang terletak di bagian paling bawah. Gunakan kata kunci yang anda inginkan.

selain eliminasi responden berdasarkan data pencilan, saya juga telah membahas eliminasi variabel dan eliminasi berdasarkan konsep R square.

Terima kasih telah berkunjung.

Update 16 Mei 2018:

karena banyak pertanyaan tentang bagaimana cara mencari data pencilan tersebut? agar lebih jelas dan tepat sasaran, saya menjelaskan di satu artikel : mengetahui letak data pencilan responden regresi.

Gravatar Image
Peneliti bidang sosial ekonomi pertanian. Pernah bekerja di bidang supply chain. Detil info silahkan kunjungi laman about me.

23 thoughts on “Cara Mengeliminasi Data Responden untuk Mendapatkan Model Regresi yang Lebih Baik

  1. pak saya ingin bertanya, penelitian saya merupakan data panel dengan menggunakan 63 perusahaan dan periode selama 5 tahun. Saya sudah menguji untuk pemilihan model pak dan hasilnya menggunakan rem yang saya lihat referensi2nya tidak perlu lagi menggunakan asumsi klasik. Untuk uji t hanya 1 variabel yang berpengaruh sedangkan 4 variabel independen lainnya tidak. dan r squarenya hanya 7% pak. Apakah saya bisa konsultasi dengan bapak? kalau bisa lewat apa ya pak karena saya sudah bingung sekali mengenai ini pak. terima kasih banyak sebelumnya pak

    1. Boleh..silahkan gunakan bimbingan statistik. Nanti kita diskusi lewat wa. Atau bisa juga lihat channel youtub “catatan budi”. Saya sudah buat video disana. Terima kasih

  2. salam pak
    bolehkah kalau mau dapatkan khidmat konsultasi bapak 1 to 1 urusan ini?
    bagaimana mau dihubungi pak?

  3. mas… data saya pada awalnya tidak normal dan tidak lolos uji heteroskesdasitas maupun autokorelasi. setelah saya melakukan outlier data sudah normal. tetapi ada satu variabel yang tidak lolos uji heterosnya nilainya 0,000. saya sudah coba berbagai cara tapi nilainya tidak naik naik. tiu bagaimana ya mas solusinya?

  4. Maaf Pak saya ingin menanyakan kenapa hasil R square saya sangan rendah begitupun nilai t hanya 1 yang lolos dari 4 variabel bebasnya Pak. Namun untuk nilai F dan asumsi klasikya sudah lolos Pak.
    Kemudian saya mencoba memasukkan DfFit (ketika uji linearitas) ke dalam variabel bebas (saat proses analisis regresi linear berganda. Dan hasilnya langsung berubah drastis mnjadi sangan bagus Pak. Apakah boleh Pak sperti itu ?

    1. Mbk baru saja memasukkan unsur error kedalam persamaan. Tentu saja hasilnya langsung signifikan. Justru yang menjadi pertanyaan sebenarnya variabel variabel apa yang diluar persamaan dan seharusnya ada dalam unsur error tersebut.
      Tentu saja tindakan ini tidak dibenarkan. Karena apapun modelnya, jika unsur error sudah dimasukkan pasti hasilnya OK.

      Terima kasih

  5. mas ,data saya kok r square sangat rendah., hanya 13.3%., bagaimana jalan keluar nya ?
    atau bagaimana analogi saya jk nnti dosen penguji menanyakan itu knp tlalu rndah

    1. cara termudah pastinya dengan menjelaskan bahwa data yang diperoleh hanya mampu dijelaskan sebesar 13 persen oleh model regresi, sisanya error. lalu yakinkan dosen bahwa sampling sudah tepat digunakan. karena jika datanya ternyata tidak berasal dari sampling yang tepat, biasanya diminta pengambilan data ulang.

      jalan keluar? saya sarankan mbk telusuri artikel2 saya tentang r squared di blog ini, karna kasusnya tidakbisa disamakan. bisa saja terjadi unlinear, atau perlu eliminasi variable, atau eliminasi data pencilan. dsb. terima kasih

  6. Kak kalo boleh penjelasannya itu data yg dari antara 0 sampai 20.000 itu yg mana yg dieleminasi dari data excelnya, apa urutan no 1-5 ? Kenapa bisa tahu itu dieleminasi? Mohon penjelasannya kak… Trmaksih

    1. Dari alatnya sendiri, tujuannya sudah beda ya debora.. jika chi square adalah sebuah uji korelasi kedua kelompok data dimana kedua data tersebut bersakala non parametris.

      Jika yang dimaksud adalah cara mengeliminasi bisa tidak digunakan di chi square? Saya katakan bahwa eliminasi bisa digunakan di semua uji dan analisis, karena eliminasi tergantung dari sample yang digunakan, bukan dari alat aalisisnya. Apakah eliminasi ini mengurangi banyak porsi sehingga mengubah sample dan sampling? Jika iya, maka akan menjadi problem dan kesimpulan yang keliru pada penelitian debora.

      Debora bisa baca artikel saya yang saya tulis akhir akhir ini berjudul: mengapa sampling terkadang tidak dijabarkan di metodelogi?

      Kuatirnya jika kita mengeliminasi yang berlebihan, akan terjadi seperti yang saya ceritakan di artikel tersebut.

      Terima kasih.

  7. Mas saya mau tanya, cara menentukan data yang no berpa saja yang harus di eliminasi dari gambar histogram itu gimna cara tentukannya??”

    1. baik mbk, karena banyak muncul pertanyaan serupa, komen dibawah juga mirip pertanyaannya, saya tulis artikel bagaimana cara mencarinya data pencilan tersebut. silahkan anda cek posting terbaru hari ini. terima kasih

  8. Cara mengetahui data pencilan di row data excel atau sav nya bagaimana ya mas? Karna penjelasan yg mas berikan tidak menyebutkan bagaimana mengetahui data pencilan tersebut di row atau pun coloum yg terdapat pada data kasar dalam bentuk excel atau pun SAV

    1. terima kasih pertanyaannya. cara mengetahui data pencilannya adalah melihat sebaran distribusi normalnya tadi. contoh pada variabel x2 diatas, ada data yang merupakan pencilan dengan nilai x2 sama dengan 200 keatas. kemudian cara mengetahuinya di excell, bisa menggunakan short data atau bisa juga menggunakan short dari nilai terendah ke nilai tertinggi. kemudian data bisa dilihat dibaris mana data pencilan trsebut berada.

    1. pertanyaan simple, tapi terkadang bisa luput dijelaskan ya…heheheheh.. cara mengeliminasinya tinggal di delete saja mas. jika mas menggunakan excel, tinggal di delete row di data pencilan tersebut atau data yang akan dieliminasi. kemudian diinput ulang di software yang mas gunakan.

    2. pertanyaan simple, tapi terkadang bisa luput dijelaskan ya…heheheheh.. cara mengeliminasinya tinggal di delete saja mas. jika mas menggunakan excel, tinggal di delete row di data pencilan tersebut atau data yang akan dieliminasi. kemudian diinput ulang di software yang mas gunakan.

Leave a Reply

Your email address will not be published. Required fields are marked *