|

Cara Mengeliminasi Data Responden untuk Mendapatkan Model Regresi yang Lebih Baik

Masih membahas regression, kali ini saya akan mencoba memberikan suatu saran terhadap langkah atau upaya yang mesti dilakukan seandainya jika semua step normal regression telah dilakukan namun tidak mendapatkan hasil sesuai harapan atau hipotesis. Anda bisa melakukan tehnik eliminasi data responden yang sekiranya dapat mengganggu sebaran data lainnya yang disebut sebagai data pencilan.

Sebenarnya hasil yang tidak sesuai dengan harapan juga sudah merupakan suatu hasil. Peneliti sangat tidak diperkenankan untuk memanipulasi data karena itu sudah melanggar kode etik dan moral sebagai peneliti. Jadi, apapun hasil atau kesimpulan yang diperoleh dari suatu pengamatan, laporkanlah atau tulislah dengan apa adanya tidak perlu takut bahwa hasil yang anda peroleh berbeda dengan hasil – hasil penelitian lainnya. Justru, kemungkinan hasil yang berbeda yang anda peroleh akan menjadikan variasi hasil – hasil penelitian sehingga menjadi lebih beragam dengan kondisi yang kemungkinan berbeda- beda.

Saya ambil sebuah contoh kasus, kebetulan ini nyata saya alami. Saya pernah tergabung dalam sebuah tim yang meneliti tentang integrasi tanaman perkebunan – sapi. Secara teoritik dan mayoritas dilaporkan oleh peneliti – peneliti sebelumnya, bahwa usaha integrasi tanaman perkebunan – sapi lebih menguntungkan dibandingkan petani yang hanya mengusahakan tanaman perkebunan saja atau ternak sapi saja (tidak terintegrasi). Namun, kenyataannya saya melihat hasil pengamatan dan survey menunjukkan bahwa usaha yang dilakukan petani integrasi tidak berbeda nyata dengan usaha petani non-integrasi. Tentunya, hal yang perlu digarisbawahi adalah hal tersebut berada pada situasi yang berbeda. Nah, situasi yang berbeda inilah yang perlu saya bahas mengapa hasilnya bisa berbeda dari yang lain. Perlu anda ketahui bahwa pada penelitian sosial ekonomi, penelitian yang sama jika dilakukan di daerah yang berbeda bisa saja menghasilkan kesimpulan yang berbeda.

Data Pencilan

Data pencilan atau outlier merupakan sebuah data yang menyimpang sangat jauh dari data yang lain. Data pencilan ini sangat mempengaruhi statistik kumpulan data tersebut. Ambil sebuah contoh : disebuah desa, terdapat 40 keluarga. 38 keluarga berprofesi sebagai petani, guru, dan buruh. Sedangkan 2 anggota keluarga yang lain berprofesi sebagai anggota Dewan dan pemilik pabrik ternama di Indonesia. Jika kita ambil data aset harta, tentunya kita akan melihat ada dua data yang sangat menyimpang dari kumpulan data yang lain. Inilah yang disebut data pencilan atau outlier. Kita akan mengetahui bagaimana pengaruh data pencilan ini terhadap kebaikmodelan regression yang dihasilkan.

Guna mengantisipasi anda memperoleh data pencilan, biasanya dosen merekomendasikan anda untuk memperoleh data responden melebihi data minimal yang harus dipenuhi untuk memproses regression. Misalkan regresi mengharuskan data sebanyak 30 data, anda sebaiknya mencari responden melebihi 30, misalkan 35 atau bahkan 40 responden. Hal ini berguna untuk mengantisipasi anda jika harus melakukan eliminasi data responden. Namun, penentuan responden ini tetap harus mengacu pada tehnik sampling. Semoga suatu saat saya bisa membagi informasi tentang penentuan sampling.

Anda harus bisa membedakan data sampling dan data populasi. Tehnik eliminasi data responden ini bisa anda lakukan jika data yang anda gunakan menggunakan sampling. Jika data anda berupa populasi, tentunya anda tidak diperkenankan menghilangkan data responden meskipun hanya satu orang.

Latihan Tehnik Eliminasi Data Responden

Kita praktekkan langsung agar dapat dipahami dengan mudah bagaimana data pencilan responden, meskipun hanya sedikit ternyata mempengaruhi cukup banyak terhadap hasil regression.

Saya menggunakan SPSS dengan data mentahnya bisa di download disini:

Data tersebut saya run regresi berganda dan kemudian hasil yang saya peroleh adalah sebagai berikut:

data pencilan mempengaruhi regresi

Data R Square sudah sangat bagus. Nilai F atau uji annova juga sangat baik. Namun jika dilihat koeffisien variabel independennya, hanya X1 yang signifikan dengan nilai p-value signifikan pada 0.00. sedangkan X2 tidak signifikan karena memiliki p value 0.89 atau lebih besar dari 0.05.

Asumsikan bahwa pada latihan ini secara teori dan hipotesis saya bahwa X2 ini seharusnya signifikan mempengaruhi nilai Y.

Sesuai judul dari artikel ini, saya coba akan memeriksa data responden yang berjumlah 35 orang/data ini. Pertama saya akan memeriksa sebaran data X2.

Caranya adalah : pada menu SPSS pilih graphs – legacy dialogs – histogram

Masukkan variabel X2 kemudian tekan OK

Pada sheet output SPSS akan muncul gambar histogram. untuk melengkapi keterangan gambar, kita klik 2 kali pada gambar tersebut sehingga muncul chart editor pada SPSS. Kemudian pilih elemen –  show data label

Pilih count pada jendela yang muncul, kemudian klik apply kemudian pilih close. Pada gambar histogram tadi akan muncul angka yang menjelaskan frekuensi.

Masih belumlengkap rasanya kita tambahkan sebaran normal pada histogram tersebut dengan cara memilih element – show distribution curve.

Kemudian pilih normal pada tab distribution curve pada jendela atauu windows yang muncul. Klik apply kemudian close. Tutup chart editor. Hasil yang kita peroleh adalah sebagai berikut:

Terlihat sekali bahwa ada tiga data yang dapat dikategorikan pencilan pada gambar tersebut. Satu data pada nilai X2 150 kemudiann dua data pada X2 diantara 200 hingga 250. Ketiga data tersbeut juga diluar dari distribusi normal.

Maka, saya hapus atau eliminasi data responden tersebut. Hapus baik nilai Y, X1 dan X2-nya. Atau jika di SPSS kita cut baris pada data yang akan kita hilangkan. Dalam hal ini saya menghilangkan tiga data, sehingga data saya menjadi 32 data (awal jumlahnya 35 data).

Belum berhenti sampai disini, saya juga melakukan hal yang sama pada variabel X1 dan saya memperoleh hasil grafik histogramnya sebagai berikut:

Pada gambar tersebut juga ada dua data pencilan, yakni data antara 0 sampai 20.000. Data ini juga saya eliminasi karena berada diluar kumpulan data yang lain. Sehingga totalnya saya mengeliminasi 5 data, dan data terakhir tersisa 30 data.

Data yang tersisa kemudian saya regresikan kembali. Hasilnya adalah sebagai berikut:

Hasil yang saya peroleh saat ini adalah kedua variabel independen berpengaruh nyata terhadap variabel dependen. Nilai p value untuk X2 saat ini adalah 0.025 atau lebih kecil dibandingkan 0.05.

Anda bisa juga menggunakan minitab untuk membuat histogram. Menu graph – histogram, kemudian pilih histogram with fits. Hasilnya sebagai berikut untu variable X2:

Tehnik eliminasi data responden ini biasanya jarang sekali dipublikasikan karena termasuk salah satu jurus rahasia para pengolah data. Selain itu, karena sangat berdekatan dengan praktek memanipulasi data, maka dosen pun tidak memberikan materi ini di depan kelas. Semakin anda mengerti pola data dan regression, maka semakin besar godaan untuk mengubah data. Hal ini sangat tidak dibenarkan. Peneliti sangat diharapkan kejujurannya. Teringat akan suatu slogan “ peneliti boleh salah, tapi tidak boleh berbohong”

Demikianlah tehnik eliminasi data responden untuk regresi. Saya sudah banyak membahas tentang regression, salah satunya adalah tentang regresi logistik. Jika anda ingin membaca artikel lainnya tentang regresi gunakan pencarian / search di blog ini yang terletak di bagian paling bawah. Gunakan kata kunci yang anda inginkan.

selain eliminasi responden berdasarkan data pencilan, saya juga telah membahas eliminasi variabel dan eliminasi berdasarkan konsep R square.

Terima kasih telah berkunjung.

Update 16 Mei 2018:

karena banyak pertanyaan tentang bagaimana cara mencari data pencilan tersebut? agar lebih jelas dan tepat sasaran, saya menjelaskan di satu artikel : mengetahui letak data pencilan responden regresi.

Similar Posts

50 Comments

  1. saya izin bertanya pak, saya mau analisis cobb douglass dengan sampel 30 data, 4 variabel bebas dan 1 variabel terikat, apakah data nya cukup atau tidak ya pak? soalnya saya mencoba multikolinearitas nilai VIF nya diatas 10 pak, bagaimana ya pak? apakah data yang kurang pak? Terimakasih pak

    1. Multikolinear tidak ada hub dengan jumlah sample. Jika ViFnya diatas 10 sudah pasti ada korelasi antara variabel independennya.

      Salah satu variabel yang berkorelasi tersebut harus dihilangkan atau diganti dengan variabel yang lain, yang tidam memiliki korelasi. Terima kasih

  2. Halo, kalau Rsquared nya 0.092, apakah itu artinya tidak baik? kalau tidak, apa yang harus saya lakukan? Terima kasih.

  3. Izin bertanya pa, misal sampelnya 60 setelah di eliminasi jadi 55 itu bagaimana pa pada waktu menyajikan datanya otomatis N nya juga berkurang , takut di permasalahkan pa , terima kasih 🙏🏻

    1. biasnaya peneliti melebihkan responden dari target. misalnya target 60, tetapi dilapangan yang dipilih ada 70. gunanya untuk menghindari seperti ini. terima kasih

  4. Izin bertanya pak, apakah data sekunder seperti data publikasi bisa dieliminasi? Misalnya data 514 kab/kota dieliminasi menjadi 463 data saja. Kalo bisa apakah butuh teori/referensi dalam eliminasi data tersebut? Terima kasih

    1. maaf, untuk data sekunder itu sudah given. tidak bisa diutak atik. itulah kekurangan dari data sekunder.
      kecuali jika mbak melakukan pemnbatasan di samplingnya.. misalnya data yang akan diambil hanya kab yang memiliki kriteria tertentu. maka mbak bisa melakukan pembatasan atau eliminasi kab tersebut. terima kasih

  5. Pak, mohon bertanya.. jadi simpulannya melakukan eleminasi data itu bagian dari manipulasi data atau bukan ya? sebagaimana pernyataan bapak di atas..

    1. eliminasi bukan termasuk memanipulasi data jika dilakukan dengan wajar. misalnya membuang data pencilan. eliminasi termasuk manipulasi data jika dilakukan dengan memilih data yang sesuai saja.

  6. saya mau tanya, nilai uji t, uji f, dan determinasi R yg sya dapatkan dr 5 variabel (program penyuluhan x1, pendidikan x2, luas lahan x3, lama berusahatani x4, dan sarana produksi x5), semua hasilnya tdk ada yg berpengaruh trhadap variabel Y (Produktivitas). kira2 salahnya dimana ya? krn menurut sya kurang sinkron jika semuanya tdk berpengaruh. padahal semua hasil dr uji asumsi klasik saya sudah sesuai. jadi terjadi perbedaan antara hsil uji asumsi klasik dan uji t,f, determinasi R. mohon dijawab. terimakasih

    1. Terima kasih atas pertanyaannya.. saya tawarkan bimbingan statistik dan pengolahan data bagaimana? Silahkan berkunjung ke halaman bimbingan statistik untuk info lebih lanjut. Terima kasih

  7. Pak izin tanyak, penelitian saya kan ada di 2 tempat yang berbeda dan pasti datanya juga akan berbeda. Saya mau nanyak gimana caranya pak untuk meregresikan kedua data tsb? Data saya ini data primer pak, dan menggunakan metode regresi berganda, datanya saja yang berbeda tapi 3 variabel x nya dan y nya sama pak.
    Mohon petunjuknya pak 🙏🙏

    1. untuk melihat bedanya, buat saja satu variabel dummy. nol untuk tempat A dan satu untuk tempat B. amati apakah variabel tersebut signifikan atau tidak. jika tidak signifikan, artinya data kedua tempat itu tidak berbeda dan bisa dicampur.

  8. Saya mau nanyak pak, gimana cara meregresikan dua data yang berbeda karena berbeda tempat penelitian, akan tetapi variabel x dan y nya sama. Penelitian saya data primer pak. Mohon petunjuknya 🙏🙏

  9. Hallo pak, ingin tanya. Sampel saya berjumlah 60 dengan data sekunder, memiliki X lebih dri 2 dan memiliki nilai adjusted r square 0,35. Lalu saya mencoba menggunakan cara eliminasi sampel error dan data saya menjadi 48 dengan nilai adjs r square 0,63. Untuk nilai adjustd r square sebelumnya apakah memang terlalu rendah sehingga saya harus menggunakan nilai setelah eliminasi? Terima kasih🙏

  10. Mau tanya pak, kalau signifikansi X2 0.978 itu gimana ya pak? sedangkan t hitung hanya 0.028 dan Beta 0.003. Apakah data seperti itu normal pak?
    Tapi itu semua udah lulus uji asumsi klasik

    1. tolong diperjelas lagi istilah signifikansi. krna signifikan itu ada di bagian uji F, uji T. Malah ada juga yang menganggap signifikan itu koefisien. tapi jika signifikan yang dimaksud disini adalah alpha di uji F, maka sebenarnya tidaksignifikan. karena nilai alphanya harus lebih kecil atau sama dengan 0.05 untuk taraf nyata 95%. terima kasih

  11. mau tanya pak, untuk eliminasi outlier adakah aturan tertentu maksimal berapa persentase dari jumlah data yang kita miliki? kalau ada berapa persen ya pak? karena saya baru bisa menormalkan data saya setelah eliminasi 14% dari keseluruhan data saya. Data saya jumlahnya 309 pak

    1. silahkan baca artikel saya yang berjudul “minimal data regresi” ya mas… intinya bukan kepada banyaknya data, melainkan kepada metode sampling. sudah banyak yang menanyakan ini sampai saya tulis artikel khusus. terima kasih

  12. Mas, aku udah coba sesuai tapi masih belum berubah nilai signifikansinya alias masih belum signifikan, mohon petunjuk mas

  13. pak saya ingin bertanya, penelitian saya merupakan data panel dengan menggunakan 63 perusahaan dan periode selama 5 tahun. Saya sudah menguji untuk pemilihan model pak dan hasilnya menggunakan rem yang saya lihat referensi2nya tidak perlu lagi menggunakan asumsi klasik. Untuk uji t hanya 1 variabel yang berpengaruh sedangkan 4 variabel independen lainnya tidak. dan r squarenya hanya 7% pak. Apakah saya bisa konsultasi dengan bapak? kalau bisa lewat apa ya pak karena saya sudah bingung sekali mengenai ini pak. terima kasih banyak sebelumnya pak

    1. Boleh..silahkan gunakan bimbingan statistik. Nanti kita diskusi lewat wa. Atau bisa juga lihat channel youtub “catatan budi”. Saya sudah buat video disana. Terima kasih

  14. salam pak
    bolehkah kalau mau dapatkan khidmat konsultasi bapak 1 to 1 urusan ini?
    bagaimana mau dihubungi pak?

  15. mas… data saya pada awalnya tidak normal dan tidak lolos uji heteroskesdasitas maupun autokorelasi. setelah saya melakukan outlier data sudah normal. tetapi ada satu variabel yang tidak lolos uji heterosnya nilainya 0,000. saya sudah coba berbagai cara tapi nilainya tidak naik naik. tiu bagaimana ya mas solusinya?

  16. Maaf Pak saya ingin menanyakan kenapa hasil R square saya sangan rendah begitupun nilai t hanya 1 yang lolos dari 4 variabel bebasnya Pak. Namun untuk nilai F dan asumsi klasikya sudah lolos Pak.
    Kemudian saya mencoba memasukkan DfFit (ketika uji linearitas) ke dalam variabel bebas (saat proses analisis regresi linear berganda. Dan hasilnya langsung berubah drastis mnjadi sangan bagus Pak. Apakah boleh Pak sperti itu ?

    1. Mbk baru saja memasukkan unsur error kedalam persamaan. Tentu saja hasilnya langsung signifikan. Justru yang menjadi pertanyaan sebenarnya variabel variabel apa yang diluar persamaan dan seharusnya ada dalam unsur error tersebut.
      Tentu saja tindakan ini tidak dibenarkan. Karena apapun modelnya, jika unsur error sudah dimasukkan pasti hasilnya OK.

      Terima kasih

  17. mas ,data saya kok r square sangat rendah., hanya 13.3%., bagaimana jalan keluar nya ?
    atau bagaimana analogi saya jk nnti dosen penguji menanyakan itu knp tlalu rndah

    1. cara termudah pastinya dengan menjelaskan bahwa data yang diperoleh hanya mampu dijelaskan sebesar 13 persen oleh model regresi, sisanya error. lalu yakinkan dosen bahwa sampling sudah tepat digunakan. karena jika datanya ternyata tidak berasal dari sampling yang tepat, biasanya diminta pengambilan data ulang.

      jalan keluar? saya sarankan mbk telusuri artikel2 saya tentang r squared di blog ini, karna kasusnya tidakbisa disamakan. bisa saja terjadi unlinear, atau perlu eliminasi variable, atau eliminasi data pencilan. dsb. terima kasih

  18. Kak kalo boleh penjelasannya itu data yg dari antara 0 sampai 20.000 itu yg mana yg dieleminasi dari data excelnya, apa urutan no 1-5 ? Kenapa bisa tahu itu dieleminasi? Mohon penjelasannya kak… Trmaksih

    1. Dari alatnya sendiri, tujuannya sudah beda ya debora.. jika chi square adalah sebuah uji korelasi kedua kelompok data dimana kedua data tersebut bersakala non parametris.

      Jika yang dimaksud adalah cara mengeliminasi bisa tidak digunakan di chi square? Saya katakan bahwa eliminasi bisa digunakan di semua uji dan analisis, karena eliminasi tergantung dari sample yang digunakan, bukan dari alat aalisisnya. Apakah eliminasi ini mengurangi banyak porsi sehingga mengubah sample dan sampling? Jika iya, maka akan menjadi problem dan kesimpulan yang keliru pada penelitian debora.

      Debora bisa baca artikel saya yang saya tulis akhir akhir ini berjudul: mengapa sampling terkadang tidak dijabarkan di metodelogi?

      Kuatirnya jika kita mengeliminasi yang berlebihan, akan terjadi seperti yang saya ceritakan di artikel tersebut.

      Terima kasih.

  19. Mas saya mau tanya, cara menentukan data yang no berpa saja yang harus di eliminasi dari gambar histogram itu gimna cara tentukannya??”

    1. baik mbk, karena banyak muncul pertanyaan serupa, komen dibawah juga mirip pertanyaannya, saya tulis artikel bagaimana cara mencarinya data pencilan tersebut. silahkan anda cek posting terbaru hari ini. terima kasih

  20. Cara mengetahui data pencilan di row data excel atau sav nya bagaimana ya mas? Karna penjelasan yg mas berikan tidak menyebutkan bagaimana mengetahui data pencilan tersebut di row atau pun coloum yg terdapat pada data kasar dalam bentuk excel atau pun SAV

    1. terima kasih pertanyaannya. cara mengetahui data pencilannya adalah melihat sebaran distribusi normalnya tadi. contoh pada variabel x2 diatas, ada data yang merupakan pencilan dengan nilai x2 sama dengan 200 keatas. kemudian cara mengetahuinya di excell, bisa menggunakan short data atau bisa juga menggunakan short dari nilai terendah ke nilai tertinggi. kemudian data bisa dilihat dibaris mana data pencilan trsebut berada.

    1. pertanyaan simple, tapi terkadang bisa luput dijelaskan ya…heheheheh.. cara mengeliminasinya tinggal di delete saja mas. jika mas menggunakan excel, tinggal di delete row di data pencilan tersebut atau data yang akan dieliminasi. kemudian diinput ulang di software yang mas gunakan.

    2. pertanyaan simple, tapi terkadang bisa luput dijelaskan ya…heheheheh.. cara mengeliminasinya tinggal di delete saja mas. jika mas menggunakan excel, tinggal di delete row di data pencilan tersebut atau data yang akan dieliminasi. kemudian diinput ulang di software yang mas gunakan.

Tinggalkan Balasan ke William Muwira Batalkan balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *