Mengenal Dummy Dalam Regression

Variabel dummy dalam regresi sedikit berbeda dengan variabel lainnya baik dalam pengolahan data ataupun saat membaca hasil regression. Regresi linear atau regresi berganda merupakan suatu fungsi yang menjelaskan hubungan varaibel independen dengan variabel dependen. Satu variabel dependen (Y) biasanya dipengaruhi oleh beberapa varaibel independen (X). misalnya variabel produksi dipengaruhi oleh luas lahan, pupuk, jumlah tenaga kerja, modal.

Regresi memiliki beberapa persyaratan yang harus dipenuhi. Karena regresi masuk dalam statistik parametrik, tentunya variabel-variabel didalamnya memiliki skala interval atau rasio. Selain itu data-data yang akan digunakan juga harus memenuhi kaidah asumsi klasik. Tetapi, dari beberapa variable yang kita gunakan, bisa saja satu atau dua variabel tersebut berupa variabel dalam skala nominal atau ordinal. Variabel skala nominal atau ordinal di dalam regression tersebut biasa dikenal sebagai variabel dummy.

Agar lebih gampang dipahami, saya berikan contoh variabel dummy dalam regression. Misalkan saja kita ingin mengetahui pengaruh jenis kelamin terhadap pendapatan yang dibelanjakan ke mall. Kita buat variabel jenis kelamin dengan nilai 0 untuk laki-laki dan 1 untuk perempuan. Contoh lain, pengaruh keikutsertaan petani dalam keanggotaan kelompok tani terhadap pendapatan. Kita buat variabel keikutsertaan kelompok tani dengan nilai 0 untuk petani yang tidak menjadi anggota, dan 1 untuk petani yang menjadi anggota kelompok tani.

Variabel dummy dalam regresi berbeda dengan regresi logistik. variabel skala nominal di regresi logistik terletak di variabel dependen atau nilai Y. sedangkan dummy yang dimaksud disini adalah variabel skala nominal atau ordinal pada variabel independen (nilai X). bisakah dummy di dalam regresi logistik? jawabannya tentu saja bisa.

Pemberian nilai 0 dan 1 juga memiliki tehnik tersendiri. Agar mudah dalam menginterpretasikan hasil output regression, sebaiknya nilai 1 diberikan kepada responden yang diharapkan memiliki pengaruh terhadap nilai Y. Misalnya contoh keanggotaan petani diatas, saya memiliki hipotesis bahwa keanggotaan ini memilikipengaruh terhadap pendapatan petani. Sehingga saya memberikan nilai 1 terhadap petani yang menjadi anggota kelompok tani. Karena nanti hasil koefisien pada variabel ini merupakan pembeda antara petani yang tidak menjadi anggota dan petani yang menjadi anggota kelompok tani. Jika anda memberi nilainya terbalik, sebenarnya tidak ada yang salah, namun besar kemungkinan nilai koefisien yang keluar nantinya bernilai negatif. Tidak ada yang salah dengan hasil perhitungan tersebut, hanya saja anda perlu mengerti cara menjelaskan nilai negatif tersebut.

Saya akan langsung praktekkan penggunaan variabel dummy dalam regresi di aplikasi minitab.

Saya memiliki data latihan yang bisa diunduh disini:

Data tersebut merupakan data rekayasa yang secara random saya peroleh melalui excell. Terdapat 5 variabel independen, dimana salah satunya yakni variabel X2 merupakan variabel dummy dalam regression.

Mari kita buka minitabnya. Saya menggunakan minitab 17.

Kita masukkan datanya di sheet minitab

Kemudian klik stat – regression – regression – fit regression model

Responses kita masukkan variabel Y, continous preditors kita masukkan X1, X3, X4, X5. Sedangkan variabel X2 yang merupakan variabel dummy dalam regression kita masukkan ke categorical predictors

Klik Ok dan tunggu hasilnya..

Terlihat dari model summary, nilai R-sq pada model memiliki nilai 65.09% artinya bahwa 65% data yang diolah mampu dijelaskan oleh model hasil minitab tersebut. Bisa dikatakan bahwa model ini cukup untuk merepresentasikan data yang ada.

Dilihat dari nilai p value, diantara kelima variabel hanya X2 yang memiliki nilai dibawah 0.05. artinya hanya x2 yang signifikan mempengaruhi nilai Y. dilihat dari nilai VIF, variabel X1 dan variabel X4 memiliki nilai diatas 10, artinya kedua variabel tersebut memiliki masalah multikolinear (sudah saya bahas di uji asumsi klasik).

Asumsi saya bahwa output diatas sudah dibenahi sesuai uji asumsi klasik, saya akan menjelaskan output variabel dummy sesuai tema artikel kali ini.

Pada kolom koeffisien nilai 1 pada variabel X2 memiliki nilai 3876. Artinya bahwa responden yang memiliki nilai 1 secara signifikan memiliki 3876 Y yang lebih tinggi daripada responden yang bernilai 0. Hal ini juga bisa diperoleh dari regression equation pada bagian paling bawah, yakni sbb:

Nilai model regresi saat X2 bernilai 0 adalah : 5468 + 2.89X1 – 19.0X3 – 5.74X4 – 1.49X5. sedangkan model regressi saat X2 bernilai 1 adalah : 9344 + 2.89X1 – 19.0X3 – 5.74X4 – 1.49X5. nilai koefisien 3876 diperoleh dari selisih kedua model tersebut dengan asumsi X1, X3 X4 dan X5 memiliki nilai yang sama.

Sehingga dapat disimpulkan variabel X2 yang bernilai 1 memiliki nilai Y 3876 lebih tinggi daripada variabel X2 yang bernilai 0.

Pahami perbedaan pembacaan koefisien regression lainnya. Karena jika variabel tersebut merupakan variabel continous atau skala interval dan rasio, maka koefisien variabel akan dibaca setiap tambahan satu satuan variabel independen akan meningkatkan variabel dependen sebesar nilai koefisien.

Beda minitab, beda pula SPSS. Saya juga berikan langkah di SPSS karena SPSS juga banyak digunakan. Pada SPSS variabel skala nominal dan ordinal sudah dipisahkan sejak pertama kali diinput, sedangkan prosesnya sama seperti anda melakukan regresi berganda atau linear. SPSS akan mengenali variabel dummy tersebut setelah anda memberi keterangan bahwa variabel tersebut berskala nominal.

Mari kita buka SPSS, kemudian copy data ke sheet spss

Pada tab variabel view, saya menandai keterangan pada X2 bahwa variabel tersebut adalah variabel dummy atau berskala nominal. Erhatikan di tabel measure pada gambar dibawah ini

Kemudian klik analyze – regression –linear. Kemudian masukkan Y pada kolom dependen, dan semua variabel X ke dalam kolom independen dan klik OK

Hasilnya adalah sebagai berikut

Hasil yang diperoleh sama dengan hasil yang dikeluarkan oleh minitab. Nilai koefisien bisa anda lihat di tabel koefisien pada kolom B dengan nilai 3876. Namun, SPSS tidak menyediakan model untuk kedua nilai pada X2 seperti yang dikeluarkan oleh minitab.

Sekian dan terima kasih sudah berkunjung.

note: dikarenakan dummy adalah data yang bersifat ordinal atau nominal, biasanya model yang dihasilkan pada regresi memiliki error yang cukup tinggi. maka ada baiknya anda juga memahami bagaimana cara menghitung error model regression tersebut dengan menyimak video di artikel ini.

silahkan temukan video lain terkait regresi pada laman video tutorial di menu blog ini.

306 pemikiran pada “Mengenal Dummy Dalam Regression”

  1. Assalamualaikum wr.wb. Izin bertanya pak. penelitian saya mencari tahu keefektifan kebijakan kerja sama yang dilakukan oleh pemerintah. Jumlah perjanjian (x) dan terlaksananya perjanjian (y). Kemudian saya menggunakan regresi nominal, untuk membedakannya, jumlah perjanjian (x) menggunakan angka 0 dan terlaksananya perjanjian (y) menggunakan angka 1. Apakah bisa seperti itu pak dan langkah selanjutnya saya harus bagaimana ya pak?

    Balas
    • wa alaikum salam. saya masih tidak paham. X nilainya 0 dan Y nilainya 1? artinya semua nilai dalam variabel x nilainya 0 dan semua nilai Y nilainya 1?
      sepertinya ada yang salah, atau saya yang salah baca mbak?

      Balas
  2. Selamat pagi pak, saya melakukan penelitian menggunakan regresi logistik, selain variabel X dan Y ada variabel Z (moderasi). Apakah variabel moderasi boleh dalam bentuk dummy dalam regresi logistik yang Y nya juga sdh dalam bentuk data dummy?

    Terima kasih

    Balas
  3. assalamualaikum pak, izin bertanya pak penelitian saya menguji pengaruh likuiditas dan leverage terhadap financial distress (dummy) dengan ROA sebagai variabel moderasi, apakah nanti dalam pengujian regresi logistik variabel moderasi ini dimasukan atau tidak ya pak?🙏🏻

    Balas
    • Wa alaikum salam..iya, variabel moderasinya dimasukkan untuk mengetahui peran moderasi variabel tersebut. Tapi perlu dicoba model yang lain (menghilangkan moderasi) dan kemudian membandingkan model model tersebut.

      Balas
      • punten pak saya sudah coba tapi hasil sig. hosmer & lemeshownya 0,058 apakah layak atau tidak ya pak? lalu sebaiknya hrs bagaimana ya pak? sedangkan jika variabel moderasinya tidak dimasukkan nilai sig. nya < 0,05 🙏🏻 terima kasih

        Balas
    • Upayakan perbandingan dummy dengan continous variabel tidak lebih 1 berbanding 2. jawaban saya ini tidak ada dasarnya, hanya berbekal pengalaman saya mengolah data. Terima kasih.

      Balas
  4. Permisi pak saya mau tanya, penelitian saya menggunakan skala rasio untuk variabel independennya, sedangkan variabel dependennya adalah dummy, dosen pembimbing saya mengatakan kalau variabel dummy tersebut perlu dirubah ke rasio, apakah bisa pa? caranya bagaimana ya pa?

    Balas
    • pemahaman saya data yang bisa dikonversi adalah rasio ke nominal (dummy adalah nominal), bukan sebaliknya. misal, data pendapatan bisa kita kelompokkan menjadi pendapatan kecil dan pendapatan besar. namun klo data awalnya adalah data nominal (cuma pilihan pendapatan kecil dan besar), bagaimana mengkonversinya menjadi rasio?? mungkin maksud dosennya mengganti variabel dengan variabel yang berskala rasio. terima kasih.

      Balas
  5. Pagi pak, izin bertanya, kebetulan penelitian awal saya Var. Dependen adl F-Score yg merupakan variabel dummy diolah menggunakan regresi logistik, namun jarna hasilnya tidak bagus dosen menyarankan utk ganti ke linier berganda, hasilnya memang lebih baik. tapi dr dosen menyarankan saya utk mencari alasan ilmiah (tidak disarankan menggunakan alasan hasil penelitian tidak baik) knp variabel dependen dummy diolah menggunakan regresi linier berganda. Terima Kasih

    Balas
    • selamat pagi.. silahkan identifikasi menggunakan grafik regresi untuk melihat apakah benar kecenderungan model yang tepat digunakan dengan linear (regresi berganda), bukan dengan s slope (regresi logistik). cara membuat grafik regresi sudah saya praktekkan di https://youtu.be/-z6WFz9NbR8 . terima kasih

      Balas
  6. Assalamualaikum pak izin bertanya. Saya akan menguji dummy pada Var Independen dan Skala Rasio pada var Dependen. Untuk variabel dummy pada variabel independen bentuk transformasi apa yang dibutuhkan seperti halnya MSI pada skala ordinal? apakah variabel dummy memerlukan transformasi/pengubahan skala data? terimakasih sebelumnya

    Balas
    • wa alaikum salam .. dummy itu skalanya nominal, antara ya atau tidak, antara laki laki atau perempuan, dll. sebenarnya sangat disayangkan jika ada variabel dengan skala rasio kita konversi menjadi dummy. tapi jika terpaksa karna akan menguji dua kelompok, otomatis diperlukan transformasi pengubahan data. terima kasih.

      Balas
    • Wa alaikum salam. Ketika kita membuat dummy 0 dan 1, artinya kita menyiapkan dua kelompok, dan itu harus terisi datanya. Karna akan percuma jika hanya satu kelompok saja, alat apapun tidak bisa melakukan pembedaan pada dua kelompok jika tidak ada wakil dari kedua kelompok. Solusinya ada dua, melengkapi kelompok dummy yang tidak ada, atau menghilangkan variabel dummy. Terima kasih

      Balas
  7. Assalamualaikum, saat ini saya sedang menyusun skripsi dengan jumlah 1 variabel dependen, 3 variabel independenden dan 4 variabel dummy. Pada awal2 data masi bisa diregres tp saat dicoba lagi mengapa datanya tidak dapat diregres. Alasannya kenapa ya pak. Terimakasih

    Balas
    • Wa alaikum salam… Jika lihat komposisi variabel independennya, sepertinya variabel dummynya terlalu banyak.. coba mampir ke channel youtube catatan budi, video berjudul. “Fatal, jangan regresikan data..”

      Terima kasih

      Balas
  8. izin bertanya, saya berencana melakukan penelitian tentang pengaruh pengetahuan (X1), religiusitas (X2), dan persepsi (X3) terhadap minat (Y) melakukan wakaf. untuk data variabel X didapat melalui kuesioner berupa skala likert dengan beberapa butir pertanyaan pada tiap variabel. dan untuk variabel Y menggunakan dummy 1= berminat 0= tidak berminat. Apakah bisa dilakukan regresi probit pada data tersebut. terima kasih

    Balas
  9. Selamat siang Pak.
    Saya ingin bertanya, apabila variabel independen dan 2 variabel moderasi menggunakan dummy, sedangkan variabel dependen menggunakan rasio maka analisis yang tepat menggunakan regresi linier atau logistik?
    Dan apakah penggunaan dummy pada 3 dari 4 variabel akan berpengaruh terhadap penelitian saya?
    Terima kasih.

    Balas
  10. Selamat pagi pak, izin bertanya apabila saya menggunakan variabel dependen yang harus menggunakan dummy seperti misalnya pemilihan metode persediaan jika dinominalkan maka FIFO = 0 dan Average = 1, apakah saya masih bisa menggunakan regresi linear berganda atau saya harus menggunakan regresi logistik untuk mengujinya pak? Terimakasih banyak

    Balas
  11. Assalamualaikum warahmatullahi wabarakatuh.
    Mohon izin bertanya bapak, bisakah variabel independen dengan dummy digunakan untuk regresi linear? Saya sedang meneliti mengenai wtp dan memiliki 5 variabel independen. dari kelima variabel tersebut terdapat 3 variabel yang dummy. Saya sudah mencoba meregresi dengan regresi linear namun r square nya rendah sekali sebesar 0.040.
    Mohon arahan dan bimbinganya bapak. Bagaimana cara menaikan r square tersebut. Apakah karna variabel dummy yang saya gunakan terlalu banyak sehingga hasil r square nya rendah.

    Balas
    • Iya..benar. proporsi dummynya terlalu banyak. Bagaimana pun regresi linear adalah data parametrik. Jadi untuk 5 variabel mungkin hanya 1 yang bisa ditambahkan dummy. Terima kasih

      Balas
      • Assalamialaikum wr wb pak
        Saya mau bertanya kira kira di dalam menggunakan variabel dummy pada variabel independen itu apakah ada batasannya, misalkan saya menggunakan regresi logistik dengan variabel dependen yang dummy, dan 5 variabel independen, apakah saya bisa meletakan 2 variabel dummy di variabel independen? Terima kasih

        Balas
        • belum ada yang menjelaskan batasan dari variabel dummy yang digunakan, namun biasanya akan berdampak pada hasil dan asumsi klasiknya. berapapun variabel dummy yang digunakan jika asumsi klasik semua memenuhi syarat dan hasilnya bagus, maka tidak masalah. hanya saja, karena regresi adalah tools untuk data continous maka sebaiknya komposisi data yang berskala rasio lebih banyak dibanding dummy. saya rasa 2 dummy dari 5 variabel masih OK untuk diteruskan. terima kasih

          Balas
  12. Aswr. Makasih banyak sharingnya.

    Izin bertanya , saya ingin mereplikasi satu jurnal Q2. jurnal tersebut meneliti social capital (X) dan pengaruhnya terhadap mobilitas (Y). Data mobilitas di tahun 2020, sementara pengklasifikasian social capital menjadi kategori dummy (tinggi =1, rendah =0) menggunakan data di tahun 2005. Apakah perbedaan waktu ini justified secara ilmiah? Terima kasih banyak. Salam

    Balas
    • Wa alaikum salam.
      Jika mas bisa membuktikan bahwa kondisi hub kedua variabel tersebut tidak dipengaruhi oleh waktu terutama tahun 2020 dan 2005 maka bisa dijustifikasi. Maksud disini ada kondisi cateris paribus.

      Terima kasih

      Balas
  13. saya meneliti tentang pengaruh pandemi terhadap penjualan UMKM, dimana hasil tersebut menunjukan bahwa hasil coefficient dummy Covid19 saya (-) artinya pandemi menyebabkan penurunan pada penjualan UMKM. Namun untuk membandingkan besaran antara angka 0 = tidak terdampak pandemi covid19 dan 1= terdampak pandemi covid19 itu mengalami besaran yg dimana lebih besar angka dummy 0 dibandingkan 1 karena coefficient nya (-), itu bagaimana ya pak menjelaskannya? Yang saya harapkan adalah UMKM yang terkena dampak dari Pandemi Covid19 disimbolkan dummy 1 harusnya mempunyai besaran lbh tinggi, namun terjadi sebaliknya . Mohon bantuannya pak 🙏🏻

    Balas
    • Ceritanya belum lengkap. Coba tambahkan apa variabel y dan apa sja variabel xnya. Termasuk apakah ini regresi logistik atau berganda?

      Tapi dugaan saya mungkin kesalahan metode sampling. Terima kasih

      Balas
  14. Asalamuallaikum, ada yg ingin saya tanyakan salah satu variabel dummy dalam skripsi saya adalah opini audit, dimana nilai 1 untuk perusahaan yang mendapat opini audit wajar tanpa pengecualian dan nilai 0 untuk sebaliknya. Ketika pra riset ternyata nilai variabel dummy saya 1 semua. Apakah masih bisa di lakukan uji?

    Balas
  15. mau nanya lagi, variabel y saya ini pengungkapan csr, cara mengetahuinya dengan angka 1 untuk mengungkapkan 0 untuk tidak dan ada rumusnya dimana jumlah total yang diungkapkan dibagi dengan jumlah itemnya. contoh yang diungkapkan 50 jumlah item 91 jadi (50/91) nah pertanyaannya ini skala pengukurannya apa ya apakah rasio atau nominal dan pengujianya apakah menggunakan regresi berganda atau logistik, terimakasih

    Balas
  16. jadi apakah boleh menggunakan variabel dummy lebih dari 1 dalam sebuah penelitian. misal ada 4 variabel x ada 2 variabel dummynya. dan apa nanti pengaruhnya saat dalam pengujian di regresi.
    terimakasih

    Balas
    • Variabel dummy gambarannya adalah variabel independen yang berpengaruh langsung terhadap variabel dependen. Skalanya hanya nominal.

      Variabel moderasi gambarannya adalah variabel independen yang berpengaruh langsung dan bisa menjadi jembatan atau penghubung bagi variabel independen lain yang berpengaruh tidak langsung terhadap dependen variabel.
      Skalanya bisa nominal sampai rasio.

      Terima kasih

      Balas
  17. Selamat pagi pak, izin bertanya. Saya sedang melakukan penelitian skripsi dengan regresi logistik karna y saya merupakan variabel dummy. Saya menggunakan 5 variabel x (3 rasio dan 2 dummy) dan 1 variabel moderasi (rasio). Dalam skripsi saya, variabel moderasi digunakan langsung pada 5variabel x saya pak. Yang ingin saya tanyakan, apakah bisa dilakukan perhitungan var moderasi apabila saya memiliki 2 var x dengan skala dummy?

    Balas
    • dummy sebaiknya tidak digunakan moderasi. karna akan menghabiskan variabel lainnya yang mungkin bukan dummy. bayangkan saja, variabel dengan skala rasio akan berubah menjadi dummy karena moderasinya dummy. sayang kan?

      Balas
  18. Assalamualaikum, pak.
    Saya sedang melakukan tugas akhir skripsi dalam bidang manajemen keuangan, dengan profitabilitas sebagai variabel X (rasio), nilai perusahaan sebagai variabel Y (rasio), dan kebijakan dividen sebagai variabel intervening (dummy). Pada uji normalitas data saya tidak normal, kemudian saya transformasi lg10 menjadi normal (pada uji normalitas variabel dummy ini tidak diikut sertakan).
    Pertanyaan saya yaitu pada uji asumsi klasik selanjutnya (multiko, hetero, autokorelasi, dan linearitas) apakah variabel dummy ini di transform juga atau tidak yah pak?

    Balas
  19. Pertanyaan lanjutan saya adakah buku referensi yang bisa saya gunakan sebagai rujukan untuk melakukan regresi linier sederhana dengan salah satu variabel dummy dan uji asumsi klasiknya ..terima kasih bantuan pencerahannya om

    Balas
    • Assalamualaikum pak. Saya mau bertanya, apakah dalam regresi berganda semua variabel independen boleh variabel dummy? Misalkan ada 3 variabel independen ketiganya dummy, dan bagaimana cara membaca hasil regresi pada variabel dummy di spss?

      Balas

Tinggalkan komentar