Dari berbagai diskusi tentang regresi, sering dijumpai pertanyaan berapa data minimal yang harus diperoleh untuk mengolah data regresi. Faktanya, banyak buku tentang regresi justru tidak membahas tentang berapa jumlah minimum yang harus dikoleksi untuk bisa melakukan proses regresi seperti regresi berganda, regresi panel, atau regresi logistik.

Dilema yang dirasakan seorang mahasiswa adalah dengan jumlah sample yang terlalu rendah akan menyebabkan error pada perhitungan, pengambilan sample yang banyak akan membutuhkan waktu yang lama.

Pendapat tentang jumlah minimal regresi ini pun sangat beragam, ada yang mengatakan cukup 30 data ada juga yang mengatakan minimal terkumpul 50 data. Mana yang benar?

Mari kita sedikit berpikir logis tentang sebuah penelitian. Penelitian dengan menggunakan data statistik tentu sangat memperhitungkan populasi dan sample. Sample merupakan perwakilan karakteristik dari populasi. Analisa dari dari sample tersebut akan mewakili sifat populasi yang biasa disebut sebagai statistk inferensia. Silahkan baca di kerangka statistik.

Lalu apa pengaruhnya jenis penelitian statistik inferensia tersebut dengan jumlah data minimal regresi?

Populasi

Kita membedakan sebuah penelitian dengan populasi yang besar dan populasi yang sedikit. Pada populasi yang besar tentu keragaman sample dan data cenderung lebih besar dibandingkan populasi yang kecil. Hal ini menyebabkan kemungkinan regresi yang dilakukan akan dijumpai regresi unlinear. Kesalahan pengambilan keputusan akan dijumpai apabila sample yang diambil ternyata hanya mewakili satu blok populasi sehingga regresi kemudian akan bersifat linear.

Lebih mudahnya ibarat kita mengambil gambar kuping gajah untuk mendeskripsikan gajah itu sendiri. Tentu nantinya akan berkesimpulan bahwa gajah berbentuk pipih dan lebar.

Pada populasi yang kecil, karena kecenderungan keragamannya lebih sedikit, maka kemungkinan besar model regresi linear akan dijumpai sehingga pada kesimpulannya akan lebih  mewakili kepada populasi tersebut. Rumus menentukan jumlah sample dari populasi yang biasa digunakan adalah rumus slovin.

Homogenitas

Faktor kedua adalah tentang homogen atau tidaknya populasi tersebut. Ibarat dokter atau analis kesehatan, hanya mengambil beberapa tetes darah untuk mengetahui apa yang sedang terjadi pada tubuh seseorang. Mereka hanya mengambil beberapa tetes, tidak menetapkan 5 persen atau 10 persen dari total darah bukan? Hal ini disebabkan karena darah manusia bersifat homogen sehingga satu dua tetes sudah sangat cukup menjadi sample dari populasi.

Homogen atau heterogen sebuah populasi juga sangat mempengaruhi jumlah sample yang akan diambil. Pertanyaan terbesarnya adalah apakah sample sudah mewakili setiap keadaan yang ada di sebuah populasi? hal ini yang menjadi saran bahwa saat mengambil sample janganlah mengambil hal yang baik atau berhasil saja, melainkan kita juga perlu data sample untuk kelompok yang buruk dan menengah. Pada prosesnya, jenis data yang seragam justru akan menyebabkan complete separation pada regresi logistik atau over fit pada regresi berganda

Kembali kepada pertanyaan diatas. Minimal data 30 atau 50? Jumlah 30 data sudah cukup untuk melakukan proses regresi atau regresi berganda. Tapi, kembali lagi pada penjelasan yang telah disampaikan diatas. Apakah jumlah sample tersebut memang sudah mewakili populasi? Hal ini perlu dijelaskan secara tegas karena penentuan sample dan data bukan berada di wilayah alat penelitian, tetapi berada di wilayah metode sampling. Hal ini menjawab mengapa buku buku text regresi sedikit memberikan informasi tentang jumlah minimum data untuk proses regresi.

Jadi, ketika kamu ditanya dosen tentang berapa data minimal yang digunakan dan mana dasarnya, lebih baik kamu menjelaskan secara metode sampling. Bukan mencari buku tex regresi untuk mencari penguat dari sample yang kamu tentukan.

Berbicara metode sampling terutama rumus slovin, insha allah akan dijelaskan di lain kesempatan.

Terima Kasih, Selamat Belajar!

Silahkan membaca lebih detil di : How many data points are enough?

Peneliti bidang sosial ekonomi pertanian. Pernah bekerja di bidang supply chain. Detil info silahkan kunjungi laman about me.

Join the Conversation

38 Comments

Your email address will not be published. Required fields are marked *

  1. Assalamu’alaikum wrwb mas, saya mau bertanya. Dengan menggunanakan data pada tahun 2014 dan 2018 utk 33 kab/kota, bisakah diolah untuk regresi linier berganda

  2. Permisi kak, saya mau bertanya untuk regresi data panel. untuk time series yang akan saya teliti th 2012-2019 tetapi untuk tahun 2016 data dependen nya tidak tersedia jadi saya cut 2016 untuk seluruh variabel. lalu 2017 data salah satu variabel independennya tidak tersedia sehingga saya cut juga untuk seluruh variabel.
    sehingga time series yang saya regres th 2012-2015 dan 2018-2019, untuk cross sectionnya berjumlah 5. jadi total observasi 30.
    pertanyaan saya, apakah bisa memotong time series seperti yang saya lakukan ini kak? mohon bantuannya. terimakasih.

    1. Menurut saya bisa karena regresi merupakan cara untuk menemukan hubungan variabel independen dan dependen. Kecuali jika topik yang diteliti memang berkaitan erat dengan perubahan waktu. Terima kasih

  3. Halo kak, mohon maaf izin bertanya. Dalam penelitian saya rencananya menggunakan data dari 5 perusahaan dengan periode observasi 10. Sebaiknya metode apa yang digunakan untuk menganalisis data tersebut, apakah menggunakan regresi data panel? Jika iya apakah jumlah data yang digunakan tersebut sudah memenuhi ketentuan? Terima kasih banyak kak.

  4. Halo kak, aku mau bertanya. Total sampelku 36 kemudian saat uji normalitas memakai outlier sehingga sampel menjadi 28. Setelah di uji sampai tahap akhir hipotesis lancar dan aman kak tetapi apakah itu diperbolehkan kak? Karena setau saya spss minimal memakai 30 sampel. Takut jd masalah aja saat sidang nanti huhu:((

    1. halo.. coba diskusikan dengan dosen pembimbing ya kak.. tapi jika SPSS sudah mengeluarkan output, artinya data bisa di proses. jika tidak memenuhi syarat, spss juga akan bilang kok “data tidak memenuhi syarat”. jadi bukan masalah jumlah sample di spss, melainkan lebih masalah di teknik sampling penelitian seperti yang dibahas di artikel ini. terima kasih

  5. Bang izin bertanya. Didalam penelitian saya ini ada 4 variabel bebas dan 1 variabel terikat yang mana hanya meneliti satu daerah. Disetiap variabel memiliki data dgn periode 10 tahun. Apakah data tersebut sudah terpenuhi bang untuk regresi? Dan juga dengan penelitian seperti diatas bagaimana menentuka t tabel untuk menentukan hipotesa?

  6. Bang saya mau tanya, untuk penelitian menggunakan regresi linear berganda dg jumlah sampel 17 dan periode penelitian yakni dalam 1 tahun saja tapi pkai data tri wulan, apakah bisa ya bang? apakah benar jumlah sampel jadinya 17 x 4 triwulan = 68

  7. Assalamu’alaikum bang, izin bertanya bang. saya mahasiswa tingkat akhir bidang sosial ekonomi pertanian. Maksud dari jumlah data tersebut gimana ya bang? soalnya dosen saya selalu meminta memperbanyak tahun dari analisis saya, karena saya hanya menganalisis data cuman 15 tahun dari 1 variabel terikat dan 6 variabel bebas. Maksud jumlah data tersebut apakah jumlah dari data tahunan tersebut atau jumlah datanya secara keseluruhan ya bang?

      1. Assalamu’alaikum..
        Terimakasih bang atas jawaban sebelumnya 🙏🏻
        Berarti jumlah data secara keseluruhan dari syarat minimal regresi berganda itu diambil dari jumlah data secara keseluruhan ya bang, bukan dari jumlah data pada setiap variabelnya?

  8. Untuk data tahunan yang di ambil dari kantor dinas apa bisa melakukan regresi dengan total data 8 tahun? Atau harus d atas 15 tahun?

    1. mungkin yang dimaksud adalah jumlah datanya ya? jika data 8 tahun tapi data bulanan, itu sudah banyak. sebaiknya data minimal 15 jumlahnya. terima kasih

  9. Bang, apakah untuk uji validitas dan realiabilitas harus menggunakan responden yg berbeda dengan uji regresi? Jika misalnya untuk uji validitas menggunakan 60 responden, dan untuk uji regresi butuh 100 responden, apakah nanti untuk uji regresi harus mencari responden 100 lagi atau boleh hanya menambahkan sissanya 40 responden lagi? terima kasih bang

  10. assalamualaikum bg saya mau nanya tentang., analisis saya mempunyai sample 5852 data pengambilan data sekitar 97 menit saya ingin mengambil data perwakilannya 100 data mewakili permenit data yang diambil secara acak , apakakah itu bisa bg??

  11. Assalamualaikum kak
    Saya Urfa Alquraeini,ada yang ingin saya tanyakan mengenai minimal jumlah sampel dengan analisis data panel apakah sama dengan regresi linier berganda…dan lebih baik menggunakan eviews atau spss?
    Terima kasih kak

    1. wa alaikum salam. iya mbak.. juga berlaku untuk regresi panel ya… untuk software itu relatif pengguna. klo saya untuk panel malah lebih suka stata. terima kasih

  12. Misi kak, mau tanya untuk penelitian saya hanya 10 populasi. Apakah nanti datanya bisa valid, jika hanya 10 populasi hangat saya jadikan sampel?

    1. jika pertanyaannya begitu, jawabannya bisa. jawaban lengkap silahkan baca artikel “data minimal regresi” di blog ini ya mbk..

  13. Pagi pak sy pke regresi brganda dgn spss variabel bebas 3 x1, x2, x3. variabel terikat 1 y. Data time series, 8 tahun sja. Apakah bisa?

  14. assalamualaikum pak,
    saya mau bertanya, data saya kuantitatif tapi di salah satu variabel saya itu rumus nya misal x dibagi y. X nya itu dalam satuan rupiah sedangkan Y nya itu satuan dollar. bagaimana nanti di spss nya pak.
    Apakah saya harus ratakan ke rupiah dulu, baru bisa saya hitung/bagi ?