Dari berbagai diskusi tentang regresi, sering dijumpai pertanyaan berapa data minimal yang harus diperoleh untuk mengolah data regresi. Faktanya, banyak buku tentang regresi justru tidak membahas tentang berapa jumlah minimum yang harus dikoleksi untuk bisa melakukan proses regresi seperti regresi berganda, regresi panel, atau regresi logistik.

Dilema yang dirasakan seorang mahasiswa adalah dengan jumlah sample yang terlalu rendah akan menyebabkan error pada perhitungan, pengambilan sample yang banyak akan membutuhkan waktu yang lama.

Pendapat tentang jumlah minimal regresi ini pun sangat beragam, ada yang mengatakan cukup 30 data ada juga yang mengatakan minimal terkumpul 50 data. Mana yang benar?

Mari kita sedikit berpikir logis tentang sebuah penelitian. Penelitian dengan menggunakan data statistik tentu sangat memperhitungkan populasi dan sample. Sample merupakan perwakilan karakteristik dari populasi. Analisa dari dari sample tersebut akan mewakili sifat populasi yang biasa disebut sebagai statistk inferensia. Silahkan baca di kerangka statistik.

Lalu apa pengaruhnya jenis penelitian statistik inferensia tersebut dengan jumlah data minimal regresi?

Populasi

Kita membedakan sebuah penelitian dengan populasi yang besar dan populasi yang sedikit. Pada populasi yang besar tentu keragaman sample dan data cenderung lebih besar dibandingkan populasi yang kecil. Hal ini menyebabkan kemungkinan regresi yang dilakukan akan dijumpai regresi unlinear. Kesalahan pengambilan keputusan akan dijumpai apabila sample yang diambil ternyata hanya mewakili satu blok populasi sehingga regresi kemudian akan bersifat linear.

Lebih mudahnya ibarat kita mengambil gambar kuping gajah untuk mendeskripsikan gajah itu sendiri. Tentu nantinya akan berkesimpulan bahwa gajah berbentuk pipih dan lebar.

Pada populasi yang kecil, karena kecenderungan keragamannya lebih sedikit, maka kemungkinan besar model regresi linear akan dijumpai sehingga pada kesimpulannya akan lebih  mewakili kepada populasi tersebut. Rumus menentukan jumlah sample dari populasi yang biasa digunakan adalah rumus slovin.

Homogenitas

Faktor kedua adalah tentang homogen atau tidaknya populasi tersebut. Ibarat dokter atau analis kesehatan, hanya mengambil beberapa tetes darah untuk mengetahui apa yang sedang terjadi pada tubuh seseorang. Mereka hanya mengambil beberapa tetes, tidak menetapkan 5 persen atau 10 persen dari total darah bukan? Hal ini disebabkan karena darah manusia bersifat homogen sehingga satu dua tetes sudah sangat cukup menjadi sample dari populasi.

Homogen atau heterogen sebuah populasi juga sangat mempengaruhi jumlah sample yang akan diambil. Pertanyaan terbesarnya adalah apakah sample sudah mewakili setiap keadaan yang ada di sebuah populasi? hal ini yang menjadi saran bahwa saat mengambil sample janganlah mengambil hal yang baik atau berhasil saja, melainkan kita juga perlu data sample untuk kelompok yang buruk dan menengah. Pada prosesnya, jenis data yang seragam justru akan menyebabkan complete separation pada regresi logistik atau over fit pada regresi berganda

Kembali kepada pertanyaan diatas. Minimal data 30 atau 50? Jumlah 30 data sudah cukup untuk melakukan proses regresi atau regresi berganda. Tapi, kembali lagi pada penjelasan yang telah disampaikan diatas. Apakah jumlah sample tersebut memang sudah mewakili populasi? Hal ini perlu dijelaskan secara tegas karena penentuan sample dan data bukan berada di wilayah alat penelitian, tetapi berada di wilayah metode sampling. Hal ini menjawab mengapa buku buku text regresi sedikit memberikan informasi tentang jumlah minimum data untuk proses regresi.

Jadi, ketika kamu ditanya dosen tentang berapa data minimal yang digunakan dan mana dasarnya, lebih baik kamu menjelaskan secara metode sampling. Bukan mencari buku tex regresi untuk mencari penguat dari sample yang kamu tentukan.

Berbicara metode sampling terutama rumus slovin, insha allah akan dijelaskan di lain kesempatan.

Terima Kasih, Selamat Belajar!

Silahkan membaca lebih detil di : How many data points are enough?

Peneliti bidang sosial ekonomi pertanian. Pernah bekerja di bidang supply chain. Detil info silahkan kunjungi laman about me.

Join the Conversation

25 Comments

Your email address will not be published. Required fields are marked *

  1. Bang izin bertanya. Didalam penelitian saya ini ada 4 variabel bebas dan 1 variabel terikat yang mana hanya meneliti satu daerah. Disetiap variabel memiliki data dgn periode 10 tahun. Apakah data tersebut sudah terpenuhi bang untuk regresi? Dan juga dengan penelitian seperti diatas bagaimana menentuka t tabel untuk menentukan hipotesa?

    1. jika yang dimaksud 10 tahun adalah 10 data, maka data tersebut kurang banyak untuk dianalisis regresi. Terima kasih

  2. Bang saya mau tanya, untuk penelitian menggunakan regresi linear berganda dg jumlah sampel 17 dan periode penelitian yakni dalam 1 tahun saja tapi pkai data tri wulan, apakah bisa ya bang? apakah benar jumlah sampel jadinya 17 x 4 triwulan = 68

    1. gunakan regresi panel ya mas… silahkan googling apa itu regresi panel. di blog saya juga ada. terima kasih

  3. Assalamu’alaikum bang, izin bertanya bang. saya mahasiswa tingkat akhir bidang sosial ekonomi pertanian. Maksud dari jumlah data tersebut gimana ya bang? soalnya dosen saya selalu meminta memperbanyak tahun dari analisis saya, karena saya hanya menganalisis data cuman 15 tahun dari 1 variabel terikat dan 6 variabel bebas. Maksud jumlah data tersebut apakah jumlah dari data tahunan tersebut atau jumlah datanya secara keseluruhan ya bang?

    1. jumlah data yang dimaksud di artikel ini adalah jumlah data secara keseluruhan atau biasa dinotasikan dengan n. terima kasih

      1. Assalamu’alaikum..
        Terimakasih bang atas jawaban sebelumnya 🙏🏻
        Berarti jumlah data secara keseluruhan dari syarat minimal regresi berganda itu diambil dari jumlah data secara keseluruhan ya bang, bukan dari jumlah data pada setiap variabelnya?

  4. Untuk data tahunan yang di ambil dari kantor dinas apa bisa melakukan regresi dengan total data 8 tahun? Atau harus d atas 15 tahun?

    1. mungkin yang dimaksud adalah jumlah datanya ya? jika data 8 tahun tapi data bulanan, itu sudah banyak. sebaiknya data minimal 15 jumlahnya. terima kasih

  5. Bang, apakah untuk uji validitas dan realiabilitas harus menggunakan responden yg berbeda dengan uji regresi? Jika misalnya untuk uji validitas menggunakan 60 responden, dan untuk uji regresi butuh 100 responden, apakah nanti untuk uji regresi harus mencari responden 100 lagi atau boleh hanya menambahkan sissanya 40 responden lagi? terima kasih bang

  6. assalamualaikum bg saya mau nanya tentang., analisis saya mempunyai sample 5852 data pengambilan data sekitar 97 menit saya ingin mengambil data perwakilannya 100 data mewakili permenit data yang diambil secara acak , apakakah itu bisa bg??

  7. Assalamualaikum kak
    Saya Urfa Alquraeini,ada yang ingin saya tanyakan mengenai minimal jumlah sampel dengan analisis data panel apakah sama dengan regresi linier berganda…dan lebih baik menggunakan eviews atau spss?
    Terima kasih kak

    1. wa alaikum salam. iya mbak.. juga berlaku untuk regresi panel ya… untuk software itu relatif pengguna. klo saya untuk panel malah lebih suka stata. terima kasih

  8. Misi kak, mau tanya untuk penelitian saya hanya 10 populasi. Apakah nanti datanya bisa valid, jika hanya 10 populasi hangat saya jadikan sampel?

    1. klo berbicara populasi, tidak perlu ada analisis inferensia termasuk regresi. yang tepat adalah menggunakan analisis deskripsi.

    1. jika pertanyaannya begitu, jawabannya bisa. jawaban lengkap silahkan baca artikel “data minimal regresi” di blog ini ya mbk..

  9. Jika analisis regresi berganda saya jumlah data 10 apakah kevalidtannya bisa di terima?

    1. hmmm.. sulit menjawabnya. coba cari artikel di blog ini juga yang berjudul data minimal regresi ya.. terima kasih

  10. Pagi pak sy pke regresi brganda dgn spss variabel bebas 3 x1, x2, x3. variabel terikat 1 y. Data time series, 8 tahun sja. Apakah bisa?

  11. assalamualaikum pak,
    saya mau bertanya, data saya kuantitatif tapi di salah satu variabel saya itu rumus nya misal x dibagi y. X nya itu dalam satuan rupiah sedangkan Y nya itu satuan dollar. bagaimana nanti di spss nya pak.
    Apakah saya harus ratakan ke rupiah dulu, baru bisa saya hitung/bagi ?

    1. wa alaikum salam mbk.. sebaiknya jika satuannya disamakan dulu agar nantinya mudah menginterpretasikannya. terima kasih