Jumlah data minimal regresi

Dari berbagai diskusi tentang regresi, sering dijumpai pertanyaan berapa data minimal regresi yang harus diperoleh untuk mengolah data regresi. Faktanya, banyak buku tentang regresi justru tidak membahas tentang berapa jumlah minimum yang harus dikoleksi untuk bisa melakukan proses regresi seperti regresi berganda, regresi panel, atau regresi logistik.

Dilema yang dirasakan seorang mahasiswa adalah dengan jumlah sample yang terlalu rendah akan menyebabkan error pada perhitungan, pengambilan sample yang banyak akan membutuhkan waktu yang lama.

Pendapat tentang jumlah minimal regresi ini pun sangat beragam, ada yang mengatakan cukup 30 data ada juga yang mengatakan minimal terkumpul 50 data. Mana yang benar?

Mari kita sedikit berpikir logis tentang sebuah penelitian. Penelitian dengan menggunakan data statistik tentu sangat memperhitungkan populasi dan sample. Sample merupakan perwakilan karakteristik dari populasi. Analisa dari dari sample tersebut akan mewakili sifat populasi yang biasa disebut sebagai statistk inferensia. Silahkan baca di kerangka statistik.

Lalu apa pengaruhnya jenis penelitian statistik inferensia tersebut dengan jumlah data minimal regresi?

Populasi

Kita membedakan sebuah penelitian dengan populasi yang besar dan populasi yang sedikit. Pada populasi yang besar tentu keragaman sample dan data cenderung lebih besar dibandingkan populasi yang kecil. Hal ini menyebabkan kemungkinan regresi yang dilakukan akan dijumpai regresi unlinear. Kesalahan pengambilan keputusan akan dijumpai apabila sample yang diambil ternyata hanya mewakili satu blok populasi sehingga regresi kemudian akan bersifat linear.

Lebih mudahnya ibarat kita mengambil gambar kuping gajah untuk mendeskripsikan gajah itu sendiri. Tentu nantinya akan berkesimpulan bahwa gajah berbentuk pipih dan lebar.

Pada populasi yang kecil, karena kecenderungan keragamannya lebih sedikit, maka kemungkinan besar model regresi linear akan dijumpai sehingga pada kesimpulannya akan lebih  mewakili kepada populasi tersebut. Rumus menentukan jumlah sample dari populasi yang biasa digunakan adalah rumus slovin.

Homogenitas

Faktor kedua adalah tentang homogen atau tidaknya populasi tersebut. Ibarat dokter atau analis kesehatan, hanya mengambil beberapa tetes darah untuk mengetahui apa yang sedang terjadi pada tubuh seseorang. Mereka hanya mengambil beberapa tetes, tidak menetapkan 5 persen atau 10 persen dari total darah bukan? Hal ini disebabkan karena darah manusia bersifat homogen sehingga satu dua tetes sudah sangat cukup menjadi sample dari populasi.

Homogen atau heterogen sebuah populasi juga sangat mempengaruhi jumlah sample yang akan diambil. Pertanyaan terbesarnya adalah apakah sample sudah mewakili setiap keadaan yang ada di sebuah populasi? hal ini yang menjadi saran bahwa saat mengambil sample janganlah mengambil hal yang baik atau berhasil saja, melainkan kita juga perlu data sample untuk kelompok yang buruk dan menengah. Pada prosesnya, jenis data yang seragam justru akan menyebabkan complete separation pada regresi logistik atau over fit pada regresi berganda

Kembali kepada pertanyaan diatas. Minimal data 30 atau 50? Jumlah 30 data sudah cukup untuk melakukan proses regresi atau regresi berganda. Tapi, kembali lagi pada penjelasan yang telah disampaikan diatas. Apakah jumlah sample tersebut memang sudah mewakili populasi? Hal ini perlu dijelaskan secara tegas karena penentuan sample dan data bukan berada di wilayah alat penelitian, tetapi berada di wilayah metode sampling. Hal ini menjawab mengapa buku buku text regresi sedikit memberikan informasi tentang jumlah minimum data untuk proses regresi.

Jadi, ketika kamu ditanya dosen tentang berapa data minimal yang digunakan dan mana dasarnya, lebih baik kamu menjelaskan secara metode sampling. Bukan mencari buku tex regresi untuk mencari penguat dari sample yang kamu tentukan.

Berbicara metode sampling terutama rumus slovin, insha allah akan dijelaskan di lain kesempatan.

Terima Kasih, Selamat Belajar!

Silahkan membaca lebih detil di : How many data points are enough?

59 thoughts on “Jumlah data minimal regresi

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *