Data Pencilan: Melanjutkan pembahasan mengeliminasi data responden untuk mendapatkan hasil yang lebih baik, muncul beberapa pertanyaan yang serupa; yakni bagaimana cara mengetahui data pencilan tersebut.
Biasanya data penelitian awalnya diinput di dalam excell sheet. Selanjutnya data di dalam excel tersebut akan digunakan seperti pembahasan deskripsi, pengelompokkan dengan pembuatan grafik dan sebagainya.
Masih di excell sheet, data responden yang diolah juga dapat dilakukan proses eliminasi data responden. Berikut merupakan tahap yang dapat dilalui untuk mengeliminasi data responden tersebut.
Tahap Identifikasi Data Pencilan
Data yang akan dieliminasi adalah data pencilan. Data pencilan merupakan data yang memiliki nilai berbeda diantara yang lain dengan jumlah frekuensi yang sedikit. Sebagai contoh, apabila rata-rata kelompok wilayah data tersebut adalah 25, tiba tiba muncul nilai 80 atau 100. Variance dari kelompok data tersebut akan menjadi tinggi.
Tahap identifikasi bisa dilakukan dengan cara membuat histogram pada data pencilan tersebut, dan sudah saya jelaskan di artikel sebelumnya.
Identifikasi yang diperoleh dari histogram tersbeut diperoleh kesimpulan bahwa terdapat data pencilan data tertinggi yakni range antara 150 sampai dengan 250
Tahap Eliminasi
Timbul pertanyaan lalu bagaimana cara mengeliminasi data tersebut? Perlu dipahami biasanya data pencilan merupakan data yang terlalu tinggi atau terlalu rendah. Dalam histogram dengan perbandingan sebaran normal jelaslah terlihat bahwa data pencilan ini akan menyebabkan sebaran normal seolah olah bergeser kekiri atau kekanan.
Garis sebaran normal akan seolah olah bergeser ke kiri apabila data pencilan tersebut merupakan data yang tertinggi, sebaliknya garis sebaran normal akan seolah – olah bergeser ke kanan jika data pencilan merupakan data yang terendah.
Data tersebut dalam format excell sheet bisa di download disini:
Cara mengeliminasi data tersebut adalah mencari nilai range antara 150 sampai dengan 250 pada variabel X2, yang kemudian mendelete row pada nilai tersebut. Artinya nilai Y dan X1 pada nilai yang bersesuaian nilai X2 tersebut juga ikut dihapus.
Kelemahan cara ini adalah penghapusan dilakukan satu persatu. Jika data yang anda miliki memiliki data yang banyak, maka short nilai x2 terlebih dahulu dari nilai terbesar ke terkecil.
Caranya adalah :
Letakkan kursor di cell X2, kemudian pada tab data, pilih filter. Sehingga pada label setiap kolom pada data muncul tombol.
Klik tombol pada X2, kemudian pilih sort largest to smallest
Data X2 akan diurutkan dari yang besar ke yang kecil. Pada data tiga awal ini lah yang kita cari sebagai data pencilan.
Kita delete sekaligus.
Short data ini bergantung pada data yang anda miliki. Jika data pencilan yang dimaksud adalah data yang terendah, maka short yang dipilih adalah short smallest to largest. Artinya data variabel x akan diurutkan dari nilai terkecil ke terbesar. Dan anda akan segera menemukan data pencian yang dimaksud.
Tahap Evaluasi
Pada tahap evaluasi ini memproses ulang apakah eliminasi yang sudah dilakukan sudah sesuai dengan harapan atau belum; yakni apakah p-value menjadi lebih baik.
Selamat Belajar!
Maaf pak mau tanya, kalau misal di hasil regresinya, dependen variabelnya spt tdk terdeteksi dan tulisannya “influence statistics cannot be computed because the fit is perfect” itu bagaimana solusinya ya?
fit is perfect itu nama lain dari overfit. artinya variabel independennya terlalu berpola, hampir tidak ada errornya. caranya eliminir variabel dependen yang terindikasi overfit atau menggantinya dengan variabel lain. terima kasih