Kehidupan sebagai Penerjemah (2): Metode Penelitian Dalam Psikologi

30 min readJan 9, 2020

Pada 2011, saya menerjemahkan sejumlah karya yang saya pilih dalam bidang psikologi, semata-mata untuk memperkaya materi kuliah Psikologi Umum bagi mahasiswa di fakultas psikologi. Terjemahan ini tidak dimaksudkan pertama-tama untuk dikutip. Kendati demikian, apabila hendak dikutip juga, Anda dapat menerakan hal sebagai berikut di dalam Daftar Pustaka Anda:

Dunbar, G. (2005). Evaluating Research Methods in Psychology: A Case Study Approach (Translator/Penerjemah: Juneman Abraham). Malden, MA: BPS Blackwell.

Dalam psikologi, peneliti berupaya untuk memahami tingkah laku manusia serta menjelaskan kapasitas yang dimiliki seseorang untuk melihat, merasa, berpikir, belajar, berkomunikasi, dan sebagainya. Apabila kita hanya menyaksikan orang dan berbicara dengannya dengan cara biasa, kita tidak akan memiliki pemahaman yang jelas. Pengamatan atau observasi kita sehari-hari itu tidak sistematis. Apabila kita hanya berpikir tentang tingkah laku kita sendiri atau merefleksikan kehidupan mental internal kita sendiri juga tidaklah cukup. Setiap orang, mulai dari Freud sampai dengan ilmuwan kognitif modern, sepakat bahwa ada hal-hal yang luput dari apa yang dapat dilihat oleh “mata mental” kita dalam introspeksi. Lebih buruk lagi, bukti-bukti dari introspeksi seringkali membuat orang yang berbeda sampai pada kesimpulan yang berbeda. Metode introspeksi juga tidak memungkinkan kita untuk menyelidiki kesimpulan manakah yang benar.

Metode-metode penelitian dikembangkan untuk memungkinkan peneliti membuat kesimpulan tentang fenomena yang diminatinya; dalam hal mana kesimpulan yang dicapai dapat pula disetujui oleh orang lain (Dunbar, 2005). Sejumlah topik penelitian dalam psikologi, misalnya, sebagai berikut: (1) bermain video game menyebabkan perilaku agresif, (2) bermain video game meningkatkan keterampilan atensi, (3) anak-anak yang usianya kurang dari satu tahun dapat melakukan operasi matematika tambah dan kurang, (4) intervensi yang berbasiskan pengembangan keterampilan keseimbangan merupakan terapi yang efektif bagi anak disleksia, (5) orang-orang dengan kepribadian pencari ketegangan (thrill-seeking) lebih mungkin mengalami kecelakaan mobil, (6) orang-orang yang minum alkohol akan melihat lawan jenisnya lebih cantik/lebih tampan.

Dalam sejumlah kasus, apabila kita menyimpulkan bahwa pernyataan di atas benar, itu berarti bahwa pernyataan-pernyataan di atas sesuai dengan pengalaman atau harapan kita. Bagi banyak orang, masuk akal bahwa bermain video game akan menimbulkan perilaku agresif karena video game mengandung citra-citra kekerasan, dan melibatkan para pemainnya dalam aksi-aksi simulasi kekerasan. Namun demikian, sebagai ilmuwan kita perlu menguji dugaan-dugaan atau ekspektasi-ekspektasi tersebut. Kita tidak cukup mengandalkan opini bahwa beberapa orang memandang hal tersebut masuk akal. Orang lain mungkin berargumen bahwa video game tidak menyebabkan tingkah laku agresif karena kekerasan hanya disimulasikan, dan pemain dengan mudah memisahkan fantasi dari dunia nyata. Dalam hal ini, penelitian berperan untuk menyediakan bukti untuk membangun konklusi atau kesimpulan yang kuat.

Ketika Anda mengevaluasi sebuah penelitian, Anda mencoba untuk memutuskan kesimpulan (konklusi) apa yang dapat diambil. Peneliti memang menuliskan apa yang mereka pikirkan tentang kesimpulan yang mereka tarik dari penelitian mereka, namun Anda harus membuat penilaian Anda sendiri. Seringkali, Anda tidak akan diyakinkan oleh kesimpulan yang diambil peneliti berdasarkan temuannya. Kesimpulan tersebut mungkin masuk akal, namun ada penjelasan lain yang menurut Anda mungkin (penjelasan alternatif). Ada beberapa aspek dari sebuah penelitian yang dapat Anda kritik.

Pertanyaan Penelitian

Aspek pertama penelitian adalah apakah peneliti telah menyatakan pertanyaan yang akan dijawabnya. Sejumlah pertanyaan penelitian mungkin berkenaan dengan permasalahan yang tidak Anda minati. Orang yang berbeda memiliki agenda yang berbeda dan prioritas yang berbeda. Sebagai contoh, sejumlah orang mendekati topik psikologi perkembangan dari sudut pandang praktik di kelas (sekolah). Orang lain meminati bagaimana menjadi orangtua (parenting). Orang yang lain lagi meminati pertanyaan teoretis umum mengenai pengaruh lingkungan terhadap perkembangan. Masing-masing dari perspektif ini menyoroti persoalan yang berbeda. Sebuah penelitian yang bertujuan untuk meningkatkan praktik di kelas mungkin tidak akan menanyakan tipe pertanyaan yang diminati oleh seorang teoris (ahli teori). Misalnya, praktisi pendidikan di kelas mungkin ingin mengetahui apakah gambar-gambar berwarna membuat buku teks matematika lebih efektif untuk dipelajari. Hal ini menjadi pertanyaan praktis yang penting, namun jawab atas pertanyaan itu mungkin memiliki tingkat kepentingan yang terbatas bagi teori-teori umum tentang perkembangan.

Kadangkala, sebuah proyek riset dapat memunculkan pertanyaan yang terlalu sederhana apabila kita membandingkannya dengan pengetahuan yang sudah ada. Sebagai contoh, sebuah proyek riset yang menanyakan apakah sejumlah aspek perkembangan perilaku disebabkan oleh informasi yang dikode dalam DNA ataukah oleh lingkungan merupakan pertanyaan yang terlalu sederhana. Kebanyakan aspek perkembangan jelas-jelas dipengaruhi oleh genetik dan lingkungan secara bersama, bahwa rancangan genetik tersingkapkan melalui pengaruh lingkungan.

Masalah lain yang dapat Anda jumpai adalah bilamana sebuah proyek riset membuat asumsi-asumsi tentang dunia yang tidak dapat Anda terima. Sebagai contoh, sejumlah program riset telah menyelidiki perbedaan psikologis antar ras. Namun demikian, banyak peneliti tidak menerima bahwa melakukan klasifikasi orang berdasarkan ras adalah sesuatu yang bermakna secara ilmiah. Mereka akan berargumen bahwa variasi antara orang dalam sebuah “ras” sama besarnya dengan variasi antar ras, dan mereka akan menunjukkan bagaimana kultur/budaya yang berbeda akan membuat pembedaan ras. Yang penting diperhatikan adalah bahwa penolakan terhadap asumsi-asumsi harus dibuat dengan dasar ilmiah ketimbang dasar politis. Seberapa banyak variasi genetik dan keperilakuan yang ada dalam ras merupakan persoalan empiris yang dapat ditentukan secara ilmiah, sehingga dapat dijadikan dasar yang sah bagi argumen yang melawan klasifikasi manusia berdasarkan aspek ras?

Kritik yang berkaitan adalah bahwa meskipun pertanyaan penelitian telah dijawab, jawaban tersebut tidak akan membawa kita ke manapun (tidak ada maknanya). Kritik ini seringkali ditujukan bagi penelitian-penelitian perbedaan rasial. Sebuah kritik mungkin berargumen bahwa bahkan meskipun kita menemukan bahwa sebuah ras secara rata-rata kurang inteligen daripada ras yang lain, secara praktis perbedaan ini tidak bermakna apa-apa. Apabila kita mengetahui hal tersebut, apakah kita akan mengubah kebijakan publik? Tentu saja pertanyaan ini terkait dengan politik penelitian (politics of research), yakni apa implikasinya bagi pilihan-pilihan yang kita buat sebagai masyarakat.

Penelitian juga dapat dikritik karena upayanya menjawab penelitian yang bukan termasuk dalam disiplin ilmunya. Sejumlah pertanyaan tidak dapat dijawab hanya dengan metode ilmiah. Sebagai contoh, berapa lama lagi kah Soeharto akan berkuasa apabila gabungan mahasiswa tidak demonstrasi turun ke jalan? Tidak ada cara untuk mengetahuinya! Kita tidak dapat menjalankan kembali skenario kekuasaan Soeharto dengan mahasiswa yang sama, dan memainkan skenario itu dalam pilihan-pilihan dengan atau tanpa demonstrasi turun ke jalan.

Jadi, hal pertama untuk dievaluasi adalah pertanyaan penelitian. Apakah pertanyaan tersebut dapat dijawab? Apakah asumsi-asumsi dari pertanyaan tersebut secara ilmiah dapat diterima?

Jenis Rancangan Penelitian

Ada beberapa tipe desain (rancangan) penelitian. Pembedaan antar desain adalah penting karena desain akan secara langsung membatasi jenis kesimpulan yang dapat diambil dari penelitian tersebut. Kesimpulan terkuat yang kita ingin ambil adalah kesimpulan kausal (sebab-akibat). Sebuah kesimpulan kausal menyatakan bahwa hasil (outcome) tertentu disebabkan oleh sesuatu. Sebagai contoh, apabila saya menekan sebuah tombol pada papan ketik saya, hal ini menyebabkan huruf terkait muncul pada layar komputer. Anda hanya dapat menarik kesimpulan kausal secara valid (jitu) dari rancangan eksperimen sungguhan (true experiment).

Dalam sebuah eksperimen, Anda memanipulasi kondisi dalam hal mana tingkah laku terjadi, dan Anda secara acak menempatkan partisipan dalam kondisi-kondisi yang berbeda.

Ada aspek penting lain dari kausalitas. Penting untuk menyatakan mengapa manipulasi menyebabkan hasil. Hal ini berarti menjelaskan bagaimana mekanisme variabel kausal menimbulkan efek. Sebagai contoh, kita dapat menggunakan sebuah eksperimen untuk memperlihatkan bahwa seekor kucing datang ke pintu rumah kita ketika kita memasukkan kunci ke lubang kunci. Klaim bahwa suara masuknya lubang kunci yang menyebabkan kucing untuk datang ke pintu akan lebih meyakinkan apabila kita dapat menawarkan sebuah mekanisme kausal untuk menjelaskan bagaimana suara kunci mempengaruhi tingkah laku kucing. Hal ini penting karena dua hal. Pertama, kita tidak menginginkan misteri dalam ilmu/sains. Jika Anda membuat klaim bahwa kucing Anda datang ke pintu rumah ketika Anda turun dari bus, jauh sekali dari pintu rumah, banyak orang akan skeptis karena ada sebuah misteri mengenai bagaimana kucing dapat mengetahui bahwa Anda akan segera tiba di rumah. Namun masuk akal untuk mengklaim bahwa kucing mendengar suara sebuah kunci yang dimasukkan ke dalam lubang kunci yang tidak terlalu jauh dan merespons terhadapnya. Kedua, mengetahui mekanisme kausal memberitahukan kita prediksi spesifik yang dapat kita uji. Apabila kucing tadi merespons karena mendengar suara kunci, kita dapat mengujinya dengan menutup telinganya. Prediksinya akan menyatakan bahwa kucing tidak akan datang ketika telinganya ditutup, karena mekanisme kausalnya telah ditutup.

Cara lain untuk mendukung klaim kausal adalah dengan menunjukkan bahwa derajat/tingkat respons bervariasi berbanding dengan variasi magnitud/kekuatan penyebab yang dihipotesiskan. Sebagai contoh, jika Anda menghipotesiskan bahwa alkohol dalam anggur menyebabkan orang bereaksi lebih lambat, maka apabila Anda menunjukkan bahwa dosis alkohol yang lebih tinggi menyebabkan pelambatan yang lebih besar, sehingga kesimpulan kausal akan terdukung.

Jenis rancangan penelitian kedua adalah kuasi-eksperimen. Dalam kuasi-eksperimen, tingkat/derajat yang berbeda dari sebuah variabel independen dikontraskan untuk melihat apakah perbedaan itu berhubungan dengan perbedaan hasil. Namun para partisipan tidak ditempatkan secara acak dalam kelompok-kelompok; melainkan para partisipan diuji dalam kelompok-kelompok yang sudah ada atau sudah terbentuk. Seringkali jenis rancangan ini tidak terhindarkan. Sebagai contoh, penelitian yang mengkontraskan respons laki-laki dan perempuan akan merekrut partisipan yang sudah merupakan laki-laki atau perempuan; tidak ada cara lain. Dalam kasus-kasus yang lain, kuasi-eksperimen dilakukan dalam rangka kemudahan. Sebagai contoh, seorang peneliti yang membandingkan dua metode mengajar akan melaksanakan metode pertama dalam satu kelas, dan menggunakan kelas yang lain untuk metode mengajar kedua. Tidaklah praktis untuk menggabungkan anak-anak dari kedua kelas lalu menempatkannya secara acak dalam dua kelas (random assignment) hanya demi kepentingan penelitian.

Kendala yang ada pada kuasi-eksperimen adalah bahwa Anda tidak dapat yakin bahwa perbedaan antar kelompok merupakan satu-satunya perbedaan yang ada di antara mereka. Sebagai contoh, rerata usia dari satu kelas mungkin beberapa bulan lebih tua daripada kelas yang lain. Apabila kelas yang lebih tua tersebut menunjukkan prestasi yang lebih baik, mungkin saja itu disebabkan karena mereka lebih tua, bukan karena metode mengajar yang diberikan lebih baik. Alasan randomisasi (random assignment) dalam eksperimen adalah untuk berupaya mengeluarkan semua perbedaan lain yang mungkin. Apabila anak-anak secara acak ditempatkan dalam dua metode mengajar, maka dalam jangka waktu yang lama, lintas banyak eksperimen, kita dapat mengharapkan bahwa kedua kelompok memiliki rerata usia yang sama. Kita juga dapat mengharapkan ekualisasi (kesetaraan) secara rata-rata dalam variabel-variabel lainnya.

Rancangan korelasional hendak melihat asosiasi (hubungan) antar dua variabel. Sebagai contoh, kita dapat melihat korelasi antara skor IQ dengan besarnya penghasilan. Jika kita melakukannya, kita biasanya akan menemukan bahwa orang dengan skor IQ yang lebih tinggi akan memiliki penghasilan tahunan yang lebih tinggi. Namun demikian, rancangan korelasional tidak mengizinkan kesimpulan kausal. Hanya karena ada korelasi yang tinggi tidak berarti bahwa orang-orang yang makmur itu kaya karena mereka memiliki skor IQ yang tinggi. Dapat terjadi bahwa, sebaliknya, kemakmuran mereka lah yang menyebabkan mereka memiliki skor IQ yang tinggi. Hal ini dapat terjadi apabila orang-orang kaya mampu untuk memperoleh nutrisi dan pendidikan yang lebih baik. Penjelasan alternatif yang lain adalah adanya variabel yang lain. Sebagai contoh, mungkin orang-orang miskin dalam sampel kita cenderung tinggal dalam wilayah-wilayah yang berbeda dari orang kaya, di mana mereka terpapar polusi lingkungan. Dapat terjadi bahwa polutan lah (bukan hal-hal lain) yang secara langsung terkait dengan kemakmuran yang menyebabkan perkembangan kognitif yang lebih payah.

Rancangan korelasional tidak selalu menggunakan statistik korelasional. Penting pula untuk mengenali rancangan korelasional meskipun menggunakan metode statistik yang lain. Sebagai contoh, peneliti dapat membagi sebuah sampel partisipan kedalam tiga kelompok berdasarkan skor IQ: tinggi, sedang, rendah. Peneliti selanjutnya dapat melakukan ANOVA satu-jalur untuk menguji apakah rerata penghasilan dari kelompok-kelompok tersebut berbeda. Meskipun penelitian ini tidak menggunakan statistik korelasi untuk menguji hipotesis, penelitian ini masih merupakan desain korelasional. Sebabnya, apabila ketiga kelompok tersebut sungguh berbeda dalam hal penghasilan, kita tetap belum mengetahui apakah kemakmuran mempengaruhi IQ, IQ mempengaruhi kemakmuran, atau hubungan yang lain.

Jika rancangan korelasional hanya memungkinkan kesimpulan yang relatif lemah, mengapa peneliti menggunakannya? Mengapa tidak setiap orang melakukan eksperimen saja dalam setiap penelitian? Ada dua jawab. Pertama, sejumlah peneliti memang memilih untuk menghindari rancangan korelasional. Mereka bekerja dalam bidang-bidang psikologi di mana hipotesis-hipotesis dapat diuji secara eksperimental, dan hal ini memungkinkan mereka menarik kesimpulan yang relatif kuat. Namun demikian, banyak peneliti menggunakan rancangan korelasional karena mereka meminati pertanyaan-pertanyaan penelitian yang sulit untuk diteliti secara eksperimental, entah karena alasan praktis atau alasan etis. Sebagai contoh, sulit membayangkan peneliti mampu melaksanakan sebuah eksperimen di mana partisipan secara acak ditempatkan kedalam kelompok-kelompok dengan penghasilan tinggi atau rendah saat kelahirannya untuk melihat apakah penghasilan mempengaruhi inteligensi. Di samping masalah etis [siapakah orangtua yang ingin anaknya ditempatkan dalam kelompok berpenghasilan rendah?], masalah pembiayaan oleh peneliti akan sulit dikelola.

Rancangan keempat adalah studi observasional. Dalam studi observasional, peneliti mengamati dan mencatat perilaku dalam lingkungan alamiah/natural. Keuntungan studi observasional adalah bahwa peneliti dapat melihat tingkah laku yang diekspresikan oleh partisipan yang sebagian besar dihasilkan oleh kemauan/kehendaknya sendiri (volisional). Ketika peneliti eksperimen menyusun tugas atau situasi dalam laboratorium, selalu terdapat kekhawatiran bahwa tingkah laku yang dihasilkan cukup spesifik sesuai dengan kondisi eksperimen. Apabila partisipan mengadaptasikan respons-respons mereka terhadap situasi eksperimen, maka tingkah laku mereka mungkin bukan merupakan cerminan dari tingkah laku mereka dalam situasi yang lain (seperti situasi alami).

Studi-studi observasional dapat berguna untuk menentukan apakah tipe perilaku tertentu sungguh-sungguh terjadi ataukah tidak. Sebagai contoh, sebuah studi observasional dapat mendemonstrasikan bahwa bayi sungguh-sungguh tersenyum kepada ibunya pada usia tertentu. Studi observasional juga berguna untuk menghasilkan gagasan-gagasan pada tahap-tahap awal dari program penelitian. Studi ini sangat berguna bilamana peneliti memiliki pengetahuan yang terlalu sedikit mengenai topik penelitian, atau ingin mengeluarkan ekspektasi/harapan mereka. Sebagai contoh, apabila Anda ingin mengetahui bagaimana dokter ahli bedah memeriksa sebuah kasus, Anda dapat mulai dengan mengobservasi dokter bedah yang sedang bekerja. Anda dapat mengobservasi seberapa sering mereka membuat catatan, kepada siapa mereka berbicara, jenis-jenis pertanyaan apa yang mereka tanyakan, dan sebagainya. Observasi-observasi ini dapat membuat Anda membentuk hipotesis-hipotesis yang nantinya dapat diuji dalam eksperimen formal atau kuasi-eksperimen.

Penelitian observasional juga memungkinkan peneliti untuk mencatat perilaku tanpa mengintervensi ekspresi perilaku tersebut, serta tanpa membuat asumsi-asumsi sebelumnya tentang bagaimana perilaku akan terjadi. Dalam praktiknya, ada tiga cara. Pertama, peneliti akan hampir selalu memiliki sejumlah harapan/ekspektasi mengenai tipe-tipe perilaku apa yang relevan. Sebagai contoh, dalam kasus tadi penulis menyebut “membuat catatan” dan “menanyakan”, namun penulis tidak menyebutkan berapa kali dokter bedah menggaruk dirinya sendiri. Penulis mengasumsikan bahwa menggaruk tidaklah penting, namun, dapat saja penulis keliru. Orang menggaruk dirinya sendiri lebih sering ketika mereka tidak yakin tentang sebuah keputusan. Apabila menggaruk adalah tingkah laku yang penting, maka observasi tadi tidak akan lengkap. Namun demikian, peneliti harus membuat sejumlah seleksi tingkah laku untuk dicatat, apabila ada alasan praktis bahwa tidak cukupnya waktu untuk mencatat semua hal.

Kedua, dalam penelitian observasional, peneliti akan sering menyusun situasi-situasi untuk dialami oleh partisipan. Hal ini memungkinkan kita untuk membandingkan tingkah laku dari partisipan yang berbeda secara lebih mudah. Sebagai contoh, dalam sebuah studi, peneliti membawa dua orang rekan kerjanya. Mereka mengobservasi partisipan yang menyeberang jalan di sekitar kampus. Namun demikian, peneliti “mengirim” mereka ke rute jalan yang sama dengan meminta mereka untuk pergi dan membeli beberapa kue di toko kue kampus. Hal ini memberikan peneliti rangkaian observasi yang lebih sistematis ketimbang hanya mengamati orang berjalan berkeliling sebuah kota, melintasi jalan pada rute-rute yang dipilihnya sendiri.

Ketiga, kita mengenal adanya observasi partisipatif, yakni observasi dalam hal mana peneliti berpartisipasi (ikut serta) dalam sebuah situasi dan melakukan pencatatan peristiwa dan pengalaman yang terjadi. Sebagai contoh, seorang peneliti yang meminati tingkah laku penggemar olahraga dapat bergabung dengan para penggemar sebuah tim sepak bola, namun tidak menyatakan dirinya sebagai seorang psikolog, melainkan mencoba untuk ikut serta sebagai pendukung tim (supporter). Dalam hal ini, peneliti aktif dalam situasi, sekali lagi tanpa diketahui sebagai psikolog. Jelas bahwa tingkah laku peneliti juga mungkin akan berpengaruh terhadap tingkah laku orang yang terjadi dalam situasi tersebut. Meskipun demikian, apabila peneliti para subjek penelitian justru mengetahui bahwa diri mereka sedang diobservasi oleh Anda sebagai seorang psikolog dalam sebuah penelitian psikologis, maka hal ini dapat menciptakan distorsi/bias dalam tingkah laku mereka.

Pembedaan penting lainnya terkait rancangan penelitian adalah pembedaan antara penelitian ekploratori dan penelitian pengujian hipotesis. Idealnya, kita menggunakan teori untuk menghasilkan hipotesis, dan merancang sebuah penelitian untuk menguji hipotesis tersebut. Sebagai contoh, kita memiliki teori tentang mengapa seekor kucing datang ke pintu rumah ketika penghuninya memasukkan kunci ke dalam lubang kunci. Berdasarkan teori tersebut, kita dapat menghasilkan hipotesis bahwa jika kucing dibuat tuli, maka kucing itu tidak akan datang pada saat tersebut. Selanjutnya kita dapat menyusun sebuah eksperimen untuk menguji hipotesis ini. Namun demikian, seringkali pengetahuan yang kita miliki tidaklah cukup memadai untuk dikembangkan dalam rangka pengujian hipotesis ini. Kita mungkin tidak merasa pasti mengenai variabel-variabel penting apa yang mempengaruhi hasil, atau kita mungkin tidak yakin bagaimana cara mengukur variabel tersebut. Penelitian eksploratori mengumpulkan data secara sistematis untuk membantu kita mengembangkan dan memperbaiki pemahaman kita. Pada akhirnya, kita mengharapkan bahwa kita dapat sampai pada suatu titik di mana kita dapat menghasilkan hipotesis untuk diuji.

Program-program penelitian yang baik seringkali mengombinasikan jenis-jenis rancangan penelitian yang berbeda. Pada tahap-tahap awal, peneliti mungkin menggunakan rancangan korelasional atau kuasi-eksperimental untuk menentukan bahwa relasi-relasi tertentu itu ada atau mungkin ada, dan selanjutnya bergerak ke rancangan eksperimental pada tahap-tahap lanjut ketika variabel-variabel yang relevan dan hipotesis-hipotesis yang jelas telah diidentifikasi. Contoh dari dunia kedokteran adalah penelitian yang merelasikan tingkah laku merokok dengan penyakit. Penelitian awal memperlihatkan bahwa orang-orang yang merokok lebih mungkin menderita penyakit serius tertentu. Meskipun demikian, sejumlah orang berargumen bahwa studi-studi korelasional tersebut tidak dapat menentukan hubungan kausal (sebab-akibat). Yang diperlukan adalah penyusunan penelitian eksperimental dalam hal mana subjek-subjek secara acak diminta untuk merokok atau tidak merokok. Tentu saja, oleh karena alasan etis, penelitian ini tidak mungkin menggunakan partisipan manusia. Sebagai gantinya, penelitian menggunakan binatang dan zat-zat atau asap rokok. Jadi, pada tahap yang paling awal, peneliti menggunakan rancangan yang tepat dan praktis untuk memperoleh pemahaman lebih lanjut. Pada penelitian berikutnya, peneliti menggunakan penelitian eksperimental untuk menarik kesimpulan kausal yang lebih kuat.

Reliabilitas dan Validitas

Nilai sebuah penelitian bergantung antara lain pada reliabilitas dan validitasnya. Reliabilitas berurusan dengan konsistensi pengukuran. Pengukuran yang reliabilitasnya tinggi akan memberikan skor-skor yang sama dari waktu ke waktu. Reliabilitas kuesioner biasanya dihitung dan dilaporkan dengan angka. Ada dua cara umum untuk memperoleh angka reliabilitas. Pertama, peneliti dapat mengecek apakah tes yang sama menghasilkan skor-skor yang konsisten (ajek) pada kesempatan-kesempatan yang berbeda. Sebagai contoh, sebuah tes diberikan kepada satu kelompok orang pada suatu hari Senin, dan kemudian pada hari Senin minggu depannya. Korelasi yang tinggi antar dua set skor mengindikasikan reliabilitas tes ulang (test-retest reliability) yang tinggi. Variasi reliabilitas yang lain adalah bentuk alternatif (alternate form) atau bentuk paralel dari tes pada waktu-waktu yang berbeda. Bentuk alternatif menggunakan butir-butir yang serupa (setara) namun tidak identik untuk mengukur konstruk yang sama. Keuntungannya adalah bentuk paralel ini akan mengurangi practice effect, yakni kemungkinan bahwa praktik dengan tes pertama mempengaruhi hasil pada tes kedua.

Cara umum kedua untuk menilai reliabilitas adalah dengan mengevaluasi sebuah tes terhadap tes itu sendiri, atau menghitung konsistensi internal dari tes tersebut. Banyak kuesioner menggunakan sejumlah pernyataan/pertanyaan, dan berupaya untuk memperoleh konstruk psikologis yang sama. Sebagai contoh, sebuah tes ekstroversi mungkin memiliki butir yang menanyakan seberapa seringkah Anda pergi ke pesta, apakah Anda memulai percakapan dengan orang asing, dan sebagainya. Apabila tes tersebut reliabel, respons terhadap semua pertanyaan cenderung memiliki arah yang sama. Artinya, apabila tes reliabel, orang yang mengatakan bahwa mereka suka pergi ke pesta seyogianya cenderung merupakan orang yang memulai percakapan. Pengujian konsistensi internal, seperti tes belah (split-half) atau koefisien alfa (α), merupakan yang paling sering digunakan. Ketika peneliti mengembangkan tes-tes baru, mereka melakukan uji coba (try out) butir-butir yang berbeda, dan menyeleksi atau memilih butir-butir yang menghasilkan konsistensi internal yang paling tinggi.

Validitas menyampaikan informasi tentang properti-properti (atribut-atribut) yang hendak diukur. Sebagai contoh, pengukuran ekstroversi itu valid jika pengukuran tersebut sungguh-sungguh mengukur ekstroversi. Jenis validitas ini disebut sebagai validitas konstruk. Mungkin saja terjadi bahwa sebuah tes secara kebetulan (aksidental) mengukur hal lain yang tidak dimaksudkan/dituju oleh peneliti. Sebagai contoh, seorang peneliti mengukur ekstroversi dengan menanyai orang-orang apakah mereka mengendarai sedan mini ataukah mobil olahraga. Respons terhadap pertanyaan ini mungkin justru memberikan informasi mengenai kemakmuran ketimbang ekstroversi.

Semua aspek penelitian dapat mempengaruhi validitas kesimpulan yang diambil dari penelitian tersebut. Sebagai contoh, apabila partisipan atau material penelitian tidak dipilih dengan baik, atau jika desain penelitian kemasukan variabel-variabel yang tidak ikut diteliti (confounding variables), maka hal-hal ini akan berimplikasi buruk terhadap kesimpulan yang dapat ditarik dari penelitian. Istilah validitas internal digunakan untuk mendeskripsikan keseluruhan hubungan antar variabel yang diukur peneliti dan kesimpulan yang diambil. Sebagai contoh, apabila peneliti membandingkan kelompok dengan tingkat ekstroversi yang tinggi dan rendah, maka untuk melihat kelompok mana yang lebih banyak merokok, validitas internal yang lemah terjadi apabila peneliti menggunakan pengukuran ekstroversi atau kegiatan merokok yang tidak valid dan tidak reliabel, atau apabila ekstroversi “dikacaukan” (confounded) oleh variabel lain, seperti usia, kemakmuran, waktu pengujian, dan lain-lain. Apapun yang memperlemah penyimpulan tentang konstruk psikologis yang sedang kita teliti akan mengurangi validitas internal.

Dalam penelitian, kita melakukan pengujian dalam sebuah situasi spesifik, dengan kelompok orang yang spesifik. Orang selalu sah untuk menanyai Anda, apakah Anda akan memperoleh hasil yang sama dalam situasi yang berbeda, atau dengan orang yang berbeda. Sebagai contoh, apabila peneliti menyelidiki respons-respons emosional dari perempuan terhadap citra video, dapatkah hasilnya digeneralisasikan kepada laki-laki? Atau, digeneralisasikan kepada perempuan yang berada dalam kultur yang lain? Validitas eksternal berurusan dengan generalisasi hasil ke situasi yang lain atau orang yang lain. Sebagai contoh, peneliti yang menyelidiki keamanan jalan akan konsen apakah temuan yang mereka buat di dalam laboratorium akan dapat digeneralisasikan dalam lingkungan jalan yang riil. Konsep terkait yang berdekatan adalah validitas ekologis, yang mempertanyakan apakah tingkah laku yang diteliti berkorespondensi dengan tingkah laku yang akan terjadi pada dunia riil. Sebagai contoh, apabila peneliti menyelidiki proses-proses membaca dalam laboratorium dengan menyajikan kata-kata tunggal pada sebuah layar, bagaimana ia mengetahui apakah proses-proses dan strategi-strategi yang diamati dalam laboratorium merupakan proses-proses dan strategi-strategi yang juga digunakan dalam kegiatan membaca sehari-hari? Mungkin saja partisipan menggunakan, atau bahkan mengembangkan, strategi-strategi khusus (yang tidak biasa digunakan sehari-hari) hanya untuk menanggulangi situasi eksperimental.

Jadi ada konsesi (trade-off) antara validitas internal dan validitas eksternal. Kontrol terbesar dan presisi terbesar dimungkinkan di laboratorium, di mana variabel-variabel dapat diisolasi, dimanipulasi, atau dikontrol; di mana material dapat diseleksi secara hati-hati, dan disajikan dengan waktu yang tepat. Hal ini mengamankan tingkat validitas internal yang tinggi. Namun demikian, ada risiko bahwa penelitian laboratorium menciptakan lingkungan spesial (khusus), yang cukup terpisah (detached) dari situasi sehari-hari; dalam hal mana partisipan menggunakan strategi-strategi kognitif dan keperilakuan yang khusus juga. Sebaliknya, penelitian lapangan (field research) dapat sangat terkontaminasi oleh confounding variables dan bias-bias, dalam hal mana kesimpulan yang diambil menjadi kurang atau tidak bermakna.

Sampel

Penelitian psikologis menggunakan partisipan manusia. Partisipan ini kadangkala direkrut. Ada tiga persoalan mendasar. Pertama, ada sejumlah partisipan yang diteliti. Penelitian-penelitian dengan jumlah partisipan yang sedikit mungkin memiliki kekuatan (power) yang kecil, serta dengan demikian mungkin tidak mampu mendeteksi efek yang sebenarnya ada. Penelitian dengan jumlah partisipan yang sedikit juga hanya dapat memeriksa atau meneliti variabel-variabel independen yang sedikit pula. Panduan mengenai ukuran sampel dapat ditemukan dalam buku-buku teks Statistika, seperti Gravetter dan Wallnau (2008).

Kedua, ada pertanyaan mengenai insentif yang diberikan. Dalam banyak penelitian, khususnya di Amerika (belum menjadi kelaziman di Indonesia), para partisipan merupakan mahasiswa perguruan tinggi yang berpartisipasi karena mereka diwajibkan (untuk memperoleh satuan kredit belajar), atau merupakan sukarelawan yang berpartisipasi karena mereka memang ingin ikut serta (sukarela). Sukarelawan biasanya lebih antusias, kooperatif, dan mudah disenangkan. Partisipan yang merasa tertekan (karena diwajibkan) dapat menjadi bosan dan tidak perhatian. Ketika menafsirkan hasil penelitian, pertimbangkanlah bagaimana faktor-faktor ini dapat mempengaruhi interpretasi terhadap hasil. Sebagai contoh, sukarelawan mungkin lebih mungkin mengalami efek eksperimenter, yang artinya mereka berupaya untuk memberikan respons yang mereka pikir diinginkan oleh peneliti (eksperimenter).

Ketiga, sampel-sampel jarang sekali merupakan sampel representatif atau sampel acak dari keseluruhan populasi. Seringkali kita menggunakan mahasiswa sebagai sampel, yang muda, pandai, dan seringkali berasal dari kelas menengah. Apabila sampel itu sempit, maka penting untuk berhati-hati dalam menggeneralisasikan temuan kepada kelompok-kelompok yang lain. Sebagai contoh, apabila peneliti melakukan eksperimen tentang persepsi warna dengan hanya menggunakan mahasiswa laki-laki sebagai partisipan, maka ia hendaknya berhati-hati dalam menerapkan hasil penelitiannya kepada perempuan, karena kita mengetahui bahwa terdapat bentuk-bentuk buta warna yang hanya dapat dimiliki oleh laki-laki. Namun demikian, kita mungkin dapat menerima apabila hasil tersebut digeneralisasikan kepada laki-laki muda lainnya. Contoh lainnya, apabila seorang peneliti menemukan bahwa mahasiswa perempuan di Indonesia menghabiskan lebih banyak uang untuk berias diri ketimbang untuk membeli buku teks pelajaran, kita tidak dapat menyimpulkan bahwa hal yang sama berlaku bagi profesor laki-laki di Jerman, setidaknya apabila tanpa bukti-bukti lebih lanjut.

Hal tersebut dapat menjadi persoalan khusus untuk tes-tes dan kuesioner-kuesioner standar. Banyak tes menyediakan sistem untuk mengkonversi skor tes mentah (raw scores) menjadi skor baku (standard score). Sebagai contoh, tes-tes IQ mengkonversi skor-skor tes mentah menjadi skor IQ, yang dirancang untuk memiliki rerata 100 dalam populasi keseluruhan. Bagaimana perancang tes mengetahui skor tes mana yang berkorespondensi dengan rerata populasi? Mereka melaksanakan tes dalam sebuah sampel representatif. Skor-skor sampel digunakan untuk mendefinisikan norma skor. Namun demikian, bagi banyak tes, sampel yang digunakan untuk membuat norma merupakan sampel yang spesifik untuk bangsa tertentu. Banyak tes dibuat normanya di Amerika Serikat. Apabila hasil-hasil tes diterapkan dalam populasi yang berbeda, ada hal yang penting diingat, yakni bahwa norma-norma yang digunakan mungkin tidak tepat. Sebagai contoh, seseorang memperoleh skor rendah dalam sebuah tes depresi klinis bukan karena mereka secara klinis mengalami depresi, namun karena dalam budaya mereka tidak biasa untuk merespons pertanyaan seperti dalam situasi tes/ujian.

Material

Dalam banyak eksperimen, partisipan diberikan beberapa tugas. Sebagai contoh, partisipan dapat diminta untuk melihat gambar-gambar dari objek sehari-hari, membaca sejumlah kalimat, atau menuliskan makna dari sebuah frasa. Penting untuk berhati-hati meninjau material yang digunakan, karena pilihan material dapat mendistorsi (membiaskan) hasil penelitian. Sebagai contoh, dalam banyak eksperimen mengenai bahasa, waktu membaca (reading time) diukur. Seorang eksperimenter mungkin ingin menguji apakah kalimat-kalimat akan lebih mudah dibaca apabila kalimat-kalimat tersebut berbentuk kalimat pertanyaan ataukah apabila berbentuk kalimat pernyataan. Penting untuk mengatur bahwa kalimat-kalimat tersebut setara dalam frekuensi penggunaan kata, karena dalam kondisi semua sama, orang-orang membaca kata-kata umum (common words) lebih cepat daripada kata-kata yang jarang (rare words). Apabila material yang digunakan bias sedemikian sehingga kalimat-kalimat pertanyaan memuat lebih banyak kata umum, maka perbedaan dalam waktu membaca mungkin disebabkan oleh frekuensi kata (kata umum atau kata langka digunakan) ketimbang tipe kalimat (pertanyaan atau pernyataan). Sebagai contoh, apabila partisipan membaca kalimat-kalimat pertanyaan lebih cepat, hal ini mungkin disebabkan entah karena kalimat-kalimat tersebut ditulis dalam bentuk kalimat pertanyaan, atau karena kalimat-kalimat tersebut lebih banyak memuat kata umum (kata yang frekuensinya tinggi, sering digunakan), atau kombinasi dari kedua penjelasan tersebut. Kita tidak dapat yakin kesimpulan mana yang hendak kita ambil. Dalam situasi seperti ini, kondisi-kondisi eksperimen berbeda secara sistematis dalam beberapa hal. Satu kondisi: kalimat-kalimat pertanyaan dan kata-kata berfrekuensi tinggi (common words); kondisi yang lain: kalimat-kalimat pernyataan dan kata-kata berfrekuensi rendah (rare words). Kedua variabel tersebut, jenis kalimat dan frekuensi kata, disebut confounded karena tidak dapat diputuskan manakah variabel yang bertanggung jawab bagi perbedaan dalam variabel dependen (waktu membaca).

Masalah umum lainnya berkaitan dengan material penelitian adalah ketika material penelitian telah diketahui sebelumnya oleh partisipan. Dalam banyak penelitian, khususnya dalam psikologi kognitif, peneliti bertujuan untuk menyelidiki proses-proses penalaran dan penyimpulan yang digunakan orang ketika mereka menghadapi situasi baru. Sebagai contoh, dalam penelitian-penelitian tentang pemecahan masalah, partisipan diberikan teka-teki untuk dipecahkan, dan peneliti menyelidiki efek dari variabel-variabel (seperti, apakah masalah diekspresikan dalam istilah-istilah konkret atau abstrak). Namun demikian, apabila masalahnya dan jawabannya sudah diketahui oleh partisipan sebelumnya, maka partisipan dapat memecahkan persoalan tersebut hanya dengan menemukembali (retrieving) jawaban dari memori. Sebagai contoh, apabila Anda diberikan masalah aritmetik “5 + 3 = ?”, Anda mungkin menjawab “8” tanpa harus melakukan artimatika mental apapun; Anda hanya mengingat bahwa jawabannya adalah 8.

Masalah lainnya terkait material adalah tes-tes dan kuesioner-kuesioner yang diselenggarakan atau diadministrasikan lebih dari satu kali kepada para partisipan yang sama. Jelas sekali, kita dapat memperkirakan bahwa tes pertama akan mempengaruhi respons terhadap tes kedua. Pengaruh ini dapat memiliki beberapa bentuk yang berbeda. Yang paling sederhana, partisipan memperoleh keuntungan dari praktik mengerjakan tes pertama dan juga dari familiaritas (keakraban) terhadap butir-butir tes dan format/bentuk tes. Kemungkinan kedua, pada tes kedua partisipan merespons dengan mengingat kembali (recalling) jawabannya pada tes pertama. Sebaliknya, partisipan dapat merespons dengan memberikan jawaban yang berbeda dengan jawaban pada saat tes pertama. Hal ini lebih mungkin terjadi apabila pertanyaan kedua diberikan segera setelah pertanyaan pertama. Hal ini dapat menjadi masalah dalam penelitian perkembangan. Mengapa? Sebab, apabila seorang anak ditanyai pertanyaan yang sama satu kali lagi, mereka mungkin menalar dan menebak bahwa jawaban pertama yang mereka diberikan adalah jawaban yang tidak diinginkan oleh penanya (jawaban salah).

Peneliti menghindari problem tes ulang di atas dengan dua cara. Pertama, mereka merancang ulang eksperimen sehingga tes hanya diberikan satu kali. Kedua, mereka merancang bentuk alternatif dari tes, yang disebut bentuk paralel (parallel forms). Pada pengujian kedua, peneliti memberikan versi tes yang berbeda. Bentuk paralel dirancang untuk mengukur konstruk yang sama, dengan tingkat reliabilitas dan validitas yang sama, namun dengan butir-butir tes yang berbeda.

Hal yang penting diperhatikan adalah bahwa pemahaman partisipan belum tentu sama dengan pemahaman eksperimenter mengenai isi tes atau kuesioner. Hal ini terkait juga dengan instruksi dalam eksperimen. Sebagai contoh, seorang eksperimenter yang meneliti emosi memperlihatkan partisipan sebuah gambar dan menanyainya, “Apakah gambar ini membuat Anda merasa cemas atau depresi?” Dalam psikopatologi, istilah-istilah ini (cemas, depresi) memiliki definisi spesifik. Eksperimenter tidak dapat menganggap begitu saja partisipan memiliki definisi yang sama.

Masalah yang umum terjadi adalah pengkalimatan sebuah pertanyaan yang tidak jelas, ambigu, atau terbuka untuk interpretasi yang keliru. Sebagai contoh, apabila peneliti menanyai, “Seberapa seringkah Anda mencuci rambut Anda akhir-akhir ini?”, maka pertanyaan ini merupakan pertanyaan yang sulit karena kita tidak yakin apa yang dimaksud dengan “akhir-akhir ini”. Apabila sejumlah partisipan menafsirkan “akhir-akhir ini” sebagai “dalam beberapa hari terakhir”, sementara partisipan yang lain menafsirkannya “dalam beberapa bulan terakhir”, maka mustahil bagi kita untuk membandingkan jawaban mereka secara bermakna. Sebagai contoh, jika peneliti menanyai 10 laki-laki dan 10 perempuan, dan semua partisipan tersebut menjawab “dua kali”, kita tidak dapat memastikan apakah laki-laki dan perempuan tersebut mencuci rambutnya sama seringnya, atau justru menafsirkan kata “akhir-akhir” ini dengan cara yang berbeda. Ada masalah yang lebih pelik lagi terkait dengan bahasa. Apabila Anda menanyai pertanyaan dalam urutan yang berbeda, kadangkala Anda akan memperoleh jawaban yang berbeda.

Material juga dapat menjadi usang seiring dengan perubahan sosial atau perubahan masyarakat. Sebagai contoh, butir berikut ini muncul dalam sebuah skala yang dirancang untuk mengukur sifat (trait) kepribadian yang disebut etnosentrisme:

“Zootsuiters prove that when people of their type have too much money and freedom, they just cause trouble.” (Adorno, Frenkel-Brunswick, Levinson, & Sanford, 1950, h. 128)

Apa artinya “zootsuiter”? Dalam pengembangan skala etnosentrisme-nya, Adorno, dkk. membuang butir-butir yang menjadi usang karena butir-butir tersebut terkait dengan peristiwa-peristiwa spesifik yang terjadi pada pertengahan tahun 1940-an.

Prosedur

Cara penyajian tugas kepada partisipan penelitian dapat mempengaruhi hasil penelitian. Ada dua persoalan utama dalam kaitannya dengan prosedur penelitian.

Persoalan pertama adalah efek eksperimenter, dalam hal mana tingkah laku eksperimenter atau semata-mata kehadiran eksperimenter dapat mempengaruhi respons partisipan. Ada risiko bahwa apabila eksperimenter mengetahui hasil yang diharapkan dari eksperimen, hal ini akan mempengaruhi hasil penelitian. Partisipan yang antusias tanpa disadari mencoba untuk “membantu” eksperimenter dengan menerka-nerka hasil apa yang diharapkan dari penelitian itu. Apabila partisipan berperilaku menurut apa yang mereka anggap sebagai harapan eksperimenter, maka hasil penelitian akan bias. Bergantung pada bagaimana partisipan menerka, hasil penelitian dapat mengalami pembiasan mengarah atau pun melawan hipotesis penelitian. Sebaliknya, eksperimenter juga mungkin tanpa disadari menyampaikan respons yang sesuai dengan hipotesisnya. Sebagai contoh, seorang eksperimenter menanyai partisipan manakah dari dua opsi yang akan dipilihnya. Apabila eksperimenter tanpa disadari memodulasi nada suaranya, atau membuat gestur (tingkah laku non-verbal) tertentu ketika menjelaskan opsi-opsi yang ada, maka hal ini dapat mempengaruhi respons. Urutan pemberian opsi juga dapat mempengaruhi hasil penelitian.

Dalam banyak penelitian, respons atau tingkah laku partisipan direkam oleh eksperimenter. Ada kemungkinan bahwa eksperimenter tanpa sadar bias dalam membuat rekaman ini. Sebagai contoh, bayangkan seorang eksperimenter hendak menguji apakah orang mengedipkan matanya lebih sering ketika ia berbohong. Partisipan diminta untuk mengatakan sesuatu yang benar dalam satu kondisi, dan mengatakan sesuatu itu salah dalam kondisi yang lain. Apabila eksperimenter mengetahui kapan partisipan akan berbohong, eksperimenter mungkin bias dalam menghitung jumlah kedipan mata. Masalahnya akan lebih besar lagi apabila pengkodean (coding) respons melibatkan interpretasi subjektif. Sebagai contoh, apabila eksperimenter hendak merekam jumlah berapa kali partisipan mengatakan sesuatu yang “ceria” atau “marah”, hal ini melibatkan penilaian subjektif peneliti.

Solusi pertama untuk permasalahan di atas adalah membuat orang (asisten peneliti) yang memberikan instruksi atau melakukan pencatatan atau perekaman data menjadi tidak sadar (tidak mengetahui) hipotesis penelitian, juga tidak mengetahui kondisi manakah yang akan diuji. Dalam hal ini, asisten peneliti tersebut disebut “buta” (“blind”). Cara lainnya adalah dengan mengotomatisasikan jalannya eksperimen. Dalam banyak eksperimen psikologi kognitif, banyak bagian eksperimen disajikan melalui komputer. Komputer menyajikan percobaan dan mencatat data, dan hal ini tidak akan bias. Dengan memberikan jarak antara eksperimenter (peneliti) dengan proses pengambilan data, masalah efek eksperimenter dapat direduksi atau dikurangi.

Namun demikian, untuk beberapa penelitian, sulit untuk meniadakan eksperimenter dan menggantinya dengan komputer. Contohnya adalah ketika interaksi antar orang dicatat dan dikode dalam kategori-kategori kualitatif. Seseorang perlu menilai setiap bagian dari interaksi dan mengklasifikasikannya, dan orang tersebut seringkali adalah eksperimenter. Hal ini membuka peluang terjadi masalah serupa efek eksperimenter, yang disebut bias eksperimenter. Sebagai contoh, bayangkanlah seorang eksperimenter ingin mengetahui apakah pola-pola komunikasi tertentu lebih sukses daripada pola-pola komunikasi yang lain. Eksperimenter menyusun sebuah situasi di mana dua orang harus berbicara satu sama lain untuk memecahkan sebuah masalah. Eksperimenter akan mencatat apa yang mereka katakan, dan mengkodenya dalam kategori-kategori yang mencerminkan intensi komunikatif dari pembicaraan partisipan. Sebagai contoh, apabila partisipan mengatakan “Arahkan benda itu ke kiri sebanyak 6 sentimeter,” maka ucapan ini akan dikode sebagai sebuah instruksi. Pengkodean ini memerlukan penilaian subjektif. Tidak praktis apabila pengkodean ini tidak dilakukan oleh manusia. Namun apabila seorang eksperimenter melakukannya, ia mungkin tanpa sadar bias dalam pengkodean dengan mengikuti hipotesis eksperimental.

Dalam situasi tersebut, dapat diambil tiga langkah. Pertama, peneliti dapat merekrut peneliti lain (atau, asisten peneliti) dan melatihnya menggunakan sistem pengkodean. Idealnya, asisten peneliti ini tidak diberitahukan baik hipotesis maupun kondisi masing-masing partisipan, setidaknya sampai dengan setelah pengkodean selesai dilakukan. Jadi asisten peneliti dalam hal ini “buta”. Namun demikian, rekrutmen peneliti lain seperti ini bisa saja mahal. Kedua, peneliti dapat membuat kriteria dari setiap kategori sistem pengkodean; kriteria yang seobjektif mungkin. Sebagai contoh, kriteria untuk mengidentifikasikan pembicaraan sebagai instruksi adalah “Dimulai dengan sebuah kata kerja, menunjukkan hal-hal apa yang harus dilakukan oleh orang lain.” Sekali lagi, hal ini seringkali lebih mudah dikatakan daripada dilakukan. Dalam sejumlah kasus, sulit untuk memberikan kriteria objektif. Sebagai contoh, kalimat “Saya akan mengarahkan benda itu ke kiri sebanyak 6 sentimeter” dapat saja merupakan sebuah instruksi dalam konteks tertentu. Ketiga, lebih dari satu orang dapat menjadi pengkode (coder) respons secara independen. Statistik dapat digunakan untuk mengkuantifikasikan sejauh mana kode-kode yang dibuat oleh para pengkode tersebut saling sepakat. Apabila para pengkode yang berbeda membuat penilaian yang serupa, maka hal ini setidaknya menentukan bahwa kode yang dibuat itu reliabel (dapat diandalkan).

Dalam jenis penelitian tertentu, subjektivitas eksperimenter dipandang sebagai karakteristik positif dalam penelitian. Dalam penelitian semacam itu, psikolog biasanya berminat untuk mempelajari cara orang mengalami situasi tertentu. Para peneliti ini menggunakan intuisi dan subjektivitas mereka untuk mencoba masuk dalam perspektif partisipan, dengan mendayagunakan ucapan/pembicaraan atau aspek-aspek tingkah laku lainnya sebagai panduan. Pendekatan penelitian ini disebut pendekatan kualitatif.

Persoalan kedua terkait dengan prosedur penelitian adalah apakah kelompok partisipan yang sama digunakan dalam berbagai kondisi penelitian, ataukah peneliti menggunakan kelompok partisipan yang berbeda untuk kondisi penelitian yang berbeda. Apabila kelompok partisipan yang digunakan berbeda, dapat terjadi kehilangan kekuatan statistik (loss of statistical power) karena dalam kondisi yang berbeda partisipan yang digunakan berbeda. Hal ini menciptakan variasi antar kelompok (between groups variation) yang bukan disebabkan oleh variabel independen, namun disebabkan perbedaan antar partisipan dalam tiap-tiap kelompok.

Dalam rancangan within subjects, setiap partisipan mengalami setiap kondisi penelitian. Hal ini berarti bahwa apabila terdapat perbedaan antar kondisi, maka perbedaan tersebut tidak dapat diatribusikan pada perbedaan antar partisipan (karena partisipannya sama) dalam tiap kondisi. Namun demikian, hal ini berarti juga bahwa perbedaan antar kondisi dapat disebabkan oleh efek praktik atau efek kelelahan (practice effects or fatigue effects). Eksperimenter yang menggunakan within subject designs harus waspada terhadap terjadinya efek-efek ini pada berbagai tingkat variabel independen.

Sebagai contoh, bayangkan seorang peneliti menyelidiki apakah anak-anak mempelajari operasi matematika tambah dan kurang secara lebih mudah. Peneliti membuat dua rangkaian butir soal. Rangkaian pertama merupakan sebuah daftar persoalan yang terdiri atas dua puluh masalah operasi tambah: “1 + 5 = ?; 6 + 2 = ?; …..” dan rangkaian kedua merupakan daftar persoalan yang terdiri atas dua puluh masalah operasi kurang: “5–1 = ?; 6–2 = ?; ….” Peneliti memberikan masalah tersebut kepada sekelompok anak dan memberikan waktu pengerjaan untuk setiap rangkaian soal tersebut. Setiap anak mengerjakan kedua rangkaian tersebut; pertama, rangkaian soal penambahan, dan kedua, rangkaian soal pengurangan. Asumsikan bahwa mereka lebih cepat dua detik pada pengurangan dibandingkan dengan penambahan, dan bahwa selisih atau perbedaan waktu tersebut signifikan secara statistik. Apakah Anda akan menerima kesimpulan bahwa bagi anak-anak, soal-soal pengurangan lebih mudah? Kita sesungguhnya tidak dapat menarik kesimpulan tersebut. Mengapa? Karena boleh jadi mereka lebih cepat mengerjakan soal-soal pengurangan karena soal-soal tersebut diberikan pada urutan kedua, bukan karena soal itu sendiri adalah soal pengurangan. Dengan perkataan lain, anak-anak mungkin mengambil manfaat dari mempraktikkan aritmetik pada rangkaian soal pertama, sehingga praktik itu membantunya untuk mengerjakan dengan lebih baik rangkaian soal kedua (soal pengurangan). Hal ini disebut juga efek urutan (order effects). Peneliti dapat mengatasi atau mengendalikan efek urutan dengan counterbalancing urutan penyajian persoalan. Sebagai contoh, peneliti dapat memberikan kepada separuh partisipan soal-soal penambahan terlebih dahulu, dan kepada separuh partisipan lainnya diberikan soal-soal pengurangan terlebih dahulu. Dengan counterbalancing ini, efek urutan akan memiliki bobot yang sama.

Efek kelelahan terjadi bilamana partisipan menjadi lelah atau bosan oleh kondisi pertama, dan menurun kinerjanya pada kondisi tugas kedua.

Analisis Data

Bab ini tidak berbicara tentang statistika, namun ada sejumlah persoalan pokok terkait statistika yang mempengaruhi penyimpulan penelitian. Penelitian dalam psikologi cenderung menggunakan statistika untuk menghitung probabilitas/peluang memperoleh data yang teramati apabila hipotesis keliru. Apabila probabilitasnya rendah, maka peneliti menolak pandangan bahwa hipotesis keliru. Secara konvensional, probabilitas di bawah 0,05 (5 dari 100 kasus) dianggap “signifikan secara statistik”.

Kebanyakan metode statistik, termasuk metode-metode non-parametrik, menggunakan asumsi-asumsi mengenai data yang dianalisis. Sebagai contoh, analisis variansi (ANOVA) mengasumsikan bahwa data dalam setiap sel rancangan memiliki varians yang sama. Secara umum, penelitian psikologis kurang hati-hati dalam memeriksa asumsi ini. Banyak laporan penelitian gagal menyampaikan apakah asumsi-asumsi statistiknya telah terpenuhi. Apabila asumsi tak terpenuhi, ada risiko bahwa probabilitas yang dikalkulasi tidak mencerminkan probabilitas yang riil secara akurat. Dalam banyak situasi, galat/kesalahan (error)-nya kecil akibat asumsi statistik yang tidak dipenuhi, namun galat dapat menjadi besar.

Batas kritis untuk menyatakan sebuah hasil penelitian signifikan biasanya adalah 0,05 atau 0,01. Angka ini menunjukkan probabilitas yang rendah. Yang penting diingat adalah ada perbedaan yang kecil antara 0,04 dan 0,06. Ketika hasil penelitian jatuh dekat dengan batas kritis (0,05), kita mesti hati-hati menafsirkannya. Angka 0,05 selama ini dipandang sebagai garis batas mutlak antara efek nyata dengan ketiadaan efek. Dewasa ini, kebanyakan statistikawan menyatakan bahwa lebih baik jika peneliti melaporkan angka p (probabilitas) yang eksak ketimbang hanya menyatakan bahwa probabilitasnya di bawah 0,05 (p < 0,05). Ketika menginterpretasikan hasil penelitian, peneliti hendak berupaya menghindari memperlakukan hasil uji signifikansi dengan cara-cara yang “buta”. Maksudnya, peneliti hendaknya peka terhadap perbedaan antara probabilitas yang jelas signifikan (p = 0,01), probabilitas yang marjinal (misalnya, p = 0,06), atau yang jelas tidak signifikan (misalnya, p = 0,5). Probabilitas 0,50 menggambarkan 50 persen peluang memperoleh hasil penelitian apabila tidak ada pengaruh/efek yang disebabkan variabel independen. Namun demikian, probabilitas 0,06 tidak jelas signifikan, tetapi juga bukan indikasi yang pasti bahwa tidak ada pengaruh/efek. Dengan probabilitas marjinal seperti ini, peneliti harus peka. Kita tidak boleh serta-merta menerima atau menolak hipotesis. Sejumlah hal dapat mempengaruhi sulitnya memperoleh hasil yang secara statistik signifikan meskipun efek yang nyata benar-benar ada. Apabila pengukurannya tidak reliabel, atau apabila partisipannya terlalu sedikit, kita makin sulit mendeteksi adanya efek. Juga dapat terjadi bahwa pengukuran tidak cukup sensitif untuk mendiferensiasikan kelompok-kelompok partisipan. Sebagai contoh, apabila peneliti membandingkan inteligensi psikolog dengan inteligensi dokter bedah dengan meminta mereka memberikan definisi terhadap kata-kata “apel”, “mobil”, dan “anjing”, maka kemungkinan besar pengukuran tersebut tidak cukup sensitif untuk memunculkan perbedaan inteligensi. Mengapa? Karena kemungkinan semua orang dapat menjawab ketiganya dengan benar.

Di samping signifikansi statistik, kita juga perlu memperhatikan ukuran pengaruh (effect size). Sebuah hasil penelitian dapat signifikan meskipun efeknya cukup kecil. Signifikansi tidak sama dengan besarnya pengaruh. Hasil penelitian dapat signifikan meskipun perbedaan antar kelompok yang diukur hasilnya cukup kecil, khususnya apabila ukuran sampelnya sangat besar. Ukuran pengaruh (effect size) tidak hanya memberitahukan apakah sesuatu menyebabkan perbedaan, tetapi juga seberapa besar perbedaan yang dibuatnya. Ada dua cara umum untuk mencirikan ukuran pengaruh. Pendekatan pertama berbasiskan jumlah varians di dalam skor-skor hasil yang dapat diatribusikan penyebabnya pada variabel prediktor. Sebagai contoh, bayangkan peneliti menyelidiki konsumsi sup dalam cuaca dingin, dan hipotesis peneliti adalah bahwa orang makan sup panas lebih banyak pada cuaca dingin. Apabila peneliti mengkorelasikan jumlah mangkuk sup yang terjual setiap harinya dengan tingkat suhu, peneliti dapat menguji apakah terdapat relasi atau hubungan yang signifikan. Peneliti juga dapat menguji berapa persen variasi konsumsi sup dari hari ke hari berasosiasi dengan temperatur. Pendekatan kedua adalah dengan mendeskripsikan perbedaan antar dua kelompok atau dua kondisi. Dalam pendekatan ini, perbedaan dibagi dengan simpangan baku (standard deviation) dari skor, dan menghitung berapa simpangan baku kah rerata dua kelompok itu terpisah. Sebagai contoh, bayangkan peneliti menindaklanjuti penelitian korelasional tentang konsumsi sup di atas dengan rancangan eksperimen. Peneliti secara acak menempatkan partisipan kedalam kondisi dengan suhu tinggi dan kondisi dengan suhu rendah, dan mencatat berapa banyak sup yang dimakan. Lagi-lagi, peneliti dapat menggunakan statistika untuk mengetahui seberapa besar peluang untuk memperoleh perbedaan yang terobservasi dalam konsumsi sup apabila temperatur tidak mempengaruhi tingkat konsumsi sup. Apabila probabilitasnya rendah, maka perbedaan konsumsi antar dua kondisi itu dikatakan signifikan. Peneliti juga dapat mengukur effect size-nya. Apabila peneliti menghitung berapa simpangan baku rerata kedua kelompok terpisah, maka peneliti memperoleh indikasi mengenai seberapa besar efek suhu tersebut.

Banyak peneliti sekarang melaporkan interval kepercayaan (confidence interval). Sebuah interval kepercayaan mengindikasikan jangkauan nilai dalam mana rerata populasi berada. Sebagai contoh, apabila peneliti melaporkan bahwa interval kepercayaan 95% untuk konsumsi sup dalam cuaca dingin adalah 2,6 sampai 3,4 mangkuk per minggu; maka artinya adalah bahwa Anda dapat yakin sebesar 95% bahwa jumlah mangkuk sup sesungguhnya yang dimakan dalam cuaca dingin berada dalam kisaran 2,6 sampai 3,4. Interval kepercayaan dapat memberitahukan kita baik signifikansi statistik maupun ukuran pengaruh pada saat yang sama. Katakanlah interval kepercayaan 95% dalam cuaca panas adalah 0,2 sampai 0,8 mangkuk sup per minggu. Kita dapat melihat bahwa kedua interval kepercayaan di atas (dalam kondisi cuaca dingin lawan dalam kondisi cuaca panas) tidaklah tumpang tindih: batas atas (upper limit) jumlah mangkuk sup dalam cuaca panas berada di bawah batas bawah (lower limit) jumlah mangkuk sup dalam cuaca dingin. Hal ini berarti bahwa perbedaan tersebut signifikan. Oleh karena yang digunakan adalah interval kepercayaan 95%, maka kita dapat menyimpulkan bahwa perbedaan tersebut signifikan pada taraf signifikansi 0,05 (diperoleh dari 1,0–0,95). Di samping itu, dengan melihat interval kepercayaan, kita dapat melihat seberapa besar efeknya (ukuran pengaruh): orang-orang makan sup kira-kira dua mangkuk lebih banyak setiap minggunya dalam cuaca dingin. Laporan penelitian yang baik akan melaporkan ukuran pengaruh, atau melaporkan angka-angka yang memungkinkan pembacanya untuk menghitung ukuran pengaruh.

Kompromi atas Keterbatasan Penelitian

Metode-metode penelitian yang baik memungkinkan kita untuk menarik kesimpulan yang jelas (clear). Namun demikian, metode-metode penelitian yang baik kadangkala harus juga memiliki pertimbangan praktis. Setiap peneliti bekerja dengan sumberdaya yang terbatas. Ada keterbatasan waktu, keterbatasan uang, dan sebagainya. Dengan demikian, metode penelitian yang digunakan kadangkala harus menyesuaikan dengan anggaran yang tersedia, dan hal ini kadangkala membuat kita harus kompromi dengan hasil yang tidak sempurna.

Misalnya, untuk menghindari efek eksperimenter atau bias eksperimenter, kita dapat merekrut dan mempekerjakan asisten-asisten penelitian yang “buta” terhadap hipotesis penelitian. Namun demikian, rekrutmen asisten peneliti ini tidak selalu murah, bahkan menimbulkan biaya tinggi.

Waktu yang tersedia juga merupakan keterbatasan yang lain. Eksperimenter tidak dapat membuang-buang waktunya sendiri maupun waktu para asisten penelitiannya. Makin banyak waktu dihabiskan dalam sebuah penelitian, konsekuensi logisnya adalah makin berkurang waktu yang tersedia untuk penelitian-penelitian yang lain. Waktu yang dimiliki partisipan juga penting. Tidak ada orang yang ingin membuang-buang waktu mereka. Makin lama waktu yang dibutuhkan untuk sebuah tes, makin sulit peneliti memperoleh partisipan yang bersedia mengikuti penelitian tersebut. Sebagai contoh adalah tes inteligensi. Wechsler Intelligence Scale (WAIS-R) dikenal secara luas sebagai salah satu instrumen terbaik untuk memeriksa inteligensi. Namun demikian, dibutuhkan dua jam untuk mengadministrasikan versi penuh dari tes ini, dan disyaratkan keterampilan yang tinggi untuk melakukan penyekoran dan interpretasi. Hal ini mungkin baik-baik saja bilamana psikolog berfokus pada klien individual dalam setting klinis, ketika klien sendiri berminat untuk menerima asesmen yang mendalam, dan hasil dari tes ini dibutuhkan untuk membuat pilihan yang mahal di antara berbagai alternatif intervensi/treatment. Namun dalam konteks sebuah proyek penelitian, mungkin kita tidak dapat dibenarkan untuk menggunakan waktu dan biaya sebanyak itu. Versi yang lebih ringkas dari WAIS-R mungkin kita gunakan sebagai alternatifnya. Dari hal ini nampak bahwa kompromi sejauh masih dapat diterima, kadangkala perlu dilakukan oleh peneliti.

Proses Penelitian

Daftar berikut ini merangkum sejumlah pertanyaan pokok yang dapat ditanyakan oleh peneliti kepada dirinya sendiri ketika akan melaksanakan proyek penelitian:

Apakah pertanyaan penelitiannya merupakan pertanyaan yang baik? Apakah hipotesis-hipotesisnya dinyatakan dengan jelas? Apakah hipotesis-hipotesisnya diinspirasikan oleh sebuah teori? Apakah penelitian membuat asumsi-asumsi yang dapat disetujui oleh peneliti? Apakah mungkin untuk menjawab pertanyaan penelitian dengan menggunakan desain penelitian? Apakah desain penelitian mengizinkan penyimpulan hubungan kausal? Apakah partisipan penelitian secara acak ditempatkan dalam kondisi-kondisi? Apakah variabel eksplanatori dimanipulasi oleh eksperimenter? Apakah mekanisme yang masuk akal untuk hubungan kausal dinyatakan?

Apakah penelitian menggunakan desain korelasional? Apakah penelitian ini merupakan penelitian eksploratori?

Apakah sampel partisipan penelitiannya tepat? Apakah penelitian menggunakan jumlah partisipan yang tepat? Apakah sampelnya representatif? Apakah partisipan memperoleh hadiah (reward) atas partisipasinya?

Apakah variabel-variabel penelitian diukur dengan baik? Apakah penelitian memberikan penjelasan yang memuaskan mengenai pengukuran yang dipilihnya? Apakah reliabilitas pengukuran dilaporkan? Apakah penelitian menggunakan tes-tes standar? Apakah pengukuran telah dilakukan dalam penelitian-penelitian terdahulu? Apakah terdapat bukti bahwa pengukurannya valid dan reliabel? Apakah pengukurannya dapat mengukur hal lain di luar konstruk yang menjadi sasaran ukur? Apakah ada variabel-variabel lain yang mengganggu (confounding variables)? Bagaimana material (foto, kalimat, teks, dan sebagainya) diseleksi? Apakah bahasa yang digunakan untuk menjelaskan prosedur atau menanyai pertanyaan dinyatakan dengan jelas?

Apakah prosedur penelitian telah membiaskan temuan penelitian? Apakah orang yang mengumpulkan data dari partisipan mengetahui hipotesis penelitian? Apakah partisipan mengetahui hipotesis penelitiannya? Apakah partisipan mungkin menerka hipotesis penelitiannya? Apakah partisipan jelas-jelas mengerti tugasnya? Apakah ada bukti bahwa partisipan mengerjakan tugas sesuai dengan maksud instruksi penelitian? Apakah tugas-tugas dalam penelitian itu valid secara ekologis? Apakah prosedur penelitian membosankan dan melelahkan? Dapatkah partisipan telah memiliki motivasi tertentu yang mempengaruhi hasil penelitian? Apakah penelitiannya merupakan single-blind? Atau, double-blind (baik partisipan maupun asisten peneliti sama-sama tidak mengetahui hipotesis penelitian)? Apakah partisipan menjalani tes lebih dari satu kali? Dapatkah praktik atau pengetahuan terdahulu dari partisipan mempengaruhi kinerja dalam penelitian?

Apakah data penelitian dianalisis secara tepat? Apakah uji-uji inferensial yang tepat telah digunakan? Apakah dimungkinkan apabila banyak statistik inferensial digunakan? Apakah taraf signifikansi telah diinterpretasikan dengan tepat?

Kehidupan sebagai Penerjemah (2): Metode Penelitian Dalam Psikologi

Written by Juneman Abraham

No responses yet