Pengukuran Psikologi (Defenisi, Sejarah dan Langkah-Langkah Menyusun Alat Tes)

Pengukuran adalah bagian esensial kegiatan keilmuan. Psikologi sebagai cabang ilmu pengetahuan yang relative lebih muda harus banyak berbuat dalam hal pengukuran ini agar eksistensinya, baik dilihat dari segi teori maupun aplikasi makin mantap.

Ilmu pengukuran (measurement) merupakan cabang dari ilmu statistika terapan yang bertujuan membangun dasar-dasar pengembangan tes yang lebih baik sehingga dapat menghasilkan tes yang berfungsi secara optimal, valid, dan reliable. Pengukuran adalah suatu prosedur pemberian angka (kuantifikasi) terhadap atribut atau variable sepanjang suatu kontinum.

Pengukuran itu sendiri, dapat didefinisikan sebagai berikut.

  • measurement is the assignment of numerals to object or events according to rules (Steven, 1946)
  • measurement is rules for assigning numbers to objects in such a way as to represent quantities of attributes (Nunnaly, 1970)
Sedangkan pengukuran psikologi merupakan pengukuran dengan obyek psikologis tertentu. Objek pengukuran psikologi disebut sebagai psychological attributes atau psychological traits, yaitu ciri yang mewarnai atau melandasi perilaku.

Perilaku sendiri merupakan ungkapan atau ekspresi dari ciri tersebut, yang dapat diobservasi. Namun tidak semua hal yang psikologis dapat diobservasi. Oleh karena itu dibutuhkan indikator-indikator yang memberikan tanda tentang derajat perilaku yang diukur. Agar indikator-indikator tersebut dapat didefinisikan dengan lebih tepat, dibutuhkan psychological attributes / traits yang disebut konstruk (construct).

Konstruk adalah konsep hipotesis yang digunakan oleh para ahli yang berusaha membangun teori untuk menjelaskan tingkah laku.

Indikator dari suatu konstruk psikologis diperoleh melalui berbagai sumber seperti hasil-hasil penelitian, teori, observasi, wawancara, elisitasi [terutama untuk konstruk sikap]; lalu dinyatakan dalam definisi operasional.

Kegiatan pengukuran psikologis sering disebut juga tes. Tes adalah kegiatan mengamati atau mengumpulkan sampel tingkah laku yang dimiliki individu secara sistematis dan terstandar.

Disebut “sampel tingkah laku”, karena tes hanya mendapatkan data pada waktu tertentu serta dalam kondisi dan konteks tertentu. Artinya, pada saat tes berlangsung, diharapkan data yang diperoleh merupakan representasi dari tingkah laku yang diukur secara keseluruhan. Konsekuensi dari pemahaman ini antara lain:

  • terkadang hasil tes tidak menggambarkan kondisi pisikologis individu [yang diukur] yang sebenarnya; 
  • hasil tes sangat dipengaruhi oleh faktor situasional seperti kecemasan akan suasana tes itu sendiri, kesehatan, keberadaan lingkungan fisik [mis. ramai, panas dan sebagainya;
  • hasil tes yang diambil pada suatu saat, belum tentu akan sama jika tes dilakukan lagi pada beberapa waktu kemudian [walaupun ini merupakan isu reliabililtas;
  • hasil tes belum tentu menggambarkan kondisi psikologis individu dalam segala konteks.
Pada dasarny tes terdiri dari dua jenis, yaitu:
  • Optimal Performance test: melihat kemampuan optimal individu 
  • Typical Performance test: memuat perasaan, sikap, minat, atau reaksi-reaksi situasional individu. Tes ini sering disebut sebagai inventory test.
PERKEMBANGAN SEJARAH PENGUKURAN PSIKOLOGI

Pada awalnya, pengukuran psikologi umumnya di pengaruhi oleh ilmu fisiologi dan fisika. Oleh karena itu tidak mengherankan jika pengukuran dalam ilmu ini mempengaruhi juga pengukuran dalam psikologi. Karya-karya tokoh dalam bidang psikofisika umumnya mencari hokum-hukum umum (generalisasi). Baru kemudian, terutama karena pengaruh Galton, gerakan “testing” yang mengutamakan ciri-ciri individual menjadi berkembang.

1. Kontribusi Psikofisika

Psikofisika dianggap suatu ilmu pengetahuan yang mempelajari hubungan kuantitatif antara kejadian-kejadian fisik dan kejadian-kejadian psikologis. Dalam arti luas yang dipelajari adalah hubungan antara stimulus dan respon. Seperti telah disebutkan di atas upaya mereka adalah untuk menemukan hokum-hukum umum, seperti misalnya hokum Weber dan Fechner tentang nisbah pertambahan perangsang menimbulkan pertambahan respon (sensasi).

Dalam psikofisika modern, kontribusi Thurstone mengenai “low of comparative judgment” merupakan model yang sangat berharga bagi pengembangan skala-sakala psikologi yang lebih kemudian. Aplikasinya langsung adalah penerapan metode perbandingan-pasangan (paired-comparison)

2. Kontribusi Francis Galton

Sir Francis Galton adalah seorang ahli biologi yang berminat pada factor hereditas manusia. Dia meneliti dan ingin mengetahui secara luas kesamaan orang-orang dalam satu keluarga, dan perbedaan orang-orang yang tidak satu keluarga. Untuk itu, dia mendirikan laboratorium antropometri guna melakukan pengukuran cirri-ciri fisiologis, misalnya ketajaman pendengaran, ketajaman penglihatan, kekuatan otot, waktu reaki dan lain-lain fungsi sensorimotor yang sederhana, serta fungsi kinestetik. Galton yakin bahwa ketajaman sensoris bersangkutan dengan kemampuan intelektual orang.

Galton juga merintis penerapan metode “rating” dan kuesioner. Kontribusi Galton yang lain adalah upayanya mengembangkan metode-metode statistic guna menganalisis data mengenai perbedaan-perbedaan individual. Upaya ini dilanjutkan oleh murid-muridnya di antara mereka itu kemudian menjadi sangat terkenal adalah Karl Pearson.

3. Awal Gerakan Testing Psikologi

Orang yang dianggap mempunyai kontribusi pening dalam gerakan testing psikologi adalah seorang ahli psikologi Amerika, James McKeen Cattell. Disertasinya du Universitas Leipzig mengenai perbedaan individual dalam waktu reaksi. Dia sempat kontak dengan Galton sehingga minatnya terhadap perbedaan individual semakin kuat. Dia sependapat dengan Galton bahwa ukuran fungsi intelektual dapat dicapai melalui tes diskriminasi sensoris dan waktu reaksi.

Tes yang dikembangkan di Eropa pada akhir abad XIX cenderung meliputi fungsi yang lebih kompleks. Salah satu contohnya adalah tes Kraepelin. Tes Kraepelin berupa penggunaan operasi-operasi arithmatik yang sederhana dirancang untuk mengukur pengaruh latihan, ingatan dan kerentanan terhadap kelelahan dan distraksi. Awalnya tes ini dirancang untuk mengukur karakteristik pasien-pasien psikiatris. Oehr, mahasiswa kraepelin, menyusun tes persepsi, ingatan, asosiasi dan fungsi motorik guna meneliti interrelasi fungsi-fungsi psikologis. Ebbinghaus mengembangkan tes komputasi aritmatik, luas ingatan, dan pelengkapan kalimat.

Dalam pada itu, di Prancis, Binet dan Henri mengajukan kritik terhadap tes yang ada dewasa itu terlalu sensoris, berkonsentrasi pada kemampuan khusus. Mereka menyatakan bahwa dalam pengukuran fungsi-fungsi yang lebih kompleks, presisi kurang perlu karena perbedaan individual dalam fungsi yang lebih besar. Yang perlukan adalah tes yang mengukur fungsi yang lebih luas, seperti ingatan, imajinasi, perhatian, pemahaman, kerentanan terhadap sugesti, apresiasi estetik, dan lain-lain. Gagasan inilah yang akhirnya menuntun dikembangkannya tes Binet, yang kemudian menjadi sangat terkenal.

4. Binet dan tes intelegensi

Seperti penjelasan diatas, Binet menyusun alat tes. Tes yang disusun oleh Binet dan Simon tahun 1905 disebut menghasilkan skala Binet-Simon. Skala ini terkenal dengan nama skala 1905. Skala ini pada awalnya untuk mengukur dan mengidentifikasi anak-anak yang terbelakang agar mereka mendapatkan pendidikan yang memadai. Skala ini terdiri dari 30 soal disusun dari yang paling mudah ke yang paling sukar.

Pada skala versi kedua tahun 1908, jumlah soal ditambah. Soal-soal itu dikelomokkan menurut jenajng umur berdasar atas kinerja 300 orang anak normal berumur 3 sampai 13 tahun. Skor seorang anak pada seluruh perangkat tes dapat dinyatakan sebagai jenjang mental (mental level) sesuai dengan umur normal yang setara dengan kinerja anak yang bersangkutan. Dalam berbagai adaptasi dan terjemahan istilah jenjang mental diganti dengan umur mental (mental age), dan istilah inilah yang kemudian menjadi popular.

Revisi skala ketiga skala Binet-Simon diterbitkan tahun 1911, beberapa bulan setelah Binet meninggal mendadak. Pada tahun 1912, dalam Kongres Psikologi Internasional di Genewa, William Stern, seorang ahli psikologi Jerman, mengusulkan konsep koefisien Intelegensi yaitu IQ = MA/CA. Konsep ini yang dipakai dalam skala Binet yang direvisi di Universitas Stanford, yang terkenal dengan nama Skala Stanford-Binet yang diterbitkan tahun 1916, kemudian revisinya tahun 1937 dan revisi selanjutnya tahun 1960. Skala Stanford-Binet inilah yang selanjutnya diadaptasikan kedalam berbagai bahasa dan digunakan secara luas dimana-mana. Kecuali itu skalaStanford-Binet juga menjadi model Pengembangan berbagai tes intelegensi lain.

5. Testing Kelompok

Tes Binet yang dijelaskan diatas adalah merupakan tes individual, artinya tes yang harus diberikan per orang. Karena kebutuhan yang makin mendesak, maka dikembangkanlah tes kelompok. Hal ini di latar belakangi pada saat perang dunia I, kebutuhan akan tes kelompok ini sangat dibutuhkan untuk tes calon tentara. Maka, komite psikologi yang diketuai Robert M. Yankes, menyusun instrument yang dapat mengklasifikasi individu tetapi diberikan secara kelompok. Dalam konteks semacam ini, tes intelgensi kelompok yang pertama dikembangkan. Di dlam tugas ini para ahli psikologi militer menghimpun semua tes yang ada, terutama tes intelegensi kelompok kaya Otis yang belum dipublikasikan. Tes itu di susun Otis waktu dia menjadi mahasiswa Terman di Stanford. Dalam karya Otis itulah format pilihan ganda dan lain-lain format tes objektif mulai digunakan.

Tes yang dikembangkan oleh ahli psikologi dalam militer itu kemudian terkenal dengan nama Army Alpha dan Army Beta. Setelah perang berakhir maka tes-tes tersebut dilepaskan untuk umum. Dan ini lalu mendorong pengembangan dan penggunaan tes kelompok secara luas. Karena optimisme yang berlebihan, maka penggunaan tes kelompok itu seringkali didasarkan pada sikap naïf, dan ini ternyata merugikan perkembangan testing psikologi.

6. Pengukuran Potensial Intelektual


Walaupun tes intelegensi dirancang untuk fungsi-fungsi intelektual yang luas ragamnya guna mengestimasikan taraf intelektual umum individu, namun segera nyata bahwa liputan tes intelegensi itu sangat terbatas. Tidak semua fungsi penting tercakup. Dalam kenyataannya kebanyakan tes intelegensi terutama mengukur kemampuan verbal, dan dalam kada lebih sedikit kemampuan menangani relasi-relasi numeric, simbolik dan abstrak. Didalam praktek diperlukan instrument yang dapat mengukur kemampuan-keampuan khusus, misalnya kemampuan mekanik, kemampuan klrikal, bahkan bakat music. Karena desakan kebutuhan praktis dalam berbagai bidang misalnya dalam bidang bimbingan dan konseling, dalam pemilihan program studi, dalam penempatan karyawan, dalam analisis klinis, dan sebagainya, maka upaya pengembangan tes potensial individu khusus itu dilakukan. Dalam pada itu dapat dimamfaatkannya metode analisis factor mempercepat laju upaya ini. Hal lain yang perlu dicatat adalah kontribusi pada psikolog militer Amerika selama Perang Dunia II. Kebanyakan penelitian di kalangan militer didasarkan pada analisis factor dan diarahkan kepada pengembangan multiple aptitude test batteries.

7. Tes Hasil Belajar
Pada waktu para ahli psikolog sibuk mengembangkan tes intelegensi dan tes potensial khusus, ujian-ujian tradisional di sekolah-sekolah mengalami perbaikan teknis. Terjadi pergeseran dari bentuk esai ke ujian tes objektif. Pelopor perubahan ini adalah penerbitan The Achievement Test pada tahun 1923. Dengan tes ini dapat dibuat perbandingan beberapa sekolah pada sejumlah mata pelajaran dengan menggunakan satu norma. Karakteristik yang demikian itu merupakan penerapan tes hasil belajar baku yang berlaku sampai sekarang.

8. Tes Proyektif

Pada awal abad XX kelompok psikiater dan psikolog yang berlatar belakang Psikologi Dalam di Eropa berupaya mengembangkan instrument yang dapat digunakan untuk mengungkapkan isi batin yang tidak disadari. Seperti telah diketahui, bahwa dalam Psikologi Dalam (terutama aliran Freudian dan Jungian) ada kelompok proyeksi sebagai salah satu bentuk mekanisme pertahanan. Dalam mekanisme pertahanan individu secara tidak sengaja menempatkan isi batin sendiri pada objek di luar dirinya dan menghayatinya sebagai karakteristik objek yang diluar dirinya itu. Berdasar atas konsep inilah tes proyeksi itu disusun.

Pelopor upaya ini adalah Herman Rorschach, seorang psikiater dari Swiss. Selama 10 tahun (1912 – 1922) Herman Rorschach mencobakan sejumlah besar gambar-gambar tak berstruktur untuk mengungkapkan isi batin tertekan pada pasiens-pasiennya. Dari sejumlah besar gambar-gambar tersebut akhirnya dipilih 10 gambar yang dibakukan, dan perangkat inilah yang kemudian terkenal dengan nama Tes Rorschach. Setelah itu sejumlah upaya dilakukan untuk mengembangkan tes proyektif yang lain, dan hasilnya antara lain Holtzman Inkbold Technique, Themaatic Apperception Test, Tes Rumah Pohon dan Orang, Tes Szondi, dan yang sejenisnya.

Langkah-langkah menyusun alat test Psikologi


Langkah-langkah menyusun alat tes psikologis:

1. Identifikasi tujuan penggunaan tes
2. Identifikasi domain tingkah laku dan indikator-indikator yang mewakili konstruk

3. Membuat test specification (kisi-kisi)


4. Menulis item berdasarkan kisi-kisi dengan memperhatikan kriteria penulisan item

Untuk menuliskan item dengan baik, ada sejumlah kriteria seperti yang dikemukakan oleh Wang (1932), Thurstone (1929), Bird (1940), Edwards dan Kilpatrick (1948). Kriteria tersebut pada awalnya digunakan untuk menyusun skala sikap, namun akan juga membantu untuk menyusun item dari skala lain.

Kriteria-kriteria penulisan item adalah sebagai berikut.

  • Menghindari pernyataan yang lebih mengarah ke masa lalu, bukan masa sekarang. 
  • Menghindari pernyataan mengenai sesuatu sudah jelas jawabannya.
  • Menghindari peryataan yang ambigu (memiliki banyak arti).
  • Menghindari pernyataan yang tidak relevan dengan objek sikap yang dibahas.
  • Menghindari pernyataan yang didukung oleh hampir semua orang atau hampir tidak ada yang mendukung.
  • Membuat pernyataan yang dipercaya untuk mencakup secara keseluruhan minat dalam pembuatan skala sikap.
  • Bahasa yang digunakan dalam sebuah pernyataan harus jelas, sederhana dan langsung.
  • Pernyataan harus pendek, biasanya tidak lebih dari 20 kata.
  • Setiap pernyataan haya memliki satu pemikiran saja.
  • Menghindari pernyataan-peryataan yang mengandung unsur universal dan yang menciptakan ambiguitas, seperti semua, selalu, tidak ada, dan tidak pernah.
  • Harus memperhatikan pernyataan-pernyataan yang menggunakan kata hanya, cuma, sering/melulu. Apabila mungkin, pernyataan harus dibuat dengan form kata-kata yang sederhana bukan dengan kata-kata yang menyulitkan.
  • Menghindari penggunaan kata-kata yang tidak dapat dimengerti oleh responden.
  • Menghindari pernyataan yang mengandung double negatives.    
5. Review item dan merevisi item, berdasarkan definisi operasional dari konstruk yang diukur, kisi-kisi dan kriteria penulisan item

6. Melakukan uji coba:

  • Tentukan sampel yang mewakili populasi yang dituju untuk uji coba 
  • Administrasikan uji coba
  • Pengujian psikometri: analisis item, uji validitas dan reliabilitas
Analisis item:

Analisis item adalah suatu kegiatan yang bertujuan untuk menganalisis apakah item-item pada suatu alat tes telah memenuhi fungsinya, yaitu:

    * Mewakili domain tingkah laku
    * Memiliki derajat kesulitan yang tepat
    * Memiliki daya diskriminasi yang maksimal

Menurut Kaplan & Saccuzzo (2005), analisis item adalah kegiatan mengevaluasi item-item alat tes. Dari kegiatan ini diharapkan didesain sebuah alat tes dengan jumlah item minimum, namun reliabilitas dan validitas yang maksimum.

Analisis item dapat dilakukan secara kualitatif dan kuantitatif.

  •  Kualitatif; menyangkut keterwakilan tingkah laku domain menjadi item dalam alat tes (konten dan form)à content validity (menyangkut expert judgement) 
  • Kuantitatif; dibagi menjadi item difficulty & item discriminant.
Item difficulty merupakan presentase (proporsi) orang yang menjawab item dengan benar (P), sedangkan, item discriminant adalah perbandingan antara proporsi orang yang menjawab benar dalam kelompok upper dengan proporsi orang yang menjawab benar dalam kelompok lower. Perbedaan proporsi ini disebut sebagai index of discrimination (D).

Uji Validitas:


Validitas adalah ketepatan mengukur konstruk, menyangkut: “what the test measure and how well it does” (Anastasi, 1990), atau “apakah alat tes memenuhi fungsinya sebagai alat ukur psikologis?” (Nunnaly, 1978).

Prosedur validitas:
    * Criterion-related validation: memprediksi dan mendiagnosa.


Criterion-related melihat validitas tes dalam memprediksi suatu tingkah laku. Criteria adalah tingkah laku yang hendak diramalkan. Jenis validitas ini dibagi menjadi dua yaitu, predictive dan concurrent. Predictive berguna untuk memprediksi suatu tingkah laku, memvalidasi tes-tes seleksi dan penempatan, yang kriterianya diambil setelah interval waktu tertentu. Concurrent digunakan untuk mendiagnosa suatu tingkah laku terutama kepribadian yang kriterianya diambil bersamaan dengan saat pengetesan.

    * Content-related validation: merepresentasikan materi (domain behavior)
Sejauh mana peneliti yakin bahwa item-item sudah merepresentasikan sample tingkah laku à perlu batasan tingkah laku à definisi operasional à domain. Di dalamnya terdapat expert judgement.

    * Construct related validation: mengukur psychological traits

Melihat sejauh sebuah tes tepat mengukur konstruk atau trait. Beberapa metode yang dapat digunakan untuk mengukur validitas konstruk:

  1. Perubahan yang dipengaruhi perkembangan 
  2. Korelasi dengan alat tes lain, yang dibagi menjadi alat tes baru dengan alat tes lama, dan korelasi alat tes baru dengan alat tes lain.
  3. Analisis factor
  4. Experimental intervention
  5. Human information processing
  6. Internal consistency
  7. Convergent – Discriminant validity
Uji Reliabilitas:
Reliabilitas adalah konsistensi alat tes yang dilihat dari skor dan z-score. Mengapa diperlukan kekonsistenan? Karena adanya perubahan-perubahan pada skor dan z-score yang disebabkan oleh ERROR. Terdapat dua macam error yaitu: systematic dan unsystematic error.

Prosedur reliabilitas:


Pengujian reliabilitas dengan satu kali administrasi

  • Split half; Pengukuran reliabilitas alat ukur dilakukan dengan cara membelah alat tes tersebut menjadi dua bagian yang ekuivalen. Koefisien reliabilitas diperoleh dengan cara mengkorelasikan skor-skor antar dua belahan (internal consistency). Teknik pengujian reliabilitas dengan teknik ini dibagi menjadi dua, yaitu Rulon dan Spearman Brown. 
  • Kuder Richardson; Mengukur konsistensi respon subjek pada item-item tes, sehingga disebut interitem consistency. Errornya disebut content sampling dan content heterogeneity sampling. Teknik pengujian reliabilitas dengan teknik ini dibagi menjadi dua, yaitu KR-20 dan KR-21.
  • Coefficient alpha; Tujuannya sama dengan KR, hanya saja syarat yang harus dipenuhi adalah data yang diperoleh bersifat kontinum dan bukan dikotomi.
Pengujian reliabilitas dengan dua kali administrasi
  1. Tes-retes. Untuk melihat stabilitas atau kekonsistenan alat tes dalam mengukur karakteristik atau trait dengan melaksanakan tes dan pengukuran terdiri lebih dari satu kali (diulang). Koefisien korelasi yang dihasilkan disebut dengan coefficient of stability. Error pada uji reliabilitas dengan teknik ini disebut time sampling error. 
  2. Alternate form: immediate alternate form & delayed alternate form. Untuk melihat stabilitas alat tes dalam mengukur trait individu dengan melaksanakan tes dan pengukuran lebih dari satu kali dan menggunakan dua form tes.
  • Immediate: form kedua diberikan langsung setelah form pertama diberikan. Koefisien korelasi yang dihasilkan disebut dengan coefficient of equivalence. Error pada teknik ini disebut sebagai content sampling & human error. 
  • Delayed: ada penundaan pemberian form kedua setelah form pertama diberikan. Koefisiennya disebut sebagai coefficient of equivalence & stability. Error pada teknik ini disebut sebagai content sampling, time sampling, & human error.
Interscorer reliability

Tujuan dari uji reliabilitas ini adalah untuk menunjukkan konsistensi skor-skor yang diberikan skorer satu dengan skorer lainnya. Error yang muncul adalah interscorer differences.

o Revisi item

o Kalau memungkinkan dan perlu, dilakukan uji coba lagi

7. Susun norma untuk interpretasi skor

Norma adalah penyebaran skor-skor dari suatu kelompok yang digunakan sebagai patokan untuk memberi makna pada skor-skor individu. Terdapat dua jenis norma, yaitu:

  • norma perkembangan; digunakan untuk menginterpretasikan skor-skor pada tes-tes perkembangan. Norma perkembangan dibagi menjadi mental age, basal age, nilai rata-rata yang diperoleh kelompok umur tertentu, skala ordinal, criterion referenced testing, expectancy tables. 
  • norma kelompok (within-group norms); digunakan untuk mengetahui posisi subjek dalam distribusi sample normative. Sample normative adalah skor subjek dibandingkan dengan skor kelompok. Saat peneliti hendak menggambarkan posisi individu dengan cara membandingkan antar kemampuan dan kelompok, raw score harus ditransformasikan ke dalam skala yang sama. Macam-macam skala: percentile rank, standard score, yang dibagi menjadi: z-score, t-scale, c-scale, stanine, deviation IQ

8. Produksi alat tes psikologis baru


Daftar Pustaka

Suryabrata, Sumadi.2005. Pengembangan Alat Ukur Psikologi. Yogyakarta: Andi

Azwar, Syaifuddin. Dasar-dasar Psikometri. Yogyakarta: Pustaka Pelajar

http://rumahbelajarpsikologi.com/index.php/pengukuran.html

Dalam Dasar-Dasar Psikometri,
oleh Saifuddin Azwar hal:3

Dalam Pengembangan Alat Ukur Psikologi
. Oleh Sumadi Suryabrata. Hal: 7

Ardi al-Maqassary

"Aku melihat, diujung sana, ada setitik cahaya yang terang benderang. Akan kuraih cahaya itu, dan membagikannya kepada seluruh manusia!!!"

2 Komentar

  1. mau nanya,adakah alat tes untuk penelitian persepsi seseorang ?

    BalasHapus
  2. saya juga mau bertanya. apalakah untuk pengujian reabilitas ?

    BalasHapus
Lebih baru Lebih lama

نموذج الاتصال