ÖĞRETMEN YÖNETİM SİSTEMİ

UZMAN GÖRÜŞLERİ
GEÇERLİK - GÜVENİRLİK - HATALAR

GEÇERLİLİK
Geçerlik, bir ölçme aracının ölçmeyi amaçladığı özelliği, başka herhangi bir özellikle karıştırmadan, doğru olarak ölçebilme derecesidir. Başka bir deyimle bir ölçme aracının, geliştirilmiş bulunduğu konuda maksada hizmet etmesidir . Sözgelimi, uzunluk ölçmek için geliştirilmiş bir araç olan metre, kişilerin boylarını ölçme maksadına hizmet eder; fakat kişilerin ağırlıklarını ölçme maksadına hizmet etmez. Bu demektir ki, bir ölçme aracı olarak metre uzunluk ölçmede geçerlidir; fakat ağırlık ölçmede geçerli değildir. Aslında bir aracın sadece kullanıldığı maksat için geçerliğe sahip olması söz konusudur. Bu durum, şöyle bir örnekle somutlaştırılabilir: Bir okuduğunu anlama testi, okuduğunu anlama yeteneğini ölçmede yüksek bir geçerliğe sahip olabilir, fakat aynı test, çok büyük bir olasılıkla, matematikte problem çözme yeteneğini ölçmede geçerliğe sahip değildir.
Bir aracın geçerli olması için, onun sadece ölçmek için düzenlediği özelliği ölçmesi, yani onu başka özelliklerle karıştırmadan ölçmesi de gerekir. Lise son sınıf öğrencilerinin sosyoloji bilgilerini ölçmek için bir yazılı yoklama yapıldığını ve sınav sonunda her bir öğrenciye, başarısının özeti olan bir puan verildiğini düşünelim. Bu sınav, lise sosyoloji bilgilerinin tümünü ölçüyorsa; elde edilen puanlarda, yazı güzelliği, anlatımın biçimi ve düzgünlüğü, bilgiyi sunuş biçimi gibi, sosyoloji bilgisi dışındaki başka etkenlerin etkisi yoksa, söz konusu sınavın geçerliği tamdır. Bu durumda sınavdan elde edilen puan, bizim ölçmek istediğimiz sosyoloji bilgilerinin tümünün ve sadece sosyoloji bilgilerinin bir ölçüsü olur. Uygulamada ve özellikle eğitimde, bir çok durumda, ölçmek istediğimiz bilgi ve becerilerin tümünü bir sınavla ölçmek olanaksız olduğu gibi, sınavdan elde edilen puana, ölçme konusu bilgi ve beceriler dışındaki başka etkenlerde etki eder . Bu etkenlerden ötürü, elde edilen puana hata karışır. Bu nedenle, özellikle eğitimde kullanılan ölçme araçlarının geçerliği, hiçbir zaman tam değildir.
Bir başarı testinin niteliği, ölçülecek olanın ne olduğunun ve onun nasıl ölçüleceğinin açıkça belirlenmiş olmasına bağlıdır. “Ne ölçülecek” sorusunun cevabı, testin uygunluk ya da ilgililiğine değindir. “Nasıl ölçülecek?” sorusunun cevabı ise, büyük ölçüde testin güvenirliğini ilgilendirir. Ölçtüğü şeyle ilgili olan ve ölçtüğü şeyi tutarlı olarak ölçen bir test geçerlidir. Bu yargı, geçerliğin iki önemli öğesi olduğunu belirtir: (1) Uygunluk ya da ilgililik ve (2) güvenirlik.
Bir test için uygunluk, onun, ölçmek için düzenlediği özellik ya da özelliklerle ilgili olmasıdır. Genellikle, sınıftaki öğrenci başarısını ölçmek üzere düzenlenen bütün testler için uygunluk, bir mantıksal analiz ve uzman yargısı konusudur. Uygunluk, güvenirlik gibi, testin uygulanmasından elde edilen veriler temelinde, istatistiksel olarak belirlenemez. Bir test, kapsadığı maddeler, dersin geliştirmek istediği davranışları yansıtıyor ve onları yeterlice örnekliyorsa, ilgilidir.
Güvenirlik ise, ölçmenin tutarlılığıyla ilgilidir. Eğer bir test güvenilirse, o, ölçmek için düzenlendiği özellik ya da özellikleri tutarlıca ölçer. Bir testi değişik zamanlarda alan kişilerin, o testten aldıkları puanlar ya da aldıkları puana göre aynı kişilerin grup içindeki sıraları değişmiyorsa, söz konusu test güvenilirdir.
Bir testin, belli özellik ya da özelliklerin geçerli bir ölçüsü olabilmesi için, onun, söz konusu özellik ya da özellikleri tutarlı biçimde ölçmesi gerekir. Bu nedenle güvenirlik, geçerliğin, önemli bir parçasıdır. Bir test, geçerli olmak için güvenilir olmak zorundadır.
Ne var ki, güvenirlik, geçerlik için gerekli koşul olmasına karşın, yeterli koşul değildir. Güvenilir olan bir test, her zaman geçerli olmayabilir. Hatta bazen, testi güvenilir yapma amacı, testi geçerli kılma amacı ile çatışabilir de. Örneğin, içindeki maddeler aynı özelliği, aynı davranış ya da davranışları ölçen homojen bir testin, içindeki maddeler farklı özellikleri ya da farklı davranışları ölçen heterojen bir testten daha güvenilir olması beklenir. Öte yandan, birbirinden farklı ve çok sayıda davranış geliştirmek isteyen bir ders için geliştirilen bir başarı testi, geçerli olmak için, değişik davranışları ölçecek farklı maddeleri kapsamalıdır. Bu bakımdan, içindeki maddeleri aynı şeyi ölçer duruma getirerek testi homojenleştirmekle testin güvenirliğini yükseltme çabası, testin geçerliğini düşürebilir.
Bir testin geçerliği, bir derece sorunudur. Ya hep, ya hiç sorunu değil. Bir test hepten geçerli veya hepten geçersiz olmaktan ziyade, daha çok veya daha az geçerli olabilir. Üstelik, bir testin geçerliği, tam olarak yalnızca testin kendisiyle belirlenemez. O, testin kullanılış maksadına, uygulandığı gruba, uygulanma ve puanlanma biçimine de bağlıdır. Bu nedenle, “bu testin geçerliği nedir?” diye sormak yerine, “belli bir maksatla belli bir gruba, belli bir biçimde uygulandığı zaman bu testten elde edilen puanların geçerliği nedir?” diye sormak daha doğru olur. Bundan ötürü, özel bir maksat dışında, bir testin geçerliğini, “yüksek”, veya “düşük” olarak nitelememek gerekir. Çünkü geçerlik,daima belli bir maksat için geçerliktir.
Bir testin geçerliği, çoğun, o testten elde edilen puanlarla belli bir ölçüt yada ölçütler takımı arasındaki ilişki bakımından belirlenir. Geçerliğin, istatistiksel olarak belirlenmesidir bu. Bu işlemde ölçüt ya da ölçütler takımı olarak neyin alınmış olduğu ya da alınması gerektiği, testin kullanış maksadına bağlıdır. Test puanlarıyla ölçüt ya da ölçütler takımı arasındaki ilişki katsayısına geçerlik katsayısı adı verilir. Geçerlik katsayısı, (-1,00) ile (+1,00) arasında değişir.
“Geçerlik, bir ölçme aracının kullanıldığı maksada hizmet derecesidir” demiştik. Eğitim ve psikolojide ölçme aracı olarak kullanılan testler, birçok maksat için geliştirilebilirler. Eğitimde kullanılan testler için söz konusu olabilecek başlıca geçerlik türleri, fazla ayrıntılarına inilmeden aşağıda tartışılmıştır.

GÜVENİRLİK
Bir ölçme aracının sahip olması istenilen ikinci önemli özellik, güvenirliktir. Güvenilir bir ölçme aracı, aynı özellikle ilgili olarak arka arkaya yapılan ölçmelerde yaklaşık olarak aynı sayısal sonucu verir. Güvenilir bir test, aynı gruba iki ya da üç kez uygulandığında, gruptaki her bir kişi, bütün uygulamalarda yaklaşık olarak aynı puanı almalıdır.
Bir anlamda güvenirlik, geçerliğin bir parçasıdır. Bir testin ölçmek istediği özelliği doğru olarak ölçebilmesi için, o testin, ilkin söz konusu özelliği tutarlı olarak ölçmesi gerekir. Yalnız, güvenirlik geçerliğin tek güvencesi değildir. Son derece güvenilir bir test, kullanıldığı maksat için çok küçük bir geçerliğe sahip olabilir. Örneğin, cebir bilgisini ölçmede geçerli olan bir cebir testi, İngilizce bilgisini ölçmek için kullanıldığında belki güvenilir olabilir, fakat hiçbir zaman geçerli olamaz.
Pratikte, bir nesne ya da özellik değişik zamanlarda ölçüldüğünde, ölçmelerin hepsinde aynı ölçümü elde etmek hemen hemen olanaksızdır. Çünkü, çeşitli nedenlerle, tam anlamıyla hatadan arınık bir ölçme yapılamaz. Bu nedenle, bir testten elde edilen bireysel puanlar, bir ölçmeden diğerine değişecektir.

HATA KAYNAKLARI
Ölçme sonuçlarına karışan hatalar, ölçmeciden, ölçme aracı ve ölçme yönteminden, ölçmenin yapıldığı ortamdan, ölçülen bireylerin sözü edilen bu etkenlerle etkileşiminden ileri gelebilir.
Ölçme işleminin yapılmasında, insan mutlaka işin içine girer. İnsan ise, her an çeşitli etkenler altındadır. Ölçmenin dikkati, titizliği zamandan zamana değişebilir, belli zayıf yanları vardır, ola ki bir yazılı yoklama kağıtlarını okurken, bazılarına daha çok ya da daha az puan verme yoluna gidebilir. Bu kaynaktan gelen hatayı azaltmanın yolu, ölçme işini farklı kişilere yaptırmak ve elde edilen ölçümlerin ortalamasını almaktır. Böyle yapıldığında gerçekten de, çeşitli ölçmelerin yapacağı hataların birbirinden bağımsız olacağı varsayılırsa farklı ölçülerce yapılacak hatalar birbirini götüreceklerinden, büyük bir olasılıkla gerçeğe daha çok yaklaşılmış olur.
Kullanılan ölçme aracının mükemmel ve elverişli olmayışından ötürü de hata karışabilir ölçme sonuçlarına. Sözgelişi, her ölçtüğü uzunluğu, asıl değerinden 2 cm. küçük ya da büyük çıkaran bir metre düşünün. Böyle bir araçla elde edilen sonuçlar da, içinde belli bir hata payı taşıyacaktır.
Ölçme sonuçlarına hata karışmasının en önemli nedeni, çok durumda, ölçülen özelliğin kendisinin kararlı olmayışıdır. Gerçekten de dünyada hemen her şey, uzun sürede değişir. Kısa sürede değişmeyen şeylerin sayısı ise çok azdır dünyada. Özellikle, psikoloji ve eğitimde ölçme konusu olan özellikler, günden güne, hatta bazen dakikadan dakikaya değişirler.
Bir testten elde edilen puanlarla ilgili olarak hata kaynakları düşünüldüğünde ise, yukarıda değinilenlere ek olarak, belki de onların alt sınıfı olarak görülebilecek daha başka etkenler de dikkate alınmalıdır. Bunlar, bir testte kapsanan maddelerin sorulabilecek sorular evrenini örnekleme derecesi, testin uygulanma koşulları ve testi alma sırasında öğrencinin hasta, yorgun ya da güdülenmemiş olması ile doğru cevabını bilmediği maddelerde tahmine gitme ve tahminlerde doğru cevabı tutturma şansı gibi etkenlerdir.
Demek ki, herhangi bir test puanına, bir ölçüde, bir hata karışır. Yani elde edilmiş herhangi bir test puanı (X), bir gerçek puan (T) ile pozitif ya da negatif olabilecek bir hata puanının (E) toplamından ibarettir. (X 0 T + E) Başka bir deyişle, elde edilen puan ile gerçek puan arasındaki fark, ölçme hatası olarak görülmelidir.

HATA TÜRLERİ
İstatistiksel özellikleri bakımından ölçme hataları, sabit sistemli ve rasgele hatalar olarak incelenebilir. Hatanın sabit sistemli ve rasgele olduğunun bilinmesi, özellikle testin güvenirliği açısından son derece önemlidir.

SABİT HATALAR
Bir bakkal terazisinin, tarttığı her nesneyi gerçek ağırlığından 50 gr. fazla gösterdiğini, ya da bir öğretmenin her okuduğu cevap kağıdına 5 puan fazla verdiğini düşünelim. Bu iki durumda da, elde edilen ölçümler olmayacak, hatalı olacaktır. Yalnız bu hatalar her bir ölçme için aynı yönde etkili olacaktır ve hata miktarı her bir ölçüm için değişmeyecektir. İşte her bir ölçme için mimarı değişmeyen hatalar a sabit hatalar denir. Sabit hatalar, bireysel ölçümleri ve o ölçümlerin ortalamasını gerçekte olduğundan büyük ya da küçük gösterebilir, fakat ölçümlerin dağılım ölçülerini (örneğin standart kaymayı) değiştirici yönde bir etkiye sahip değillerdir. Bu nedenle, sabit hata taşıyan bir grup ölçümün standart kayması ve variyansı, o ölçümlerin sabit hatadan arınık olduğu zamanki standart kayması ve variyansına eşit alır.

SİSTEMLİ HATALAR
Örneğimizdeki bakkal terazisi, bir kilograma kadar olan tartmalarda değil de bir kilogramı aşan tartmalarda, tarttığı her nesneyi 50 gr. fazla tartmış olsun. Öğretmenin de sadece kızlara ait cevap kağıtlarına 5 puan fazla verdiğini düşünelim. Bu hatalar da, yukarıdaki örnekte olduğu gibi her bir ölçme için yordanabilir niteliktedir, sistemlidir; fakat bütün ölçümler için sabit değildir. Yazılı yoklama kağıtları puanlanırken, yazısı güzel, düzgün ve okunaklı olanlara fazla puan verilmesi de bir sistemli hatadır. Puanlayıcı yanlılıklarını yansıtan tüm hatalar sistemlidir.

RASGELE HATALAR
Adından da anlaşıldığı gibi, bu tür hatalar, şansla ortaya çıkan ve ne etki ettiği yordanamayan hatalardır. Bu hatalar, çoğu kez, bilinmeyen nedenlere bağlıdır. Kaynakları iyi bilinmeyen ve ölçme sonuçlarına gelişigüzel karışan hatalardır.
Sınav günü öğrencinin hastalığı, sınav koşullarının elverişsizliği ya da bütün öğrenciler için eşit olmayışı, şans başarısı, öğretmenlerin cevapları puanlarken ve verdiği puanları toplarken dikkatsiz olması gibi etkenler bu tür hataların ortaya çıkmasına neden olurlar. Elde edilen ölçümlerde bu tür hata ne denli büyükse, o ölçümlerin elde edildiği aracın güvenirliği de o denli düşük lur. Bir başka deyişle, bir ölçme sonucu, içindeki rasgele hataların azlığı oranında güvenilir olur.
Aynı özellik ya da özelliklerle ilgili çok sayıda ölçme yapılacak olursa, rasgele hataların ortalaması sıfıra yaklaşır. Ayrıca bu hatalar, herhangi bir değişkenle ya da nesnelerin gerçek ölçümüyle herhangi bir korelasyon vermezler.

ÖLÇÜMLERDEKİ TUTARLILIK
Bir ölçme aracıyla farklı zamanlarda elde edilen ve aynı nesnelerle ilgili olan bir grup ölçümle ikinci grup ölçüm arasındaki tutarlılık eğilimine o aracın güvenirliği denir.
Ölçümlerin tutarlığı konusuna, birbirinden oldukça farklı iki yaklaşımla girilebilir. Birinci yaklaşımda, birbirini izleyen ölçmelerde, grup içindeki pozisyonundaki tutarlılık, yani grup içindeki sırasının değişmezliği aranır. Bu yaklaşımda aynı nesnelerle ilgili iki ölçüm takımı arasındaki korelasyon hesaplanır ve bulunan korelasyon katsayısı, güvenirlik katsayısı olarak adlandırılır.
İkinci yaklaşım, bireysel ölçümlerde görülen ölçme hatalarının büyüklüğüyle ilgilidir. Örneğin, bir nesne tekrar tekrar ölçülecek olursa elde edilen ölçümler birbirinden farklı olacak ve onlar belli bir dağılım gösterecektir. Ölçümlerdeki değişme, standart kayma olarak ifade edilebilir ve bu, ölçmelerdeki gerçek hata payını gösterir. Bu durumda ona, ölçmenin standart hatası denir.

Doç. Dr. Yavuz AKPINAR
Eğitim Bilimleri Bölümü, Boğaziçi Üniversitesi, Bebek, İstanbul

 

Her türlü soru ve sorununuz için ogretmen@webegitim.net adresine yazabilirsiniz.