Data Dredging

Xkcd'den konuyu anlatan mükemmel bir karikatür

Karikatürün alt kısmına yazdığım gibi aslında karikatür her şeyi gayet iyi anlatıyor ve yazı da az çok karikatürün açıklaması gibi bir şey olacak.

Tanımla başlayalım, data üzerinde birçok istatiksel işlem uyguladıktan sonra, herhangi bir istatiksel olarak anlamlı sonuç bulup asıl çalışma konusu elde edilen anlamlı olan sonuçmuş gibi yayımlamak.

Daha açıklayıcı olması açısından bir örnek üzerinden açıklayalım. Mesela bir araştırmacının araştırma konusu, spesifik bir bölgede akciğer kanserinin sıklığı olsun ve akciğer kanserinin sıklığı ülke çapında %10 diyelim.

Araştırmacının, her biri 10000 kişi olan 500 ilçe özelinde akciğer kanserinin sıklığına baktığını farz edelim. 500 ilçenin birçoğunda sıklığın %10 çıkması beklenirken bazılarında %10'dan daha çok, bazılarında daha az çıkması şaşırtıcı olmaz, çünkü sıklık oranları da bir gaus eğrisine oturacak yani normal dağılım gösterecek ve %10'dan her iki yöne de salınımlar gösterecek.

Etimesgut ve Ergani'deki oranların en yüksek oranlar olduğunu ve oranın %20 olduğunu varsayalım. Araştırmacının bu istatistiğe baktıktan sonra şöyle bir yayın yaptığını düşünelim.

"Ankara'nın Etimesgut ilçesinde ve Diyarbakır'ın Ergani ilçesinde akciğer kanseri sıklığı iki kat daha fazla." Halbuki 500 ilçeden ikisinin ortalamanın iki katı oranda olması, istatiksel olarak anlamlı değil. Ama çalışma sanki sadece bu ilçelerdeki oranları bulmak için yapılmış ve 498 ilçeye bakılmamış gibi yapılırsa hakikaten istatiksel olarak anlamlı bir durum var gibi bir görüntü oluşuyor.

Çok komplike bir hata gibi durmamasına rağmen dikkat edilmediğinde sık gözden kaçabilen bir durum. Hatta Bill Gates'in bile vaktinde bu duruma dikkat etmeyip, random dağılımın pozitif ucunda bulunan bölgede orta ve küçük büyüklükteki okullar daha çok yer aldığı için, küçük ve orta büyüklükteki okulları arttırmak veya büyükleri bölmek için 1,7 milyar dolar harcamışlığı var.(Hikayenin detayı için Thinking Fast and Slow'un chance and success bölümüne bakabilirsiniz). Ama Wainer ve Zwerlin'in şu makalesi küçük okulların daha başarılı olmadığını ortaya koyuyor. Sonuçta tabiki beklenen başarı devamlılığı sağlanamamış ve çoğu okul birkaç yıl sonra ortalamaya yaklaşmış. (bakınız regression to the mean)

Biraz da bu tarz yayınlar nelere yol açabilir ve önüne geçmek için neler yapılabilir gibi konulardan bahsedelim.

Öncelikle bilinçli bir şekilde istatiksel anlam bulmak için yapılmışsa zaten dürüst bir yayımcılık olmuyor. Baştan niyet faul yani.

Birisinin yayım yapabilmek için uydurduğu 'sözde ilişki'den yola çıkarak birçok araştırmacı; olmayan bir ilişkinin nedenini ortaya koyabilmek için gereksiz efor harcıyabilir. Mesela örneğimizden devam edersek Etimesgut ve Ergani'de neden oranların yüksek olduğunu anlamak için Etimesgut ve Ergani'nin ortak özelliklerini inceleyen bir araştırmacıyı düşünelim. Toprak yapıları mı benziyor?, Hava kirlilik oranları mı?, Tarihin bir döneminde bölgeler arası göç mü olmuş?... gibi birçok ilişki incelenebilir. Çalışma konusu mu yok. resmen bir deli kuyuya taş atmış, 40 akıllı çıkaramamış durumu.

Engellemek için uygulanabilecek yöntemlere bakarsak;

Bir yöntem, datayı kontrol etmeden önce hipotezi belirlemek olabilir. Böylece sadece bir hipotez incelenir ve dolayısıyla güvenilirlik artar.(yeterince uzun yazı tura atarsan illa 10 defa art arda yazı atabilirsin. Ama bir sefer denersen atarsan bir anormallik vardır gibi düşünülebilir.)

İkinci bir yöntem ise hipotezsiz direk datayı incelemeye kalkacaksan öncesinde anlam sınırlarını belirlemek olabilir. Mesela yine örneğimiz üzerinden gidersek teorik hesaplamaları yaptıktan sonra 'bir tane bile ilçenin % 30'u geçmemesi gerek', '10'dan fazla ilçe % 15'i geçemez'... gibi oranlar belirlemek sonra dataya bakıldığında belirlenen sınırların dışında bir durum varsa anlamlı kabul etmek ve spesifik sorgulamaları yapmak gibi.

Üçüncü bir yöntem; çalışmanın nasıl yapıldığını tarihi revizyonizm yapmadan olduğu gibi belirtmek olabilir, böylece uygulanan yöntemlerde istatiksel anlama yol açabilecek bir hata varsa, istatistikten anlayan kişiler fark edebilir ve doğru çalışmanın yöntemini belirtebilir.

Dördüncü bir yöntem ise anlamlı bulunan sonuçlar kadar anlamsızları da yayımlamak, Böylelikle farkında olmadan yapılan data dredgingler de yakalanmış olur veya başka çalışmacıların aynı çalışmayı denemeleri engellenmiş olur.

Yazıyı aynı terim için kullanılan diğer kelimeleri de yazarak bitireyim. Data fishing, Data snooping, Data butchery, p-hacking de hep aynı anlamda kullanılan terimler.

Yorumlar

Bu blogdaki popüler yayınlar

Ufak Bir Otobiyografi Part 1

A Theoretical and Lightly Look at AV(atriaventricular) Blocks

Bilimin İşleyiş Mantığı