Veri Bilimci Dr. Brown: Türkiye’nin verilerinin doğru olma ihtimali milyarda bir

Veri Bilimci Dr. Brown: Türkiye’nin verilerinin doğru olma ihtimali milyarda bir
Veri Bilimci Dr. Brown: Türkiye’nin verilerinin doğru olma ihtimali milyarda bir

Sağlık Bakanlığı’nın açıkladığı koronavirüs verilerini inceleyen veri bilimci Dr. Nick Brown, “Elbette bu verilerin doğru sayılar olma ihtimali var. Ancak, bu ihtimal milyarda bir gibi bir şeye tekabül ediyor” dedi.

Veri Bilimci Dr. Brown: Türkiye’nin verilerinin doğru olma ihtimali milyarda bir

Türkiye’de Sağlık Bakanlığı’nın açıkladığı yeni tip koronavirüs (Covid-19) verileri tartışma yaratmaya devam ediyor.

Verilerini inceleyen veri bilimci Dr. Nick Brown, “Elbette bu verilerin doğru sayılar olma ihtimali var. Ancak, bu ihtimal milyarda bir gibi bir şeye tekabül ediyor. Bu da bana neredeyse imkânsız görünüyor. Peki, nasıl böyle bir şey olabilir?” şeklinde konuştu.

Daktilo1984’ten Salpi Özgür’e konuşan Brown, Türkiye’de açıklanan verilen Benford Yasası’na uymadığını söylerken, son rakamı 0’la biten sayının çok az olduğunu, yaptığı hesaplamalarla verilerin milyarda bir ihtimalle doğru olabileceğini söyledi.

Brown, konuya ilişkin şunları kaydetti:

“Elimizde vaka sayıları, ölüm sayıları, yapılan test sayıları gibi pek çok sayının bulunduğu veri grupları varsa, yani elimizde gerçekten çok fazla miktarda sayı varsa, bunlardan yüzde onunun 0’la, yüzde onunun 1’le, yüzde onunun 2’yle bitmesini ve bu şekilde ilerlemesini bekleriz, çünkü on tane rakam vardır ve son hanelerin rakamlara dağılımının bir miktar farklılıklar içererek yakın olmasını bekleriz. Fakat fark ettim ki, sıfırla biten sayılar neredeyse yok denecek kadar az. Bu verilerin sıfırla bitmemesinin olasılığını hesaplamak için birkaç test yaptım. Elimizde üç veri grubu var. Bu gruplardan ilkinin böyle sonuçlara sahip olma olasılığı binde bir. İkinci grubun sonuçlarının bu şekilde çıkma olasılığı yüz milyonda bir ve toplamda tüm bu veri gruplarının Sağlık Bakanlığı’nın bizlerle paylaştığı sayılar gibi olması ihtimali ise milyarda birden bile az.”

‘İSTER KAZARA İSTER KASITLI OLSUN, VERİ GİRİŞİNDEKİ HATALARDAN KAYNAKLANIYOR OLMALI’

“Çalışmanızda Benford Yasası’na atıf yapıyorsunuz. Benford Yasası bize veri gruplarında rakamların ne sıklıkta görülebileceğine dair bir takım olasılık oranları sunar. Sağlık Bakanlığı tarafından açıklanan verilerin Benford Yasası’na uymadığını görüyoruz. Bu, mutlaka verilerin elle girildiğine mi delalet ediyor, yoksa başka bir sebebi olabilir mi?” sorusunu yanıtlayan Brown, şunları söyledi:

“Benford Yasası’ndan bahsedildiğinde aslında yasanın bizleri en çok ilgilendiren kısmı kast edilir. Bu durum gerçek hayatta gördüğümüz ondalık sayıların solundaki ilk basamakta birlerin ikilerden, ikilerin üçlerden daha fazla olma eğiliminde olduğudur, ancak bu yalnızca belirli koşullar altında geçerlidir. Yasanın bu kısmının, ülke içindeki COVID-19 vaka sayıları gibi verilere uygulanmasını bekleyemeyiz. Çünkü bu veriler günden güne çok fazla değişiklik gösterme eğiliminde değillerdir. Yani bugün dört yüz vakanız varsa, muhtemelen yarın dört yüz elli veya üç yüz elli arasında bir vaka sayısı olacaktır. Bunun yanı sıra, Benford Yasası’nın daha az bilinen bir kısmı da vardır ki, bu bize bir sayının ikinci, üçüncü ve diğer basamaklarının da nasıl görünmesi gerektiği konusunda fikir verir. Doğal bir sürecin sonucunda elimize geçen sayıları toplarsak, hemen hemen tüm sayılar için, üçüncü basamağa geldiğimizde, her rakamla aynı sıklıkta karşılaşmayı bekleriz ve bu rakamların sıklığı arasında büyük farklar olması, bu durumun vaka sayılarının birbirlerine eklenmesine yönelik doğal bir işlemin sonucu olmadığının işareti olabilir. Bu durum ister kazara ister kasıtlı olsun, veri girişindeki hatalardan kaynaklanıyor olmalı.”

İlk yorum yapan olun

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*