Herkes için İstatistik

Burada neden bahsediliyor:

  • Temel istatistik kavramları
  • Merkezi eğilim ölçüleri
  • Dağılım ölçüleri

Veri Bilimi için 3 ana adım vardır. Verinin toplanması, analizi ve sonuçların aktarılması.

Veriyi toplamadan önce populasyonumuzun ve örneklemimizin farkında olmalıyız. İstatistikte genel bir populasyonu tanımlamak için o populasyonun tamamından veri toplanamayacağı için bir alt kümesi yani örneklemi seçilir. Örneklemin yanlı seçilmesi tamamen analizin yanlı,yanlış, çarpıtılmış olduğu anlamındadır. Objektif, yeterli ve rastgele örnekleminizi seçmiş ve verimizi toplamış olalım. Eğer verimiz kategorik ise matematiksel fazla bir işimiz yok kategorilere göre sayarız, şu kategoriden bu kadar bundan bu kadar var gibi frekans değerleri verilebilir. Eğer verimiz sayısal veri ise istatistik sayesinde iki tür analiz yapabiliriz: Tanımlayıcı ve Çıkarımsal. Tanımlayını istatistil veriyi açıklar, çıkarımsal ise veriden çıkarım yapar ismi üzerinde. Bu yazıda Tanımlayıcı istatistiğe bakacağız. Veriyi tanımlamak için de iki durumunu inceleriz:

  1. Merkezi Eğilimi
  2. Dağılımı

1-Merkezi Eğilim Ölçümleri

  • Ortalama: Tüm değerleri toplayıp veri sayısına bölerek bulunur.
  • Medyan : Orta değer (örneğin veri 1-2-3-4-5 ise medyan 3’tür.)
  • Tepe Değeri (Mode) : En çok tekrar eden (örneğin veri 1-2-2-4-5 ise mode 2’dir.)
    • unimodal : en çok tekrar eden veri tektir.(yukarıdaki gibi)
    • bimodal : en çok tekrar eden veri iki tanedir.  (örneğin veri 1-2-2-4-4-5 ise mode 2 ve 4’tür.)
    • multimodal : en çok tekrar eden ikiden fazladır. (yukarıdakine benzer)
  • Ortadeğer (Midrange) : Maksimum ve minimum değerlerin ortalamasıdır. (örneğin veri 2-3-4-5-6 ise ortadeğer 4’tür.)

2- Dağılım

  • 432px-Michelsonmorley-boxplot.svgAçıklık (Range)  : Maksimum – Minimum
  • Dörttebirlik (Quartiles) :
    • Q1-Birinci dörttebirlik:  verinin %25.cisi
    • Q2-İkinci dörttebirlik: Verinin %50.si = Medyan
    • Q3- Üçüncü dörttebirlik: Verinin %75.si
  • Yayılım Ölçüsü (Interquartiles range) Q3-Q1
  • Kutu Grafiği: 5-sayı ile (Maksimum,Q3,Q2,Q1,Minimum) özet bir gösterim sunar
  • Varyans: Dağılıma ait bir verinin dağılımın ortalamadan ne kadar uzak olduğuyla ilgidir.
  • 2000px-Comparison_standard_deviations.svgStandart Sapma (Standart Deviation ): Veri değerlerinin yaıyılımının özetlenmesi için kullanılır. Düşük standart sapma demek verinin ortalamaya yakın şekilde dağıldığı anlamına gelirken, yüksek standart sapmaya sahip dağılımlarda ortalamadan oldukça uzak veriler görülebilir.. Grafikte kırmızı dağılımın standart sapması düşük iken (değerler ortalama değere yakın iken ), mavi dağılımın standart sapması yüksektir.

Ortalama, ortanca ve tepe değerinin birbirine göre durumları dağılım grafiğinin simetrik olmasını veya sağa, sola çarpık olmasının işaretini verir.

istatistik-64-728

 

 

 

 

 

 

 

Son söz: “İstatistik yalan söyleme bilimidir” derler. İstatistik yalan söylemez, yalanı insan söyler.. Yeteri büyüklükte verin var ise, verinin kaynağına güveniyor isen, doğru analiz tekniklerini kullanmış isen yalan söylemiş olma ihtimalin yok.

Referanslar
https://tr.wikipedia.org/wiki/D%C3%B6rttebirlik#D.C3.B6rttebirlik_bulma
https://tr.wikipedia.org/wiki/Kutu_grafi%C4%9Fi
https://tr.wikipedia.org/wiki/Varyans

364 total views, no views today

Hello DataAsk <3

obirdoktoraogrencısıTemel olarak bu blog sitemde sizlerle dataAşkımı paylaşmayı hedefliyorum. Veri Bilimi ve benim üzerinde yoğunlaşmaya başladığım mikrobiyom bilimi üzerine yazılarımı ve biriktirdiklerimi bulacaksınız. İki temel kategorim olacak: veribilim ve mikrobiyom

Umarım hep birlikte eğleniriz.. Bu arada fazla da şeyetmeyin öyle veridir, ölçmektir, analizdir filan, fazla kafayı yorarsak sıyırabiliriz.. Ben uyarımı yapayım da :))

Bu yazıda nelerden bahsediliyor?

  • Matematik, Olasılık ve Büyük Veri ilişkisi
  • %100 tahmin ve Kelebek Etkisi
  • Neden veri kıymetli?
  • Benim DataAsk’ım

“…’Satranç hayat gibidir David,’ demişti babası. ‘her parçanın kendi işlevi vardır. Bazıları zayıftır, bazıları ise güçlü. Bazıları oyunun başında işine yarar, bazılarıysa sonunda. Ama kazanmak için hepsini kullanmak zorundasın. Aynen hayatta olduğu gibi, satrançta da skor tutulmaz. On parçanı kaybedip, yine de kazanabilirsin oyunu. Satrancın güzelliği budur işte. İşler her an tersine dönebilir. Kazanmak için yapman gereken tek şey tahtanın üzerindeki olası hamleleri ve anlamlarını iyi bilmek ve karşındakinin ne yapacağını kestirebilmek.‘ ‘Yani bu geleceği tahmin etmek gibi bir şey mi?’ diye sordu Caine. ‘Tahmin etmek imkansızdır. Ama şimdiki zamanı çok iyi bilirsen geleceği kontrol edebilirsin.‘…”

Adam Fawer’ın Olasılıksız kitabından bir kesit. Bu kitabı okuduğum süreçteki aldığım hazza özlem duyuyorum sanırım. Fransız matematikçi Pierre-Simon Laplace, 18. yüzyılın sonlarında hazırladığı tezinde, günün birinde evrendeki tüm yasalar bilindiğinde gelecekteki tüm olayların öngörülebileceğini söylemişti.

Yani olay şu: bir parayı havaya fırlattık, yazı mı tura mı geleceğini tahmin etmek istiyoruz. Eğer o andaki o bozuk paraya etki eden tüm çevresel ve diğer faktörleri bilirsek; paranın fırlatılma hızı, hava sürtünme katsayısı, rüzgarın hızı, yer çekiminin gücü, paranın ağırlık dengesi vb verilerin hepsi.. işte o devasa veriye sahip olursak paranın tam olarak yazı mı tura mı geleceğini %100 doğrulukla bilmek mümkün olabilir. İşte bu devasa veri.. Şimdiki en büyük sorunsalımızdan birisi bu. Kim bilir neler gizli o verilerde.. “Big Data-Büyük Veri” kavramı ile isimlendirildi ve şuanda ki en çok konuşulan konulardan.

Bir olgunun tahmininde onu etkileyen faktörlerle ilgili herhangi bir verideki bir küçük noksanlık ya da farklılık sonuçlarda çok büyük değişikliklere sebep olabileceği de “Kelebek etkisi” fenomeni olarak bilinir. Bir meteorolog olan Edward Lorenz, 1963 yılında bilgisayarıyla hava durumu tahminleri üzerine çalışmaktaydı. Yine bir çalışmasında Lorenz, hesaplamasında sisteme 0,506127 sayısını başlangıç verisi olarak girdi. Sonraki aşamada Lorenz, 0,506127 sayısını 0,506 olarak girmesinin sisteme etkisinin olmayacağını, çünkü yaptığı değişikliğin çok küçük bir değişiklik olduğunu düşünüyordu. Nitekim bu değişiklik matematiksel olarak öyleydi de.. Ancak Lorenz, elde ettiği sonuçlar karşısında hayrete düştü. Yaptığı bu küçük değişiklik sistemin devasa farklılıkta sonuçlar vermesine neden olmuştu. Lorenz bilgisayarının bozulduğunu düşündü ancak tekrar tekrar yaptığı hesaplamalar bunun tersini söylüyordu. Gerçekten de Lorenz’in bilgisayarında bir kelebeğin kanat çırpması kadar önemsiz olan yaptığı bu küçük değişiklik sistemin tamamen farklılaşmasına yol açmıştı. Yani çok küçük değişkenlerin en ufak hareketlerinin bile sistemde çok büyük değişimlere sebep olabileceğini gördü.

NŞA’da bu kadar kesin ve net bilgi toplamak mümkün olmadığından, bir şeyi %100 doğruluk ile tahmin etmek mümkün değildir. Veri Bilimindeki en önemli konunun hata analizi olduğunu burda belirteyim.

Matematik biliminin kesinliğinden lisans döneminde aldığım “Bulanık Mantık” dersi yardımıyla bir üst kademeye geçtim. Java dersi ile de bu bulanıklığı modellemeye aşık oldum, bilgisayarın ve programlamanın gücüne hayran oldum. Matematik ile başlayan simge ve sembollere uğraşım, kod dünyasına devam etmekte, şimdi de mikrobik dünyaya doğru evrilmekte.. (Çok yakında bu durumu açıklayacağım bir yazı ile).. Devinim ve değişim hayat tarzım iken kariyerimde bunun devam etmemesi düşünülemezdi zaten.

Sosyal bir olgu üzerinden bir örnek verelim. Yaş, yaşılık ve gençlik üzerinden..

Matematik Kesindir. Derki ” a kişisi 45 yaşındadır.”

Peki bu kişi yaşlı mıdır genç midir diye sorulduğunda Matematik ne cevap verir? Matematiğin buna bir cevabı yoktur. Çünkü, yaşlılık-gençlik kavramı hayatın ve zamanın kendisi gibi göreceli bir kavramdır.

Bu soruya bir cevap bulmak için ne yaparız? Veri toplarız. 100 kişiye sorduk diyelim 45 yaşındaki bir kişi genç midir yaşlı mıdır? 60 kişi yaşlı, 40 kişi genç demiş olsun. O zaman bulanık mantığa göre deriz ki “a kişisi %60 genç, %40 yaşlıdır.” Nasıl yani! Bir kişi hem genç hem yaşlı nasıl olabilir! Saçmalık!

İşte Olasılık teorisi tam da bunu söylüyor. Diyor ki: bir şey aynı anda belli oranlarda başka şeyler olabilir. Aynı ikizler burcu gibi :p Ya da bir olguyu belli oranlarda başka şeyler etkiliyor olabilir. Şu şundan kaynaklı diyemezsin öyle kolayca. Örneğin, yukarıdaki sorunun cevabındaki oranların toplumdan topluma farklılık göstermesi olağandır. Yani o 100 kişiyi alacağınız toplumun örf-adet-gelenek-görenek-yaşam tarzı vb bilimum faktörlerde bu cevap üzerinde etkili. İşte bu yüzden Sosyal bilim çalışmak zordur..Sosyal bilimciler olasılık bilmeli ve bilişimcilerle işbirliği de her alanda olduğu gibi bence şarttır.
thisisnotkaosSonuçta Welcome to Chaos! Yani kutuda olduğunu bildiğin bir kedi kutu kapalıyken %50 olasılıkla oradadır. Yani orda olabilir de, olmaya da bilir? Gözün görmediğinden “o kedi orda! o kedi buraya gelecek!” di-ye-mi-yor-sun. Bazen gözün bile yanlış görmüyor mu? Halisünasyonlar falanlar filanlar.. Aman Tanrım bu yazı nereye gidiyor böyle 🙂 Ama şu artık biliniyor ki kaos gibi görünen şeylerin aslında kendi içinde bir düzeni olduğu ve bu düzenin ortaya çıkarılmasında veri bilimi ve bilgisayar biliminin etkinliği oldukça fazla.

Neyse konuya dönersek, Şimdiki bir durumu anlamaya ve gelecekte olacakları değerlendirebilmek için elimizde yanlızca tek şey var: Veri
Sadece şimdiyi anlamak ve gelecekte olacakları öngörmek iş değil (dipnot: aslında büyük bir iş bakmayın böyle dediğime), bir de bu gidişi değiştirmek var işte asıl devrimciler bunlar! (dipnot: buradaki devrim sözcüğü hiçbir siyasi anlam içermez.Devrimci’nin TDK sözlük anlamı: Belli bir alanda hızlı, köklü ve nitelikli değişiklik yapan kimse.) Örnek olarak dünyadaki eğitim durumunu ortaya koyan ve sonunda gelecek hedefi belirlenmiş şu makaleyi inceleyebilirsiniz.. Bir başka makalede de Türkiye’deki eğitim durumunu ve amaca yönelik belirlenmiş stratejileri inceleyebilirsiniz.

Geleceğimiz şekillendirebilmek için elimizde iki şey var: 1-Veri – 2-Niyet.. Veri çünkü bir şeyi yönetmek istiyor ise ölçmeliyiz. Neydi mottomuz:”Ölçemezsen Yönetemezsin!” Peki niyet de nerden çıktı! demeyin.. İşe başlamadan diyeceğiz ki “Niyet ettim ben bu veriyi iyi işler için kullanacağıma” 🙂 Ciddi diyorum.. Diyecez ki “ben gelecekte iyi şeyler olsun istiyorum. Şimdi elimdeki veri bu. Bu veriyi etkileyen faktörler de sanki şunlara benziyor. O zaman o faktörler üzerinde düzenlemeler yapıp ben gelecekte şu vakitte bunun söyle iyileşmesini gerçekleştirmek istiyorum” (Futurizm dersine minnattarım. Teşekkürler ODTÜ :*)

phd

İşte o aşık olduğum Veri Biliminin, olmak istediğim Veri Bilimcisinin işi de bu anlatılanların tam orta noktasında. Zurnanın zırt dediği yer ambiyane tabirle. En başta veri toplamakla başlayan ve veri içindeki örüntüleri ortaya çıkarmayı, veriyi görselleştirmeyi de kapsayan serüven ile geleceğimiz için somut bir şeyler yapabileceğiz, bu yüzden bu kadar heyecan. Vatana millete dünyaya hayırlı olacaz daha ne olsun :)) (Dipnot: Tezine başlayan her doktora öğrencisinin başına gelen “evroka” sendromu bu, fazla kaale almayın bence şimdilik yani..Taa ki Nature’da yayınımız çıkana kadar.)

 

Referanslar
www.baturorkun.com/olasılıksız
www.kozmikanafor.com/kaos-ve-kaos-teorisi
erguvanlar.blogcu.com/olasiliksiz-adam-fawer/3133586
www.datalove.me/

 

496 total views, no views today