Herkes için İstatistik

Burada neden bahsediliyor:

  • Temel istatistik kavramları
  • Merkezi eğilim ölçüleri
  • Dağılım ölçüleri

Veri Bilimi için 3 ana adım vardır. Verinin toplanması, analizi ve sonuçların aktarılması.

Veriyi toplamadan önce populasyonumuzun ve örneklemimizin farkında olmalıyız. İstatistikte genel bir populasyonu tanımlamak için o populasyonun tamamından veri toplanamayacağı için bir alt kümesi yani örneklemi seçilir. Örneklemin yanlı seçilmesi tamamen analizin yanlı,yanlış, çarpıtılmış olduğu anlamındadır. Objektif, yeterli ve rastgele örnekleminizi seçmiş ve verimizi toplamış olalım. Eğer verimiz kategorik ise matematiksel fazla bir işimiz yok kategorilere göre sayarız, şu kategoriden bu kadar bundan bu kadar var gibi frekans değerleri verilebilir. Eğer verimiz sayısal veri ise istatistik sayesinde iki tür analiz yapabiliriz: Tanımlayıcı ve Çıkarımsal. Tanımlayını istatistil veriyi açıklar, çıkarımsal ise veriden çıkarım yapar ismi üzerinde. Bu yazıda Tanımlayıcı istatistiğe bakacağız. Veriyi tanımlamak için de iki durumunu inceleriz:

  1. Merkezi Eğilimi
  2. Dağılımı

1-Merkezi Eğilim Ölçümleri

  • Ortalama: Tüm değerleri toplayıp veri sayısına bölerek bulunur.
  • Medyan : Orta değer (örneğin veri 1-2-3-4-5 ise medyan 3’tür.)
  • Tepe Değeri (Mode) : En çok tekrar eden (örneğin veri 1-2-2-4-5 ise mode 2’dir.)
    • unimodal : en çok tekrar eden veri tektir.(yukarıdaki gibi)
    • bimodal : en çok tekrar eden veri iki tanedir.  (örneğin veri 1-2-2-4-4-5 ise mode 2 ve 4’tür.)
    • multimodal : en çok tekrar eden ikiden fazladır. (yukarıdakine benzer)
  • Ortadeğer (Midrange) : Maksimum ve minimum değerlerin ortalamasıdır. (örneğin veri 2-3-4-5-6 ise ortadeğer 4’tür.)

2- Dağılım

  • 432px-Michelsonmorley-boxplot.svgAçıklık (Range)  : Maksimum – Minimum
  • Dörttebirlik (Quartiles) :
    • Q1-Birinci dörttebirlik:  verinin %25.cisi
    • Q2-İkinci dörttebirlik: Verinin %50.si = Medyan
    • Q3- Üçüncü dörttebirlik: Verinin %75.si
  • Yayılım Ölçüsü (Interquartiles range) Q3-Q1
  • Kutu Grafiği: 5-sayı ile (Maksimum,Q3,Q2,Q1,Minimum) özet bir gösterim sunar
  • Varyans: Dağılıma ait bir verinin dağılımın ortalamadan ne kadar uzak olduğuyla ilgidir.
  • 2000px-Comparison_standard_deviations.svgStandart Sapma (Standart Deviation ): Veri değerlerinin yaıyılımının özetlenmesi için kullanılır. Düşük standart sapma demek verinin ortalamaya yakın şekilde dağıldığı anlamına gelirken, yüksek standart sapmaya sahip dağılımlarda ortalamadan oldukça uzak veriler görülebilir.. Grafikte kırmızı dağılımın standart sapması düşük iken (değerler ortalama değere yakın iken ), mavi dağılımın standart sapması yüksektir.

Ortalama, ortanca ve tepe değerinin birbirine göre durumları dağılım grafiğinin simetrik olmasını veya sağa, sola çarpık olmasının işaretini verir.

istatistik-64-728

 

 

 

 

 

 

 

Son söz: “İstatistik yalan söyleme bilimidir” derler. İstatistik yalan söylemez, yalanı insan söyler.. Yeteri büyüklükte verin var ise, verinin kaynağına güveniyor isen, doğru analiz tekniklerini kullanmış isen yalan söylemiş olma ihtimalin yok.

Referanslar
https://tr.wikipedia.org/wiki/D%C3%B6rttebirlik#D.C3.B6rttebirlik_bulma
https://tr.wikipedia.org/wiki/Kutu_grafi%C4%9Fi
https://tr.wikipedia.org/wiki/Varyans

364 total views, no views today