Kovaryans Matrisi

Kovaryans matrisi her bir değişkenin birbirleri ile  ilişkilerini anlatan simetrik bir matristir. Kovaryan birlikte hareket etmek anlamındadır. Matriste verilerin birbirlerine göre nasıl hareket ettiklerini göstermektedir.

Aşağıda 3 değişken için tanımlanmış kovaryans matrisi olsun.

300 400 200

400 100  0

200  0  400

Kovaryans matrisinin köşegenindeki sayılar her bir değişkenin varyansı ile aynıdır. Yani örnekler için en çok varyansa sahip olan 3. örnektir. Yani 3. örnektedeki veriler arasındaki ortalamadan sapma durumu, diğerlerinden daha fazladır.

Diğerleri ise kovaryans değerleridir. Örneğin, 2.örnek ile 3.örnek arasındaki kovaryans 0 çıkmıştır. Yani 2. örnekteki verilere bakılarak 3 örnekteki veriler  hakkında bir tahmin yapılamaz. 1.örnek ile 2.örnek arasındaki kovaryans,1.örnek ile 3.örnek arasındaki kovaryansın iki katı olduğundan, 2. örneğe bakarak – 3. örneğe nazaran – 1. örnek hakkında daha iyi bir tahmin yapılabilir. Kovaryans değerler arasındaki mesafeyi ve yönü göz önüne alır. Yani iki değer arasında farkın 10 olması veya 40 olması farklı kovaryans değerlerini işaret eder.

Lineer Dönüştürme

Herhangi bir data D, bir lineer dönüşüm ile D’ haline getirilebilir. Bu dönüşüm döndürme ve ölçekleme işlemleri ile yapılır. Yanı soldaki data lineer dönüşüm ile sağdaki hale getirilebilir. T bir lineer dönüşüm matrisi olsun.

T = RotatingMatrix(R).ScalingMatrix(S)     ve   Data= T.D’

 

 

 

 

 

Ölçekleme Matrisi eigen vektörler (v) ile yapılır. Dv = £.v ,    (£ eigendeğer)

 

Bir verinin kovaryan matrisi de döndürme ve ölçekleme olarak iki farklı matrise ayrıştırılabilir.

Kovaryans Matris = V.L.V’

V: Döndürme matrisi – Kolonları eigenvektörlerin oluşturduğu matris , V’: V’nin tersi

Kök (L): Ölçekleme Matrisi – Diagonal değerleri eigen değerlerden oluşan matris

Son Söz: Kovaryans matrisi verinin döndürülüp ölçeklenmiş bir lineer transformasyonunu ifade eder. En büyük eigen değere sahip eigen vektör varyansın çok olduğu yönü belirler.

Kaynak: http://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/

1,381 total views, 8 views today

Kovaryans , Korelasyon , Regresyon

İki değişken “birlikte” nasıl davranıyor? Kovaryans, Korelasyon ve lineer regresyon bu soruya cevap olacak istatistiksel yöntemlerdir.

Korelasyon değişkenlerin hareket yönünü ve ilişkinin güçlülüğünü gösterirken, kovaryans iki değişkenin birbirine ne kadar benzerlikte hareket ettiğini gösterir.

Verimizi Scaterplot ile gösterdiğimizde x koordinatı bir değişkeni y ise diğerini gösterir. Grafikte nasıl bir desen görüyoruz? Bir doğruyu mu takip ediyor yoksa bir eğriyi mi? Eğer aşağıdaki ilk iki şekil gibi bir doğruyu takip ediyor ise burada korelasyondan bahsedebiliriz. İlk iki şekilde gösterilen veriler için Korelasyon vardır deriz. 3. şekil için ise korelasyon yoktur deriz. Korelasyon sadece lineer ilişkiler için kullanılır.

 

Değişkenler arasında korelasyon olmasa bile aralarında farklı bir ilişki olabilir.
nonlinear rel

 

 

 

 

 

Eğer korelasyon var ise, bu şu demektir: bir değişken artar/azalır iken diğeri de artıyor/azalıyor! İşte bu birlikte değişim “kovaryans” ile ölçülür. Kovaryans  birlikte değişmek anlamındadır ve değişkenler arasındaki ilişkinin yönünü analiz etmek için kullanılır.

Kovaryans formülü sonucu hesaplanan değer pozitif ise pozitif bir ilişki olduğu anlamına gelir, negatif ise negatif bir ilişki olduğu anlamındadır. Kovaryans değerinin büyüklüğü bir anlam ifade etmez, tamamen veriye bağlı olarak değişir.

Kovaryans vs. Korelasyon

  • Kovaryans iki değişken arasındaki yönü belirler. +, – ya da 0 olabilir.
  • Hesaplanan Kovaryans değeri için üst-alt sınırı yoktur, tamamen verisetindeki değerlere bağlıdır.
  • Korelasyon iki değişken arasındaki yön ve ilişkinin güçlülüğünü belirler.
  • Korelasyon, kovaryansın standartlaştırılmış halidir. Her zaman (-1,+1) aralığındadır.
  • Korelasyon Neden-Sonuç ilişkisi belirlemez! Örneğin, dondurma tüketimi ile suç oranlarının artılı arasında bir korelasyon bulunabilir. Fakat, dondurma tüketimi artışı ile şuç oranları artar diyemeyiz. Bunun altında yatan farklı bir neden, örneğin sıcaklıkların artması olabilir.
  • Korelasyonun yüksek olması bunun istatistiksel olarak geçerli olduğunu göstermez. Veri setinin büyüklüğüne göre bu test edilmelidir.

n: örneklem sayısı olsun. Korelasyon katsayısı = r = kovaryans (x,y)/std(x)*std(y)

Eğer | r |>= 2/kök(n) ise, gerçekten x ve y arasında bir ilişki olduğunu söyletebiliriz.

Regresyon

  • y=b0+b1x+e , x: bağımsız değişken , y: bağımlı değişken , e: hata
  • En küçük kareler yöntemi ile hata en az olacak şekilde b0 ve b1 değerleri hesaplanır.
  • Rkare (association of dependence) –>1 e yakınlaşmaası beklenir.
  • X: sıcaklık Y: dondurma tüketimi olsun. Dondurma tüketimi artışı ve sıcaklık arasındaki ilişki için Rkare =0.8 ise  Dondurma tüketiminin %80’ini sıcaklık ile açıklayabiliriz deriz.
  • Farklı bağımsız değişkenler ekleyerek multivariate regression yapılabilir. (Sıcaklık, ekonomik durum. vb.. dondurma tüketimi arasındaki ilişki)
  • NEDEN – SONUÇ ilişkisi belirlemez.

VERİ BİLİMİNDE NEDEN – SONUÇ İlişkisi 

Neden-Sonuç ilişkisi 2. sınıftan beri türkçe derslerinde gördüğümüz bir konu.

Yoğun kar yağışı yüzünden yolda kaldık. Gitmedim çünkü beni çağırmadı. Dikkat etmediğim için sütü taşırdım.

Cümlelerindeki anahtar kelimeler sayesinde bunun neden sonuç cümlesi olduğunu görüyoruz. Veri biliminde ise bu kadar basit değil neden-sonuç ilişkisi belirlemek. Bir şeyin bir şeye sebep olduğunu söylemek için bunların birbiri ile olan ilişkisinden emin olmamız gerekir. “A, B’ye neden oldu” denildiği zaman A ile B arasında bir dizi etkileşim olması gerekir ve bu etkileşimlerin tamamen tanımlanması gerekir. Örneğin, günümüzde küresel ısınmanın arttığını biliyoruz fakat buna nelerin sebep olduğunu tam olarak bilmiyoruz, Karbondiyoksit oranının artımıyla pozitif bir ilişkisi olduğunu biliyoruz mesela.

Son söz: Korelasyon, kovaryans ve regresyon bize yanlızca ilişkileri tanımlamak için yardımcı olan tekniklerdir, direk neden -sonuç ilişkisi tanımlamaz.

 

1,948 total views, 12 views today

Herkes için İstatistik

Burada neden bahsediliyor:

  • Temel istatistik kavramları
  • Merkezi eğilim ölçüleri
  • Dağılım ölçüleri

Veri Bilimi için 3 ana adım vardır. Verinin toplanması, analizi ve sonuçların aktarılması.

Veriyi toplamadan önce populasyonumuzun ve örneklemimizin farkında olmalıyız. İstatistikte genel bir populasyonu tanımlamak için o populasyonun tamamından veri toplanamayacağı için bir alt kümesi yani örneklemi seçilir. Örneklemin yanlı seçilmesi tamamen analizin yanlı,yanlış, çarpıtılmış olduğu anlamındadır. Objektif, yeterli ve rastgele örnekleminizi seçmiş ve verimizi toplamış olalım. Eğer verimiz kategorik ise matematiksel fazla bir işimiz yok kategorilere göre sayarız, şu kategoriden bu kadar bundan bu kadar var gibi frekans değerleri verilebilir. Eğer verimiz sayısal veri ise istatistik sayesinde iki tür analiz yapabiliriz: Tanımlayıcı ve Çıkarımsal. Tanımlayını istatistil veriyi açıklar, çıkarımsal ise veriden çıkarım yapar ismi üzerinde. Bu yazıda Tanımlayıcı istatistiğe bakacağız. Veriyi tanımlamak için de iki durumunu inceleriz:

  1. Merkezi Eğilimi
  2. Dağılımı

1-Merkezi Eğilim Ölçümleri

  • Ortalama: Tüm değerleri toplayıp veri sayısına bölerek bulunur.
  • Medyan : Orta değer (örneğin veri 1-2-3-4-5 ise medyan 3’tür.)
  • Tepe Değeri (Mode) : En çok tekrar eden (örneğin veri 1-2-2-4-5 ise mode 2’dir.)
    • unimodal : en çok tekrar eden veri tektir.(yukarıdaki gibi)
    • bimodal : en çok tekrar eden veri iki tanedir.  (örneğin veri 1-2-2-4-4-5 ise mode 2 ve 4’tür.)
    • multimodal : en çok tekrar eden ikiden fazladır. (yukarıdakine benzer)
  • Ortadeğer (Midrange) : Maksimum ve minimum değerlerin ortalamasıdır. (örneğin veri 2-3-4-5-6 ise ortadeğer 4’tür.)

2- Dağılım

  • 432px-Michelsonmorley-boxplot.svgAçıklık (Range)  : Maksimum – Minimum
  • Dörttebirlik (Quartiles) :
    • Q1-Birinci dörttebirlik:  verinin %25.cisi
    • Q2-İkinci dörttebirlik: Verinin %50.si = Medyan
    • Q3- Üçüncü dörttebirlik: Verinin %75.si
  • Yayılım Ölçüsü (Interquartiles range) Q3-Q1
  • Kutu Grafiği: 5-sayı ile (Maksimum,Q3,Q2,Q1,Minimum) özet bir gösterim sunar
  • Varyans: Dağılıma ait bir verinin dağılımın ortalamadan ne kadar uzak olduğuyla ilgidir.
  • 2000px-Comparison_standard_deviations.svgStandart Sapma (Standart Deviation ): Veri değerlerinin yaıyılımının özetlenmesi için kullanılır. Düşük standart sapma demek verinin ortalamaya yakın şekilde dağıldığı anlamına gelirken, yüksek standart sapmaya sahip dağılımlarda ortalamadan oldukça uzak veriler görülebilir.. Grafikte kırmızı dağılımın standart sapması düşük iken (değerler ortalama değere yakın iken ), mavi dağılımın standart sapması yüksektir.

Ortalama, ortanca ve tepe değerinin birbirine göre durumları dağılım grafiğinin simetrik olmasını veya sağa, sola çarpık olmasının işaretini verir.

istatistik-64-728

 

 

 

 

 

 

 

Son söz: “İstatistik yalan söyleme bilimidir” derler. İstatistik yalan söylemez, yalanı insan söyler.. Yeteri büyüklükte verin var ise, verinin kaynağına güveniyor isen, doğru analiz tekniklerini kullanmış isen yalan söylemiş olma ihtimalin yok.

Referanslar
https://tr.wikipedia.org/wiki/D%C3%B6rttebirlik#D.C3.B6rttebirlik_bulma
https://tr.wikipedia.org/wiki/Kutu_grafi%C4%9Fi
https://tr.wikipedia.org/wiki/Varyans

337 total views, no views today

Normal Dağılım nerden gelmiş?

Matematik doğanın dili olarak tanımlanır. Fizik problemleri matematik ile çözülebilir. Biyoloji, sosyoloji, ekonomi gibi alanlarda matematik kuralları uygulanabilir mi?

İnsan kendi başına karmaşık, kaotik bir varlık iken insanla ilişkili hiç bir bilim dalı da matematiksel kurallara tamamen oturtulamadı dolayısıyla. 16yy’da bilim insanları belirsizlik üzerine çalışmalar yaptı. Örneğin, kuantum fiziği tamamen belirsizlik üzerine kuruludur. Madem gerçek değer hesaplanamıyor, işte o noktada olasılık ve istatistik devreye giriyor.

Olasılık ve İstatistik, Matematiksel olguların insan ile ilişkili bir bilim dalında kullanımına olanak veren bir pencere oldu.

İlk istatistik analiz yapan kişi 17yy’da Londra’da tezgahtarlık yapan ve gazetedeki haftalık ölüm raporlarını takip eden John Graunt tarafından yapılmış. Bu raporları derleyip, hastalıklar ve o hastalıktan ölen kişilerin sayısı, yeni doğanlardaki cinsiyet dengesi, bölgelere göre yaş dengesi vb. istatistikler çıkarmış. O yıllarda yaşamış olan Elmond Halley, kendi oluşturduğu hayat tablosunu analiz ederek ölüm yaşlarına göre kişi sayısını hesaplamış ve  şöylee bir felsefik çıkarım yapmış:

“İnsanların neredeyse yarısı 17 yaşından önce ölüyor. Şikayet etmek yerine, her yılın bize verilmiş bir hediye olduğunu düşünmeliyiz.”

Modern istatistik Belçikalı bilim adamı Lambert Adolphe-Jacques Quetelet tarafından kurulmuş. Lambert kişilerin boy, kilo, uvuz uzunlukları ve bunların yanında psikolojik testler ile entellektüel özelliklerini ölçmüş. Ve görmüş ki çoğu insan için bu ölçümler benzer dağılım gösteriyor. Veriler grafiğe dökülünce de işte bu normal dağılım eğrisi ortaya çıkmış:normal-dagilim

Bu dağılımın matematiksel fonksiyonlara uyan bir çok özelliği var.  Örneğin, normal dağılım için şu her zaman doğru olan bir gerçek: örneklemin %99’u 3-standart sapma aralığına, %95’i 2-standart sapma aralığına, %68’i 1-standart sapma aralığına düşüyor. Tabi bazı ölçümler normal dağılıma uymamış. Mesela gelir dağılımı. Madem insanların doğasıyla ilgili tüm ölçümler normal dağılım gösterirken, neden gelir değerleri normal dağılım göstermiyor? Neden çünkü para mevzusu doğamıza aykırı, doğal olmayan bir durum mu acaba? Lidyalılar bile pişman olurlar belki parayı bulduklarına para için insanların düştüğü durumları görseler. İşte istatistik,sosyal olguların nedenleri üzerine bu tür yorumlara altyapı oluşturuyor. Yine normal dağılım eğrisine bakarak görülecek ve yorumlanacak birşey daha var. Outlier lar. Outlier, herkes normale uyarken normalin dışına çıkan yaramaz verilerdir. Bu veriler çok değerli olabilir fakat genelde göz ardı edilme eğilimi yüksektir. Detaylı inceleme başka bir blog yazısında olur.

Astronottan mühendise, fizikçiden psikologa, ilaç şirketlerinden genetikçilere herkes olasılık matematiği kullanmak zorunda.

İlk olasılık kuramı kumarhanelerde ortaya çıkmış. Karl Peason delirmiş olmalı ki gerçekten 24.000 kez bozuk parayı havaya atmış ve gelenin yazı mı tura mı olduğunu yazmış. Ve görmüş ki yazı tura yarı yarıya.

Şu bir gerçek ki olasılık ve istatistik büyük veri olduğu zaman anlamlı. Bir deneyi ne kadar fazla tekrar edilirse sonuçlar o kadar çok gerçeğe yaklaşacaktır. İlk yazımda bahsettiğim gibi bir olayı etkileyen tüm değişkenleri bilmenin imkanı olmayacağı için ne kadar fazla tekrar, ne kadar fazla verir o kadar gerçeğe yakınlık.

Büyük Veri – Big Data çağındayız ve ben  veri analisti olma yolunda olasılık ve istatistiksiz olmayacağının farkındayım. Dolayısıyla bir istatistik kategorisi açmak şart oldu.

Hiç bir şey olasılıksız değildir. Olasılıksız bırakmayın kendisini efendim sağlıcakla..

Referanslar
https://en.wikipedia.org/wiki/Edmond_Halley
https://en.wikipedia.org/wiki/Karl_Pearson
http://www.dr.com.tr/Kitap/Tanri-Matematikci-Mi/Mario-Livio/Bilim/Bilim-Tarihi-ve-Felsefesi/urunno=0000000632232

539 total views, 1 views today