Kovaryans , Korelasyon , Regresyon

İki değişken “birlikte” nasıl davranıyor? Kovaryans, Korelasyon ve lineer regresyon bu soruya cevap olacak istatistiksel yöntemlerdir.

Korelasyon değişkenlerin hareket yönünü ve ilişkinin güçlülüğünü gösterirken, kovaryans iki değişkenin birbirine ne kadar benzerlikte hareket ettiğini gösterir.

Verimizi Scaterplot ile gösterdiğimizde x koordinatı bir değişkeni y ise diğerini gösterir. Grafikte nasıl bir desen görüyoruz? Bir doğruyu mu takip ediyor yoksa bir eğriyi mi? Eğer aşağıdaki ilk iki şekil gibi bir doğruyu takip ediyor ise burada korelasyondan bahsedebiliriz. İlk iki şekilde gösterilen veriler için Korelasyon vardır deriz. 3. şekil için ise korelasyon yoktur deriz. Korelasyon sadece lineer ilişkiler için kullanılır.

 

Değişkenler arasında korelasyon olmasa bile aralarında farklı bir ilişki olabilir.
nonlinear rel

 

 

 

 

 

Eğer korelasyon var ise, bu şu demektir: bir değişken artar/azalır iken diğeri de artıyor/azalıyor! İşte bu birlikte değişim “kovaryans” ile ölçülür. Kovaryans  birlikte değişmek anlamındadır ve değişkenler arasındaki ilişkinin yönünü analiz etmek için kullanılır.

Kovaryans formülü sonucu hesaplanan değer pozitif ise pozitif bir ilişki olduğu anlamına gelir, negatif ise negatif bir ilişki olduğu anlamındadır. Kovaryans değerinin büyüklüğü bir anlam ifade etmez, tamamen veriye bağlı olarak değişir.

Kovaryans vs. Korelasyon

  • Kovaryans iki değişken arasındaki yönü belirler. +, – ya da 0 olabilir.
  • Hesaplanan Kovaryans değeri için üst-alt sınırı yoktur, tamamen verisetindeki değerlere bağlıdır.
  • Korelasyon iki değişken arasındaki yön ve ilişkinin güçlülüğünü belirler.
  • Korelasyon, kovaryansın standartlaştırılmış halidir. Her zaman (-1,+1) aralığındadır.
  • Korelasyon Neden-Sonuç ilişkisi belirlemez! Örneğin, dondurma tüketimi ile suç oranlarının artılı arasında bir korelasyon bulunabilir. Fakat, dondurma tüketimi artışı ile şuç oranları artar diyemeyiz. Bunun altında yatan farklı bir neden, örneğin sıcaklıkların artması olabilir.
  • Korelasyonun yüksek olması bunun istatistiksel olarak geçerli olduğunu göstermez. Veri setinin büyüklüğüne göre bu test edilmelidir.

n: örneklem sayısı olsun. Korelasyon katsayısı = r = kovaryans (x,y)/std(x)*std(y)

Eğer | r |>= 2/kök(n) ise, gerçekten x ve y arasında bir ilişki olduğunu söyletebiliriz.

Regresyon

  • y=b0+b1x+e , x: bağımsız değişken , y: bağımlı değişken , e: hata
  • En küçük kareler yöntemi ile hata en az olacak şekilde b0 ve b1 değerleri hesaplanır.
  • Rkare (association of dependence) –>1 e yakınlaşmaası beklenir.
  • X: sıcaklık Y: dondurma tüketimi olsun. Dondurma tüketimi artışı ve sıcaklık arasındaki ilişki için Rkare =0.8 ise  Dondurma tüketiminin %80’ini sıcaklık ile açıklayabiliriz deriz.
  • Farklı bağımsız değişkenler ekleyerek multivariate regression yapılabilir. (Sıcaklık, ekonomik durum. vb.. dondurma tüketimi arasındaki ilişki)
  • NEDEN – SONUÇ ilişkisi belirlemez.

VERİ BİLİMİNDE NEDEN – SONUÇ İlişkisi 

Neden-Sonuç ilişkisi 2. sınıftan beri türkçe derslerinde gördüğümüz bir konu.

Yoğun kar yağışı yüzünden yolda kaldık. Gitmedim çünkü beni çağırmadı. Dikkat etmediğim için sütü taşırdım.

Cümlelerindeki anahtar kelimeler sayesinde bunun neden sonuç cümlesi olduğunu görüyoruz. Veri biliminde ise bu kadar basit değil neden-sonuç ilişkisi belirlemek. Bir şeyin bir şeye sebep olduğunu söylemek için bunların birbiri ile olan ilişkisinden emin olmamız gerekir. “A, B’ye neden oldu” denildiği zaman A ile B arasında bir dizi etkileşim olması gerekir ve bu etkileşimlerin tamamen tanımlanması gerekir. Örneğin, günümüzde küresel ısınmanın arttığını biliyoruz fakat buna nelerin sebep olduğunu tam olarak bilmiyoruz, Karbondiyoksit oranının artımıyla pozitif bir ilişkisi olduğunu biliyoruz mesela.

Son söz: Korelasyon, kovaryans ve regresyon bize yanlızca ilişkileri tanımlamak için yardımcı olan tekniklerdir, direk neden -sonuç ilişkisi tanımlamaz.

 

2,886 total views, 5 views today

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir