“Sağlam” Temel Bileşenler Analizi -Robust PCA

PCA bir şekli, görüntüyü ve ya hareketi tanımlamada kullanılan yaygın bir yöntem. PCA küçük kareler yöntemini kullandığı için aykırı noktalar işim içine girdiğinde iyi sonuç vermeyebilir. Sonucu çarptırabilir. PCA veriyi temsil etmek için rank’ı k olan alt uzay oluşturur.

Gerçek hayattada genelde resimler önünde “noise” yada “outlier” denecek bozulmalar -mesela resimdeki yüzün önünde el resminin olması gibi – olabilir. Bu gibi durumları göz önüne alarak bu noise veriden düşük boyutlu bir lineer alt uzay oluşturarak- Robust PCA – yöntemi geliştirilmiştir.

RPCA yönteminde birveri matirisini M = L + S şeklinde ikiye bölmek istiyoruz, öyle ki L low rank, S sparse matris (yani, çoğu 0 olan matris) olacak şekilde.

Uygulama:

1- Videodaki arkaplan ve öndeki nesnelerin ayrıştırılması için, arkaplan low rank matris olarak tanımlanabilir.

 

 

 

 

 

 

2- Yüz fotograflarındaki parlamayı silmek için kullanılabilir.

 

 

 

 

 

İlginç bir şekilde, fotograftaki kontrast değiştirildiğinde düşük boyutlu matris yüzü tanınacak şekilde ortaya çıkarabilir

 

 

 

 

 

 

Kaynak:

https://statweb.stanford.edu/~candes/math301/Lectures/rpca.pdf

http://perception.csl.illinois.edu/matrix-rank/introduction.html

769 total views, no views today

Veri Madenciliği : Özellik Seçimi için Temel Bileşenler Analizi (PCA)

Veri Madenciliği:  Boyutun Laneti yazısında belirttiğimiz gibi gerçek hayatta verideki özellikler genelde birbiri ile ilişkilidir. Örneğin, resimler üzerinde bir sınıflandırma yapacağımız zaman piksellerin r (kırmızı),g (green),b (blue) değerlerini kullanmak isteriz. Fakat kırmızı ışığa çok duyarlı olan kameralar bile biraz mavi ve biraz yeşil yakalar. Aynı şekilde, mavi ve yeşile duyarlı olanlar belli oranda kırmızı ışık yakalar. Dolayısıyla, kırmızı özelliğini veri setinden silmek, biraz mav ive yeşil verininide silinmesi demektir.

Özellikleri versetinden silmeden önce, özellikler tamamen ilişkisiz olacak şekilde başka bir boyuta transfer edilmelidir.

Örneğin, sol üstteki verisetinde (D olsun) köşede belirtilen korelasyon matrisi ile x ve y koordinantları birbiri ile ilişkilidir. Kovaryans Matrisi yazısında belirtildiği gibi kovaryans matrisi , ilişikisiz bir veri üzerinde döndürme ve ölçekleme fonksiyonları olarak parçalanabilir ve Korelasyon matrisin eigen vektörleri (V olsun) döndürme operatörü olarak tanımlanır. Sağ alttaki veriseti gibi (D’) ilişkisiz hale getirilebilir. Bu da Kovaryans matris ile eigen Vektörün çarpılması ile elde  edilir. 
D’ = V.D

Böylece D’ verisinde x’ ve y’ koordinantları ilişkisizdir. Birinin silinmesi diğerini etkilemez. Daha sonra eigen vektörler sayesinde veri eski haline dönüştrülebilir.

 

 

 

PCA en ilginç özelliğin en geniş varyansa ve yayılıma sahip olan olduğunu kabul eder. Bu enformasyon teorisine dayanır: geniş varyanslı özellik , o özellik için entropi’nin fazla olması bu da o özellikte bilginin fazla olması anlamındadır. Büyük eigen vektörler veriyi temsil ederken, küçük eigen vektörler, “noise” temsil eder. Büyük eigen vektörlere de “temel bileşen” adı verilir.  PCA ile boyu azaltma tekniği, veriyi kovaryans matirisinin en büyük eigen vektörü üzerine yansıtarak olur.

Verinin ilişkisiz özelliklerini bulmaktan vazgeçelim. Veriyi, verinin içinde bir alt uzaya yansıtmak isteyelim. Tabiki bu yansıtmayı yaparken, gerçek veri noktaları ile yansıtılmışlar arasındaki uzaklıkların minimize edilmesi, yani verimiz için hata payının en az hale getirilmesi hedeflenmelidir. Buna küçük kareler yöntemi denir.

Verileri alt uzaya yansıtacak en optimal vektör yine orjinal verinin kovaryans matirisinin en büyük eigen vektörü çıkar 🙂

Hadi hayırlı olsun yine döndük dolaştık olsun temel bileşeni bulduk 🙂

PCA Uygulaması

Bir yüz tanıma uygulaması için, bir dizi fotoğraf öğrenme verisi olarak sisteme verilir. Bir fotograftaki her pikselin parlaklığı özellik olarak alınabilir. Eğer her bir resim 32×32 ise 1024 boyutlu bir matrisimiz olur. Bir resim ile öğrenme dizisi içindeki resimlerim tek tek benzerliklerini hesaplamak, bu 1024 boyut üzerinden yapılır. Fakat uzaklık metrikleri bu yüksek boyutlarda etkisini kaybeder ve sağlıklı sonuçlar döndürmez, yani sınıflandırmada başarılı olunmaz. Boyut düşürmek için PCA uygulanır ise, istenilen sayıda temel bileşen alınarak, her 1024 -boyutlu eigenvektörler tekrar 32×32 resimlere dönüştürülebilir. Öğrenme setindeki diğer resimler bu eigenvektörlerden elde edilen resimlerin belli oranlarda katsayılar ile çarpılıp toplanması ile yani onların lineer kombinasyonundan oluşmaktaadır. İşte bu elde edilen resimler, veriseti içindeki resimlerdeki en bilgilendirici, tanımlayıcı bölgeleri gösteren resimlerdir.

Geriye kalan bir sorud aşu ki acaba kaç tane eigenvektör seçmeliyiz?  Fazla eigenvektör seçmek, overfitting denilen veriye çok benzeme durumu oluştururken, az seçmek de tanımlayıcı bilgi kaybına sebep olabilir. Bunun için net bir cevap yoktur fakat, çapraz validasyon yöntemi (cross-validation) parametre seçimi için kullanılabilir. Diğer yandan, seçilen eigen vektörler ile orjinal verideki varyansın ne kadarı açıklanabiliyor bunu gözlemlemeli. Bu da alınan eigen değerlerin tüm eigen değerlere bölünmesi ile bulunur.

PCA ile boyut azaltmanın tarifini veriyorum

  • Veriyi orijin’e taşı
  • Normalize et
  • Eigen vektörlerini bul. Bunun için SVD en çok kullanılan yöntemdir.
  • Veriyi en büyük eigen vektör üzerine yansıt. V en büyük eigenvektöri içeren matrs olsun. D orjinal veri matrisi olsun. D’=transpose(V).D . V içinden N tanesini seçmiş olalım, bunlara karşılık gelen eigen değerler de ei’ler olsun. Bu durumda orjinal verinin ne kadarını temsil ediyoruz, Tüm ei’lerin, seçilen ei’ler oranına bakarak görebiliriz.

pca

1,241 total views, no views today

Veri Madenciliği: Boyutun Laneti

Bu yazıda “Curse of Dimensionality” olarak bilenen boyutun laneti ve bu laneti bertaraf edebilecek tekniklerden bahsedeceğiz. Sonrasında boyut değil de verinin kendisini nasıl azaltabiliriz bundan bahsedelim.

Curse of Dimensionality – Yüksek Boyut Laneti

Veri analizinde bir çok şeye lanet ederiz aslında ama o lanetlerden en derinden olanı da boyuta gelir. Biz verilerimizi temsil ederken nitelikler belirliyoruz. Diyoruz ki metinleri tek tek kelimeler ile ifade ediyoruz. Resimleri tek tek pikseller ile ifade ediyoruz. Bu durumda nitelikler örneklerden fazlaca olmakta ve bu da bu laneti getirmekte.

20×20 alana el yazısıyla yazılmış sayıları düşünelim. 20×20 alanı temsil edebilmek için toplam 400 piksel olmalı ve bu piksellerin herbiri bir boyuttur. Biraz dikkatli düşünürsek, aslında sayıları 20×20 ‘lik alana el yazısıyla yazmak için 400 pikselin çok az bir kısmını kullanıyoruz. Genelde hep aynı kısımlar beyaz kalıyor. Eğer ki 20×20’lik alan üzerinde random bir resim üretilse soldaki şekil gibi bir şekil elde ederiz, ki random üretilen resimler arasında bir sayı ihtimali oldukça azdır. Aslında 400 pikselin bu 20×20 alanda sayıları temsil etmesi çok da etkili bir kullanım değildir yani verinin bu kadar boyutlu olmasına gerek yoktur.

pca1

Örneğin bir boyutlu ve 3 farklı sınıf içeren veri, 1 boyutlu uzayda ise uzay 3 bölgeye ayrılarak bölgeye düşen veri miktarı ölçülür. 2 boyutlu uzayda ise uzay 9 bölgeye ayrılarak bölgeye düşen veri miktarı ölçülür. 3 boyutlu uzayda 27 bölgeye ayrılarak bölgeye düşen veri miktarı ölçülür. Veri miktarı az ve boyutta yüksek ise çoğu bölgeye hiç veri düşmez. Bir çıkarım da yapılamaz. İşte bu da boyutun lanetidir.

pca2

 

 

 

Curse of Dimensionality ile Başa çıkma yöntemleri:

  1. Verinin konu alanı göz önüne alınarak bazı niteliklerden önemli olanları özellik olarak belirlenebilir ve veriyi temsilen o özellikler (feature) kullanılır.
  2. Boyutlar üzerinde bazı kabuller kurabiliriz.

AMAÇ: Veriyi daha az değişkenle temsil edebilmek tabiki verinin yapısını bozmadan.

İki temel yöntem var:

  1. Özellik Seçme (Feature Selection): verinin sınıfını iyi tahmin eden özellikleri seçmek. Örneğin, Information Gain iyi bir değerdir özellik seçmek için.
  2. Özelik Çıkartma (Feature Extraction): Tamamen yeni bir özellik seti oluşturmak demektir. Bu özellik seti, tüm verilerin bir fonksiyonudur. Özellik seti içerisindeki özelliklerin lineer kombinasyonu diğer verileri elde etmek için kullanılır.

Özellik Seçme (Feature Selection) Teknikleri

  1. Nitelik Altkümesi Seçimi (Attribute Subset Selection): Verilerin dağılımını çok bozmadan genel gereksiz niteliklerin atılmasıdır. İstatistiksel yöntemler kullanılır.
  •  Best-Single Attribute: En iyi nitelik seçilir diğerlerinden bağımsız olarak. Örneğin karar ağacında “önemlilik (significance)” değerine göre information gain hesaplanır ve iyi nitelik olarak alma kararı verilir.
  • Best Step-Wise: Önce en iyi nitelik seçilir. Sonra diğerleri buna bağlı seçilir.Ör: Karar ağacı
  • Setp-wise: tekrarlı olarak en kötü niteliği siler. Ör: Karar ağacı prunning.
  • Diğer bazı heuristic metotlar: Forward Selection, Backward Selection, Decision Tree Induction gibi.

2- Regresyon ve Log-Linear Model: Veriye yaklaşmayı sağlar.

  • Regresyon : Veri düz bir doğru üzerinde modellenir. y= mx+b . m ve b least square method denilen en küçük kareler yöntemi ile bulunur.
  • Log-Lineer
  • Dağınık veride kullanılabilir.
  • Regresyon çarpık veride daha iyi sonuç verir. Fakat fazla boyutlu veride uygulamak pahalidır.

3-  Histogram

  • Eşit aralıklı
  • Eşit sıklıklı yöntemlerini kullanarak veriyi parçalara bölerek ayrıştırır.

4- Kümeleme (Clustering): Kümelenmiş veriler için, küme içinden bir temsilci gerçek veriler yerine kullanılarak boyut azaltımı yapılabilir.

5- Örnekleme (Sampling)

 

Eğer verideki özellikler istatistiksel olarak birbirinden bağımsız ise, özellik seçme yöntemleri ile en az ayırıcı (discriminative) olan özellikler elenerek boyut azaltılabilir. Ama gerçek hayattabu pek de mümkğn değildir, genelde bir özellik birden fazla değişkene bağlı olabilir ve onlardan birinin elenmesi, ciddi veri kaybına neden olabilir. Buna çözüm olarak verilerin yapısını bozmadan özellik çıkartma teknikleri tercih edilebilir.

Özellik Çıkartma (Feature Extraction) Teknikleri – Boyut Azaltma (Dimensionality Reduction) Teknikleri

  1. Wavelet Transformation : Wavelet transformation X vektörünü alır Wavelet baş katsayıları ile sayısal olarak başka bir vektöre dönüştürür. Vektörün güçlü olan Wavelet katsayılarını içeren kısmı alınıp diğerleri atılabilir, böylece boyut azaltılabilir.
  2. Principle Component Analysis (PCA): n boyutlu veri içinde k <n olacak şekilde ortagonal vektorler arar ve bunları veriyi temsil etmek için kullanır. Diğer vektörler ortagonal vektörlerin lineer kombinasyonu şekilde yazılabileceğinden bu vektorlere “temel bileşen (principle components)” denir. Bu komponentler önem sırasına göre sıralanıp, en zayıf olanlardan elenerek boyut azaltımına gidilebililir. Önem sırası, verinin vektörler üzerine izdüşümünün varyansı göz önüne alınarak bulunur. Varyans ne kadar yüksekse vektör o kadar güçlüdür. Kovaryans matrisi PCA bulmak için kullanılır. Kovaryans’ın anlamı: iki değişkenin birlikte ne kadar değiştiğinin ölçümüdür. Kovaryans matrisi ile verideki herhangi bir vektörü çarptığımızda, belli bir vektöre doğru yakınlaşır ve belli bir noktadan sonra sabit kalır. İşte o yakınlaşılan vektör aslında veri izdüşümlerinin varyansının en fazla olduğu vektördür, bu bir eigenvektördür. Eigendeğeri en yüksek olan vektör PCA’lardan bir tanesidir. det(E-&I)=0  ile eigendegerler (&) bulunur. Ee=&e ‘den ile de e (eigenvektor) bulunur. Eigenvektörler bulunduktan sonra veriyi bu vektörler üzerine izdüşümünü alınır. Eigendegerler, baglı oldugu eigenvektorlerin varyansın ne kadarını açıkladığının büyüklüğüdür. en büyük eigendegere sahip olan ilk m Eigenvektor, total varyansın %…sını acıklayacak şekilde şeçilir. (genelde %90 veya %95).

PCA yöntemi

  • Sıralı veya sırasız veriye uygulanabilir.
  • Dağınık ve çarpık veride kullanılabilir.
  • Dağınık veri de Wavelet yönteminden daha iyidir.

Yöntemi kısaca tekrar edersek: Birbiriyle ilişkili (correlated hi-data) var diyelim. Bu veri origin’e çekilir. (0,0) noktası orta noktası olacak şekilde. Varyansın en yüksek olduğu boyut bulunur. Burdan kovaryans matrisi bulunur ve bunun yardımıyla eigendeger ve vektorler bulunur. varyansı belirlenen kesim noktası (threshold) kadar açıklayacak ilk m eigenvektor seçilir. Bu eigenvektörler üzerine verinin izdüşümüm alınır. böylece veri daha az boyutlu veri haline gelmiş olur.
pca_example

pca

 

 

 

 

 

 

 

 

 

 

PCpca4A dağılımların lineer düzlemlerde olduğunu varsayar. Non-linear dağılımlarda başarılı olamaz. Veri düz bir çizgi boyunca ve ya bir düzlem boyunca dağılmıyor ise, PCA çalışmaz.

 Sınıflandırma için PCA ve LDA (Linear Discriminant Analysis)

PCpca5A sınıf etiketini göz önüne almaz. Veriyi daha fazla temsil edebilmek için varyans çok olacak şekilde boyutunu azaltmaya çalışır. Başka bir doğru üzerine izdüşüm alındığında sınıfları ayrıştırmak daha kolay olabilir. Bu yönteme de LDA (Linear Disciriminant Analysis) denir. Mantık olarak çok PCA ile benzerdir. Öyle bir doğru bulunur ki iz düşümdeki sınıf ayrımı en yüksek olur. Sınıflandırmayı kolaylaştıracak şekilde veri boyutunu düşürmeye çalışır. Yandaki resimde kırmızı çizgi üzerine olan izdüşüm sınıfların ayırımı kolaylaştırmıştır.

pca6Ortalamaları farklı olan sınıflar için yukardaki şekil gibi izdüşümde ayrılma gerçekleşebilir. Fakat varyanları farklı ise LDA iyi sonuç veremez. Yani ortalamaları aynı olan iki farklı sınıf verileri için LDA doğrusu sınıflandırma için yardımcı olmaz. PCA daha iyi sonuç verir.  Ayrıca LDA dağılımları normal dağılım olarak varsayar.

Kaynaklar:

http://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification/

301,547 total views, 1,117 views today

Kovaryans Matrisi

Kovaryans matrisi her bir değişkenin birbirleri ile  ilişkilerini anlatan simetrik bir matristir. Kovaryan birlikte hareket etmek anlamındadır. Matriste verilerin birbirlerine göre nasıl hareket ettiklerini göstermektedir.

Aşağıda 3 değişken için tanımlanmış kovaryans matrisi olsun.

300 400 200

400 100  0

200  0  400

Kovaryans matrisinin köşegenindeki sayılar her bir değişkenin varyansı ile aynıdır. Yani örnekler için en çok varyansa sahip olan 3. örnektir. Yani 3. örnektedeki veriler arasındaki ortalamadan sapma durumu, diğerlerinden daha fazladır.

Diğerleri ise kovaryans değerleridir. Örneğin, 2.örnek ile 3.örnek arasındaki kovaryans 0 çıkmıştır. Yani 2. örnekteki verilere bakılarak 3 örnekteki veriler  hakkında bir tahmin yapılamaz. 1.örnek ile 2.örnek arasındaki kovaryans,1.örnek ile 3.örnek arasındaki kovaryansın iki katı olduğundan, 2. örneğe bakarak – 3. örneğe nazaran – 1. örnek hakkında daha iyi bir tahmin yapılabilir. Kovaryans değerler arasındaki mesafeyi ve yönü göz önüne alır. Yani iki değer arasında farkın 10 olması veya 40 olması farklı kovaryans değerlerini işaret eder.

Lineer Dönüştürme

Herhangi bir data D, bir lineer dönüşüm ile D’ haline getirilebilir. Bu dönüşüm döndürme ve ölçekleme işlemleri ile yapılır. Yanı soldaki data lineer dönüşüm ile sağdaki hale getirilebilir. T bir lineer dönüşüm matrisi olsun.

T = RotatingMatrix(R).ScalingMatrix(S)     ve   Data= T.D’

 

 

 

 

 

Ölçekleme Matrisi eigen vektörler (v) ile yapılır. Dv = £.v ,    (£ eigendeğer)

 

Bir verinin kovaryan matrisi de döndürme ve ölçekleme olarak iki farklı matrise ayrıştırılabilir.

Kovaryans Matris = V.L.V’

V: Döndürme matrisi – Kolonları eigenvektörlerin oluşturduğu matris , V’: V’nin tersi

Kök (L): Ölçekleme Matrisi – Diagonal değerleri eigen değerlerden oluşan matris

Son Söz: Kovaryans matrisi verinin döndürülüp ölçeklenmiş bir lineer transformasyonunu ifade eder. En büyük eigen değere sahip eigen vektör varyansın çok olduğu yönü belirler.

Kaynak: http://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/

1,544 total views, 3 views today

Veri Madenciliği 1

dataVeri Madenciliği temelde iki amaç için kullanılır:

1- Tanımlayıcı (descriptive)

2- Tahmin Edici (predictive)

 

 

 

Veri Mandeciliği ile yapabilecekleri söyle listeleyebiliriz:

1- Karakterizyasyon (characterization): özelliklerin genel karakterizasyonu özetler.

2- Ayrımcılık (Discrimination): Özellikler arasındaki ayrımı ortaya koyar.

3- Sık tekrar eden desenler (frequent patterns): hangi özelliklerin bir arada var olduğunu ortaya koyar. Alışveriş sepeti analizi (market-basket analysis) gibi, hangi ürünlerin hangileri ile birlikte satıldığı gibi analizler yapılabilir.

4-  İlişkilendirme (association) : hangi özelliklerin hangileriyle daha ilişkili olduğunu ortaya koyar. E-ticaret sitelerinde ürün tavsiye etme sistemleri bu yöntem ile geliştirilebilir.

5- Regresyon (regression): sürekli bir fonksiyon modeli veya tahmini yapabilir.

6- Kümeleme (Clustering): Bir grup veriyi bir araya getirebilir, o küme için etiket üretebilir. Bir sitenin kullanıcılarını profilleri üzerinden kümeleme algoritmaları yardımı ile birbirine benzeyenler birarada gruplanabilir.

7- Sıradışılılık Analizi (Outlier Analysis): Nadir olan noktalar, sıradan bir nokta olmaktan daha ilginç bir şey olabilir. Kredi kartı sahtekarlığı tesbiti, ağ saldırısı tesbiti gibi uygulamaları

dm

 

 

 

 

kdd

693 total views, no views today

Herkes için İstatistik

Burada neden bahsediliyor:

  • Temel istatistik kavramları
  • Merkezi eğilim ölçüleri
  • Dağılım ölçüleri

Veri Bilimi için 3 ana adım vardır. Verinin toplanması, analizi ve sonuçların aktarılması.

Veriyi toplamadan önce populasyonumuzun ve örneklemimizin farkında olmalıyız. İstatistikte genel bir populasyonu tanımlamak için o populasyonun tamamından veri toplanamayacağı için bir alt kümesi yani örneklemi seçilir. Örneklemin yanlı seçilmesi tamamen analizin yanlı,yanlış, çarpıtılmış olduğu anlamındadır. Objektif, yeterli ve rastgele örnekleminizi seçmiş ve verimizi toplamış olalım. Eğer verimiz kategorik ise matematiksel fazla bir işimiz yok kategorilere göre sayarız, şu kategoriden bu kadar bundan bu kadar var gibi frekans değerleri verilebilir. Eğer verimiz sayısal veri ise istatistik sayesinde iki tür analiz yapabiliriz: Tanımlayıcı ve Çıkarımsal. Tanımlayını istatistil veriyi açıklar, çıkarımsal ise veriden çıkarım yapar ismi üzerinde. Bu yazıda Tanımlayıcı istatistiğe bakacağız. Veriyi tanımlamak için de iki durumunu inceleriz:

  1. Merkezi Eğilimi
  2. Dağılımı

1-Merkezi Eğilim Ölçümleri

  • Ortalama: Tüm değerleri toplayıp veri sayısına bölerek bulunur.
  • Medyan : Orta değer (örneğin veri 1-2-3-4-5 ise medyan 3’tür.)
  • Tepe Değeri (Mode) : En çok tekrar eden (örneğin veri 1-2-2-4-5 ise mode 2’dir.)
    • unimodal : en çok tekrar eden veri tektir.(yukarıdaki gibi)
    • bimodal : en çok tekrar eden veri iki tanedir.  (örneğin veri 1-2-2-4-4-5 ise mode 2 ve 4’tür.)
    • multimodal : en çok tekrar eden ikiden fazladır. (yukarıdakine benzer)
  • Ortadeğer (Midrange) : Maksimum ve minimum değerlerin ortalamasıdır. (örneğin veri 2-3-4-5-6 ise ortadeğer 4’tür.)

2- Dağılım

  • 432px-Michelsonmorley-boxplot.svgAçıklık (Range)  : Maksimum – Minimum
  • Dörttebirlik (Quartiles) :
    • Q1-Birinci dörttebirlik:  verinin %25.cisi
    • Q2-İkinci dörttebirlik: Verinin %50.si = Medyan
    • Q3- Üçüncü dörttebirlik: Verinin %75.si
  • Yayılım Ölçüsü (Interquartiles range) Q3-Q1
  • Kutu Grafiği: 5-sayı ile (Maksimum,Q3,Q2,Q1,Minimum) özet bir gösterim sunar
  • Varyans: Dağılıma ait bir verinin dağılımın ortalamadan ne kadar uzak olduğuyla ilgidir.
  • 2000px-Comparison_standard_deviations.svgStandart Sapma (Standart Deviation ): Veri değerlerinin yaıyılımının özetlenmesi için kullanılır. Düşük standart sapma demek verinin ortalamaya yakın şekilde dağıldığı anlamına gelirken, yüksek standart sapmaya sahip dağılımlarda ortalamadan oldukça uzak veriler görülebilir.. Grafikte kırmızı dağılımın standart sapması düşük iken (değerler ortalama değere yakın iken ), mavi dağılımın standart sapması yüksektir.

Ortalama, ortanca ve tepe değerinin birbirine göre durumları dağılım grafiğinin simetrik olmasını veya sağa, sola çarpık olmasının işaretini verir.

istatistik-64-728

 

 

 

 

 

 

 

Son söz: “İstatistik yalan söyleme bilimidir” derler. İstatistik yalan söylemez, yalanı insan söyler.. Yeteri büyüklükte verin var ise, verinin kaynağına güveniyor isen, doğru analiz tekniklerini kullanmış isen yalan söylemiş olma ihtimalin yok.

Referanslar
https://tr.wikipedia.org/wiki/D%C3%B6rttebirlik#D.C3.B6rttebirlik_bulma
https://tr.wikipedia.org/wiki/Kutu_grafi%C4%9Fi
https://tr.wikipedia.org/wiki/Varyans

364 total views, no views today

Normal Dağılım nerden gelmiş?

Matematik doğanın dili olarak tanımlanır. Fizik problemleri matematik ile çözülebilir. Biyoloji, sosyoloji, ekonomi gibi alanlarda matematik kuralları uygulanabilir mi?

İnsan kendi başına karmaşık, kaotik bir varlık iken insanla ilişkili hiç bir bilim dalı da matematiksel kurallara tamamen oturtulamadı dolayısıyla. 16yy’da bilim insanları belirsizlik üzerine çalışmalar yaptı. Örneğin, kuantum fiziği tamamen belirsizlik üzerine kuruludur. Madem gerçek değer hesaplanamıyor, işte o noktada olasılık ve istatistik devreye giriyor.

Olasılık ve İstatistik, Matematiksel olguların insan ile ilişkili bir bilim dalında kullanımına olanak veren bir pencere oldu.

İlk istatistik analiz yapan kişi 17yy’da Londra’da tezgahtarlık yapan ve gazetedeki haftalık ölüm raporlarını takip eden John Graunt tarafından yapılmış. Bu raporları derleyip, hastalıklar ve o hastalıktan ölen kişilerin sayısı, yeni doğanlardaki cinsiyet dengesi, bölgelere göre yaş dengesi vb. istatistikler çıkarmış. O yıllarda yaşamış olan Elmond Halley, kendi oluşturduğu hayat tablosunu analiz ederek ölüm yaşlarına göre kişi sayısını hesaplamış ve  şöylee bir felsefik çıkarım yapmış:

“İnsanların neredeyse yarısı 17 yaşından önce ölüyor. Şikayet etmek yerine, her yılın bize verilmiş bir hediye olduğunu düşünmeliyiz.”

Modern istatistik Belçikalı bilim adamı Lambert Adolphe-Jacques Quetelet tarafından kurulmuş. Lambert kişilerin boy, kilo, uvuz uzunlukları ve bunların yanında psikolojik testler ile entellektüel özelliklerini ölçmüş. Ve görmüş ki çoğu insan için bu ölçümler benzer dağılım gösteriyor. Veriler grafiğe dökülünce de işte bu normal dağılım eğrisi ortaya çıkmış:normal-dagilim

Bu dağılımın matematiksel fonksiyonlara uyan bir çok özelliği var.  Örneğin, normal dağılım için şu her zaman doğru olan bir gerçek: örneklemin %99’u 3-standart sapma aralığına, %95’i 2-standart sapma aralığına, %68’i 1-standart sapma aralığına düşüyor. Tabi bazı ölçümler normal dağılıma uymamış. Mesela gelir dağılımı. Madem insanların doğasıyla ilgili tüm ölçümler normal dağılım gösterirken, neden gelir değerleri normal dağılım göstermiyor? Neden çünkü para mevzusu doğamıza aykırı, doğal olmayan bir durum mu acaba? Lidyalılar bile pişman olurlar belki parayı bulduklarına para için insanların düştüğü durumları görseler. İşte istatistik,sosyal olguların nedenleri üzerine bu tür yorumlara altyapı oluşturuyor. Yine normal dağılım eğrisine bakarak görülecek ve yorumlanacak birşey daha var. Outlier lar. Outlier, herkes normale uyarken normalin dışına çıkan yaramaz verilerdir. Bu veriler çok değerli olabilir fakat genelde göz ardı edilme eğilimi yüksektir. Detaylı inceleme başka bir blog yazısında olur.

Astronottan mühendise, fizikçiden psikologa, ilaç şirketlerinden genetikçilere herkes olasılık matematiği kullanmak zorunda.

İlk olasılık kuramı kumarhanelerde ortaya çıkmış. Karl Peason delirmiş olmalı ki gerçekten 24.000 kez bozuk parayı havaya atmış ve gelenin yazı mı tura mı olduğunu yazmış. Ve görmüş ki yazı tura yarı yarıya.

Şu bir gerçek ki olasılık ve istatistik büyük veri olduğu zaman anlamlı. Bir deneyi ne kadar fazla tekrar edilirse sonuçlar o kadar çok gerçeğe yaklaşacaktır. İlk yazımda bahsettiğim gibi bir olayı etkileyen tüm değişkenleri bilmenin imkanı olmayacağı için ne kadar fazla tekrar, ne kadar fazla verir o kadar gerçeğe yakınlık.

Büyük Veri – Big Data çağındayız ve ben  veri analisti olma yolunda olasılık ve istatistiksiz olmayacağının farkındayım. Dolayısıyla bir istatistik kategorisi açmak şart oldu.

Hiç bir şey olasılıksız değildir. Olasılıksız bırakmayın kendisini efendim sağlıcakla..

Referanslar
https://en.wikipedia.org/wiki/Edmond_Halley
https://en.wikipedia.org/wiki/Karl_Pearson
http://www.dr.com.tr/Kitap/Tanri-Matematikci-Mi/Mario-Livio/Bilim/Bilim-Tarihi-ve-Felsefesi/urunno=0000000632232

578 total views, no views today

Verimizi tanıyalım

vv

Baş aktörümüzü tanıyalım: İşte karşınızda “Veri”.. Veli ile karıştırmayın, Veri de konuşur tıpkı Veli gibi.. Ama Veri’deki ön yargı, eğilim ve yorum yoktur veride, desteklidir söyledikleri, yalanı, hilesi hurdası yoktur eğer sen verini doğru tanıyıp doğru yöntemlerle analiz etmiş isen.

Bu yazıda nelerden bahsediliyor?

  • Veri dosya formatları
  • Veri türleri

Temel olarak veri iyi yapıda bulunur: Yapılandırılmış  ve Yapılandırılmamış.

Yapılandırılmış veri bilgisayar işlemesine hazır halde bulunan veridir. JSON, CSV, XSL, XML, RDF, HTML gibi dosyalarda tutulabilir. Yapılandırılmamış veri, düz metin dosyası (TXT, PDF, DOC ), taranmış görsel dosyaları (JPEG vb.), ses dosyaları (MP3 vb.) gibi içeriğini anlayabilmek için ileri veri madenciliği teknikleri kullanılması gereken verilerdir.

İstatistiksel olarak da verinin türlerinden bahsedebiliriz: Nitel – Nicel Veri

Nitel Veri, adı üzerinde nitelikleri belirten veridir, sayım ile belirlenir: cinsiyet, eğitim durumu vb. Nicel veri sayısal veridir, ölçümle elde edilir: yaş, uzunluk, uzaklık vb.

Nitel Veri: Nominal ve Ordinal olarak iki alt türünden bahsedilebilir. Nominal veri kategoriktir ve “daha fazla” ifadesi ile kullanılmaz; cinsiyet gibi mesela. Daha fazla “kadın” yada daha fazla “erkek” denmez NŞA’da. Ama argo olarak denebilir tabi adam gibi adam dersin, adamın dibisin dersin, hatunun hası dersin. Bunlar hep “daha çok adam, daha çok kadın” anlamına gelir aslında ama bunun tabiki bizim konumuzla alakası yok.

Nominal veri cinsiyet gibi yanlızca ikili seçenekten oluşur ise (kadın ve erkek) buna özel bir isim verilir “dikatom (binary) ” veri denir. Ama yakında LBGT örgütleri güçlenip de cinsiyet ikiden fazladır da diyebilirler. Diğer türlerinde anketlerde yer alması istenebilir böylece daha fazla seçenek içerebilir nominal veri Medeni durum (evli, bekar, dul ) gibi. Bunlara da çoklu kategorik veri diyoruz.

Dikatom (Binary) veriler için genelllikle 1 ve 0 seçenekleri kullanılır. Örneğin evet ve hayır cevabı içeren bir test için evet 1 hayır ise 0 ile gösterilebilir. NŞA’da bu iki cevabın ağırlığı aynı olduğu kabul edilir yani evetin hayır üzerine bir üstünlüğü yoktur veyahut tam tersi. Bu durumda veri simetriktir denir.  Verinin asimetrik olduğu durumlar da olabilir. Örneğin,  bir testin + veya – çıkması durumunda negatif (-) çıkması daha önemli ise asimetrik binary veri tipi kullanılır.

Ordinal veri sıralama bilgisi içeren veri çeşitidir ve “daha fazla” ifadesi ile kullanılabilir, örneğin eğitim durumu (ilk, orta,lise,üniversite, yüksek lisans, doktora ) sıralanabilir bir veri türüdür.

Nicel Veri: Sayısal verilerdir. Sürekli ve  Kesikli olabilmesi yanında Aralıksal ve Oransal olarak da değerlendirilebilir.

Sürekli sayısal veri ölçüm yolu ile elde edilir; örneğin boy uzunluğu gibi. Kesikli sayısal veri sayılarak elde edilir, çocuk sayısı vb. gibi.

Aralıksal ve Oransal veriyi anlatmak için bir soru sorayım:

Hava Sıfır dereceyken “iki kat daha soğuk” kaç derece olur?

Aralıksal veri için iki sayı arasındaki oran anlamlı değildir. Onun için çarpma ve bölme işlemleri doğrudan doğruya tatbik edilemez. Örnek olarak : Miladî, Hicrî, Çinli vb gibi çok değişik takvim şekli olduğu için takvim tarihleri; yine santigrad, fahrenhayt vb kullanarak ısı ölçümleri. 10 derecenin iki katı 20 derece değildir örneğin. Çünkü Mutlak sıfır Kelvin deki 0’dır yani 273 santigrad. Santrigrad (273K ile 373K aralığında bir değerle ifade edilir.) iki kat soğuk hesap edilirken de 0’ın Kelvin cinsine çevirip işlem yapılmalıdır. 0 derece 273 kelvin yapar. iki kat soğuk demek bunun ikiye bölünmesi demek: 136,5 kelvin. Santigrada çevirince -136,5 santigrad derece demektir. Dolayısıyla santrigrad verisi arasında oran anlamlı değildir.

Oransal veri ise aralıksal verinin tüm özelliklerine sahiptirler ve bunlara ek olarak herhangi iki çift sayı arasında kurulan orantı da anlamlı olur. Oransal ölçekli sayılar için keyfî olmayan gerçek başlangıç sıfır noktası bulunur. Örnek olarak ısının Kelvin olarak ölçümü orantısal veri olur.  Diğer yandan, ankete cevap verenlerin için yaşı, belli bir adreste ikamet dönemi, çalışma yerinde kaç yıldır bulunduğu gibi verilerde orantısal olarak değerlendirilir mutlak 0 noktası olduğu için.

Veri türleri ve veri dosya formatları hakkında kısaca yazacaklarım bu kadar.. Veriyle kalın efendim..

Referanslar

http://mustafaakca.com/istatistiksel-veri-tipleri/
https://tr.wikipedia.org/wiki/%C3%96l%C3%A7%C3%BClme_%C3%B6l%C3%A7e%C4%9Fi
https://tr.wikipedia.org/wiki/Veri

270 total views, no views today

Hello DataAsk <3

obirdoktoraogrencısıTemel olarak bu blog sitemde sizlerle dataAşkımı paylaşmayı hedefliyorum. Veri Bilimi ve benim üzerinde yoğunlaşmaya başladığım mikrobiyom bilimi üzerine yazılarımı ve biriktirdiklerimi bulacaksınız. İki temel kategorim olacak: veribilim ve mikrobiyom

Umarım hep birlikte eğleniriz.. Bu arada fazla da şeyetmeyin öyle veridir, ölçmektir, analizdir filan, fazla kafayı yorarsak sıyırabiliriz.. Ben uyarımı yapayım da :))

Bu yazıda nelerden bahsediliyor?

  • Matematik, Olasılık ve Büyük Veri ilişkisi
  • %100 tahmin ve Kelebek Etkisi
  • Neden veri kıymetli?
  • Benim DataAsk’ım

“…’Satranç hayat gibidir David,’ demişti babası. ‘her parçanın kendi işlevi vardır. Bazıları zayıftır, bazıları ise güçlü. Bazıları oyunun başında işine yarar, bazılarıysa sonunda. Ama kazanmak için hepsini kullanmak zorundasın. Aynen hayatta olduğu gibi, satrançta da skor tutulmaz. On parçanı kaybedip, yine de kazanabilirsin oyunu. Satrancın güzelliği budur işte. İşler her an tersine dönebilir. Kazanmak için yapman gereken tek şey tahtanın üzerindeki olası hamleleri ve anlamlarını iyi bilmek ve karşındakinin ne yapacağını kestirebilmek.‘ ‘Yani bu geleceği tahmin etmek gibi bir şey mi?’ diye sordu Caine. ‘Tahmin etmek imkansızdır. Ama şimdiki zamanı çok iyi bilirsen geleceği kontrol edebilirsin.‘…”

Adam Fawer’ın Olasılıksız kitabından bir kesit. Bu kitabı okuduğum süreçteki aldığım hazza özlem duyuyorum sanırım. Fransız matematikçi Pierre-Simon Laplace, 18. yüzyılın sonlarında hazırladığı tezinde, günün birinde evrendeki tüm yasalar bilindiğinde gelecekteki tüm olayların öngörülebileceğini söylemişti.

Yani olay şu: bir parayı havaya fırlattık, yazı mı tura mı geleceğini tahmin etmek istiyoruz. Eğer o andaki o bozuk paraya etki eden tüm çevresel ve diğer faktörleri bilirsek; paranın fırlatılma hızı, hava sürtünme katsayısı, rüzgarın hızı, yer çekiminin gücü, paranın ağırlık dengesi vb verilerin hepsi.. işte o devasa veriye sahip olursak paranın tam olarak yazı mı tura mı geleceğini %100 doğrulukla bilmek mümkün olabilir. İşte bu devasa veri.. Şimdiki en büyük sorunsalımızdan birisi bu. Kim bilir neler gizli o verilerde.. “Big Data-Büyük Veri” kavramı ile isimlendirildi ve şuanda ki en çok konuşulan konulardan.

Bir olgunun tahmininde onu etkileyen faktörlerle ilgili herhangi bir verideki bir küçük noksanlık ya da farklılık sonuçlarda çok büyük değişikliklere sebep olabileceği de “Kelebek etkisi” fenomeni olarak bilinir. Bir meteorolog olan Edward Lorenz, 1963 yılında bilgisayarıyla hava durumu tahminleri üzerine çalışmaktaydı. Yine bir çalışmasında Lorenz, hesaplamasında sisteme 0,506127 sayısını başlangıç verisi olarak girdi. Sonraki aşamada Lorenz, 0,506127 sayısını 0,506 olarak girmesinin sisteme etkisinin olmayacağını, çünkü yaptığı değişikliğin çok küçük bir değişiklik olduğunu düşünüyordu. Nitekim bu değişiklik matematiksel olarak öyleydi de.. Ancak Lorenz, elde ettiği sonuçlar karşısında hayrete düştü. Yaptığı bu küçük değişiklik sistemin devasa farklılıkta sonuçlar vermesine neden olmuştu. Lorenz bilgisayarının bozulduğunu düşündü ancak tekrar tekrar yaptığı hesaplamalar bunun tersini söylüyordu. Gerçekten de Lorenz’in bilgisayarında bir kelebeğin kanat çırpması kadar önemsiz olan yaptığı bu küçük değişiklik sistemin tamamen farklılaşmasına yol açmıştı. Yani çok küçük değişkenlerin en ufak hareketlerinin bile sistemde çok büyük değişimlere sebep olabileceğini gördü.

NŞA’da bu kadar kesin ve net bilgi toplamak mümkün olmadığından, bir şeyi %100 doğruluk ile tahmin etmek mümkün değildir. Veri Bilimindeki en önemli konunun hata analizi olduğunu burda belirteyim.

Matematik biliminin kesinliğinden lisans döneminde aldığım “Bulanık Mantık” dersi yardımıyla bir üst kademeye geçtim. Java dersi ile de bu bulanıklığı modellemeye aşık oldum, bilgisayarın ve programlamanın gücüne hayran oldum. Matematik ile başlayan simge ve sembollere uğraşım, kod dünyasına devam etmekte, şimdi de mikrobik dünyaya doğru evrilmekte.. (Çok yakında bu durumu açıklayacağım bir yazı ile).. Devinim ve değişim hayat tarzım iken kariyerimde bunun devam etmemesi düşünülemezdi zaten.

Sosyal bir olgu üzerinden bir örnek verelim. Yaş, yaşılık ve gençlik üzerinden..

Matematik Kesindir. Derki ” a kişisi 45 yaşındadır.”

Peki bu kişi yaşlı mıdır genç midir diye sorulduğunda Matematik ne cevap verir? Matematiğin buna bir cevabı yoktur. Çünkü, yaşlılık-gençlik kavramı hayatın ve zamanın kendisi gibi göreceli bir kavramdır.

Bu soruya bir cevap bulmak için ne yaparız? Veri toplarız. 100 kişiye sorduk diyelim 45 yaşındaki bir kişi genç midir yaşlı mıdır? 60 kişi yaşlı, 40 kişi genç demiş olsun. O zaman bulanık mantığa göre deriz ki “a kişisi %60 genç, %40 yaşlıdır.” Nasıl yani! Bir kişi hem genç hem yaşlı nasıl olabilir! Saçmalık!

İşte Olasılık teorisi tam da bunu söylüyor. Diyor ki: bir şey aynı anda belli oranlarda başka şeyler olabilir. Aynı ikizler burcu gibi :p Ya da bir olguyu belli oranlarda başka şeyler etkiliyor olabilir. Şu şundan kaynaklı diyemezsin öyle kolayca. Örneğin, yukarıdaki sorunun cevabındaki oranların toplumdan topluma farklılık göstermesi olağandır. Yani o 100 kişiyi alacağınız toplumun örf-adet-gelenek-görenek-yaşam tarzı vb bilimum faktörlerde bu cevap üzerinde etkili. İşte bu yüzden Sosyal bilim çalışmak zordur..Sosyal bilimciler olasılık bilmeli ve bilişimcilerle işbirliği de her alanda olduğu gibi bence şarttır.
thisisnotkaosSonuçta Welcome to Chaos! Yani kutuda olduğunu bildiğin bir kedi kutu kapalıyken %50 olasılıkla oradadır. Yani orda olabilir de, olmaya da bilir? Gözün görmediğinden “o kedi orda! o kedi buraya gelecek!” di-ye-mi-yor-sun. Bazen gözün bile yanlış görmüyor mu? Halisünasyonlar falanlar filanlar.. Aman Tanrım bu yazı nereye gidiyor böyle 🙂 Ama şu artık biliniyor ki kaos gibi görünen şeylerin aslında kendi içinde bir düzeni olduğu ve bu düzenin ortaya çıkarılmasında veri bilimi ve bilgisayar biliminin etkinliği oldukça fazla.

Neyse konuya dönersek, Şimdiki bir durumu anlamaya ve gelecekte olacakları değerlendirebilmek için elimizde yanlızca tek şey var: Veri
Sadece şimdiyi anlamak ve gelecekte olacakları öngörmek iş değil (dipnot: aslında büyük bir iş bakmayın böyle dediğime), bir de bu gidişi değiştirmek var işte asıl devrimciler bunlar! (dipnot: buradaki devrim sözcüğü hiçbir siyasi anlam içermez.Devrimci’nin TDK sözlük anlamı: Belli bir alanda hızlı, köklü ve nitelikli değişiklik yapan kimse.) Örnek olarak dünyadaki eğitim durumunu ortaya koyan ve sonunda gelecek hedefi belirlenmiş şu makaleyi inceleyebilirsiniz.. Bir başka makalede de Türkiye’deki eğitim durumunu ve amaca yönelik belirlenmiş stratejileri inceleyebilirsiniz.

Geleceğimiz şekillendirebilmek için elimizde iki şey var: 1-Veri – 2-Niyet.. Veri çünkü bir şeyi yönetmek istiyor ise ölçmeliyiz. Neydi mottomuz:”Ölçemezsen Yönetemezsin!” Peki niyet de nerden çıktı! demeyin.. İşe başlamadan diyeceğiz ki “Niyet ettim ben bu veriyi iyi işler için kullanacağıma” 🙂 Ciddi diyorum.. Diyecez ki “ben gelecekte iyi şeyler olsun istiyorum. Şimdi elimdeki veri bu. Bu veriyi etkileyen faktörler de sanki şunlara benziyor. O zaman o faktörler üzerinde düzenlemeler yapıp ben gelecekte şu vakitte bunun söyle iyileşmesini gerçekleştirmek istiyorum” (Futurizm dersine minnattarım. Teşekkürler ODTÜ :*)

phd

İşte o aşık olduğum Veri Biliminin, olmak istediğim Veri Bilimcisinin işi de bu anlatılanların tam orta noktasında. Zurnanın zırt dediği yer ambiyane tabirle. En başta veri toplamakla başlayan ve veri içindeki örüntüleri ortaya çıkarmayı, veriyi görselleştirmeyi de kapsayan serüven ile geleceğimiz için somut bir şeyler yapabileceğiz, bu yüzden bu kadar heyecan. Vatana millete dünyaya hayırlı olacaz daha ne olsun :)) (Dipnot: Tezine başlayan her doktora öğrencisinin başına gelen “evroka” sendromu bu, fazla kaale almayın bence şimdilik yani..Taa ki Nature’da yayınımız çıkana kadar.)

 

Referanslar
www.baturorkun.com/olasılıksız
www.kozmikanafor.com/kaos-ve-kaos-teorisi
erguvanlar.blogcu.com/olasiliksiz-adam-fawer/3133586
www.datalove.me/

 

496 total views, no views today