Verimizi tanıyalım

vv

Baş aktörümüzü tanıyalım: İşte karşınızda “Veri”.. Veli ile karıştırmayın, Veri de konuşur tıpkı Veli gibi.. Ama Veri’deki ön yargı, eğilim ve yorum yoktur veride, desteklidir söyledikleri, yalanı, hilesi hurdası yoktur eğer sen verini doğru tanıyıp doğru yöntemlerle analiz etmiş isen.

Bu yazıda nelerden bahsediliyor?

  • Veri dosya formatları
  • Veri türleri

Temel olarak veri iyi yapıda bulunur: Yapılandırılmış  ve Yapılandırılmamış.

Yapılandırılmış veri bilgisayar işlemesine hazır halde bulunan veridir. JSON, CSV, XSL, XML, RDF, HTML gibi dosyalarda tutulabilir. Yapılandırılmamış veri, düz metin dosyası (TXT, PDF, DOC ), taranmış görsel dosyaları (JPEG vb.), ses dosyaları (MP3 vb.) gibi içeriğini anlayabilmek için ileri veri madenciliği teknikleri kullanılması gereken verilerdir.

İstatistiksel olarak da verinin türlerinden bahsedebiliriz: Nitel – Nicel Veri

Nitel Veri, adı üzerinde nitelikleri belirten veridir, sayım ile belirlenir: cinsiyet, eğitim durumu vb. Nicel veri sayısal veridir, ölçümle elde edilir: yaş, uzunluk, uzaklık vb.

Nitel Veri: Nominal ve Ordinal olarak iki alt türünden bahsedilebilir. Nominal veri kategoriktir ve “daha fazla” ifadesi ile kullanılmaz; cinsiyet gibi mesela. Daha fazla “kadın” yada daha fazla “erkek” denmez NŞA’da. Ama argo olarak denebilir tabi adam gibi adam dersin, adamın dibisin dersin, hatunun hası dersin. Bunlar hep “daha çok adam, daha çok kadın” anlamına gelir aslında ama bunun tabiki bizim konumuzla alakası yok.

Nominal veri cinsiyet gibi yanlızca ikili seçenekten oluşur ise (kadın ve erkek) buna özel bir isim verilir “dikatom (binary) ” veri denir. Ama yakında LBGT örgütleri güçlenip de cinsiyet ikiden fazladır da diyebilirler. Diğer türlerinde anketlerde yer alması istenebilir böylece daha fazla seçenek içerebilir nominal veri Medeni durum (evli, bekar, dul ) gibi. Bunlara da çoklu kategorik veri diyoruz.

Dikatom (Binary) veriler için genelllikle 1 ve 0 seçenekleri kullanılır. Örneğin evet ve hayır cevabı içeren bir test için evet 1 hayır ise 0 ile gösterilebilir. NŞA’da bu iki cevabın ağırlığı aynı olduğu kabul edilir yani evetin hayır üzerine bir üstünlüğü yoktur veyahut tam tersi. Bu durumda veri simetriktir denir.  Verinin asimetrik olduğu durumlar da olabilir. Örneğin,  bir testin + veya – çıkması durumunda negatif (-) çıkması daha önemli ise asimetrik binary veri tipi kullanılır.

Ordinal veri sıralama bilgisi içeren veri çeşitidir ve “daha fazla” ifadesi ile kullanılabilir, örneğin eğitim durumu (ilk, orta,lise,üniversite, yüksek lisans, doktora ) sıralanabilir bir veri türüdür.

Nicel Veri: Sayısal verilerdir. Sürekli ve  Kesikli olabilmesi yanında Aralıksal ve Oransal olarak da değerlendirilebilir.

Sürekli sayısal veri ölçüm yolu ile elde edilir; örneğin boy uzunluğu gibi. Kesikli sayısal veri sayılarak elde edilir, çocuk sayısı vb. gibi.

Aralıksal ve Oransal veriyi anlatmak için bir soru sorayım:

Hava Sıfır dereceyken “iki kat daha soğuk” kaç derece olur?

Aralıksal veri için iki sayı arasındaki oran anlamlı değildir. Onun için çarpma ve bölme işlemleri doğrudan doğruya tatbik edilemez. Örnek olarak : Miladî, Hicrî, Çinli vb gibi çok değişik takvim şekli olduğu için takvim tarihleri; yine santigrad, fahrenhayt vb kullanarak ısı ölçümleri. 10 derecenin iki katı 20 derece değildir örneğin. Çünkü Mutlak sıfır Kelvin deki 0’dır yani 273 santigrad. Santrigrad (273K ile 373K aralığında bir değerle ifade edilir.) iki kat soğuk hesap edilirken de 0’ın Kelvin cinsine çevirip işlem yapılmalıdır. 0 derece 273 kelvin yapar. iki kat soğuk demek bunun ikiye bölünmesi demek: 136,5 kelvin. Santigrada çevirince -136,5 santigrad derece demektir. Dolayısıyla santrigrad verisi arasında oran anlamlı değildir.

Oransal veri ise aralıksal verinin tüm özelliklerine sahiptirler ve bunlara ek olarak herhangi iki çift sayı arasında kurulan orantı da anlamlı olur. Oransal ölçekli sayılar için keyfî olmayan gerçek başlangıç sıfır noktası bulunur. Örnek olarak ısının Kelvin olarak ölçümü orantısal veri olur.  Diğer yandan, ankete cevap verenlerin için yaşı, belli bir adreste ikamet dönemi, çalışma yerinde kaç yıldır bulunduğu gibi verilerde orantısal olarak değerlendirilir mutlak 0 noktası olduğu için.

Veri türleri ve veri dosya formatları hakkında kısaca yazacaklarım bu kadar.. Veriyle kalın efendim..

Referanslar

http://mustafaakca.com/istatistiksel-veri-tipleri/
https://tr.wikipedia.org/wiki/%C3%96l%C3%A7%C3%BClme_%C3%B6l%C3%A7e%C4%9Fi
https://tr.wikipedia.org/wiki/Veri

277 total views, no views today

Hello DataAsk <3

obirdoktoraogrencısıTemel olarak bu blog sitemde sizlerle dataAşkımı paylaşmayı hedefliyorum. Veri Bilimi ve benim üzerinde yoğunlaşmaya başladığım mikrobiyom bilimi üzerine yazılarımı ve biriktirdiklerimi bulacaksınız. İki temel kategorim olacak: veribilim ve mikrobiyom

Umarım hep birlikte eğleniriz.. Bu arada fazla da şeyetmeyin öyle veridir, ölçmektir, analizdir filan, fazla kafayı yorarsak sıyırabiliriz.. Ben uyarımı yapayım da :))

Bu yazıda nelerden bahsediliyor?

  • Matematik, Olasılık ve Büyük Veri ilişkisi
  • %100 tahmin ve Kelebek Etkisi
  • Neden veri kıymetli?
  • Benim DataAsk’ım

“…’Satranç hayat gibidir David,’ demişti babası. ‘her parçanın kendi işlevi vardır. Bazıları zayıftır, bazıları ise güçlü. Bazıları oyunun başında işine yarar, bazılarıysa sonunda. Ama kazanmak için hepsini kullanmak zorundasın. Aynen hayatta olduğu gibi, satrançta da skor tutulmaz. On parçanı kaybedip, yine de kazanabilirsin oyunu. Satrancın güzelliği budur işte. İşler her an tersine dönebilir. Kazanmak için yapman gereken tek şey tahtanın üzerindeki olası hamleleri ve anlamlarını iyi bilmek ve karşındakinin ne yapacağını kestirebilmek.‘ ‘Yani bu geleceği tahmin etmek gibi bir şey mi?’ diye sordu Caine. ‘Tahmin etmek imkansızdır. Ama şimdiki zamanı çok iyi bilirsen geleceği kontrol edebilirsin.‘…”

Adam Fawer’ın Olasılıksız kitabından bir kesit. Bu kitabı okuduğum süreçteki aldığım hazza özlem duyuyorum sanırım. Fransız matematikçi Pierre-Simon Laplace, 18. yüzyılın sonlarında hazırladığı tezinde, günün birinde evrendeki tüm yasalar bilindiğinde gelecekteki tüm olayların öngörülebileceğini söylemişti.

Yani olay şu: bir parayı havaya fırlattık, yazı mı tura mı geleceğini tahmin etmek istiyoruz. Eğer o andaki o bozuk paraya etki eden tüm çevresel ve diğer faktörleri bilirsek; paranın fırlatılma hızı, hava sürtünme katsayısı, rüzgarın hızı, yer çekiminin gücü, paranın ağırlık dengesi vb verilerin hepsi.. işte o devasa veriye sahip olursak paranın tam olarak yazı mı tura mı geleceğini %100 doğrulukla bilmek mümkün olabilir. İşte bu devasa veri.. Şimdiki en büyük sorunsalımızdan birisi bu. Kim bilir neler gizli o verilerde.. “Big Data-Büyük Veri” kavramı ile isimlendirildi ve şuanda ki en çok konuşulan konulardan.

Bir olgunun tahmininde onu etkileyen faktörlerle ilgili herhangi bir verideki bir küçük noksanlık ya da farklılık sonuçlarda çok büyük değişikliklere sebep olabileceği de “Kelebek etkisi” fenomeni olarak bilinir. Bir meteorolog olan Edward Lorenz, 1963 yılında bilgisayarıyla hava durumu tahminleri üzerine çalışmaktaydı. Yine bir çalışmasında Lorenz, hesaplamasında sisteme 0,506127 sayısını başlangıç verisi olarak girdi. Sonraki aşamada Lorenz, 0,506127 sayısını 0,506 olarak girmesinin sisteme etkisinin olmayacağını, çünkü yaptığı değişikliğin çok küçük bir değişiklik olduğunu düşünüyordu. Nitekim bu değişiklik matematiksel olarak öyleydi de.. Ancak Lorenz, elde ettiği sonuçlar karşısında hayrete düştü. Yaptığı bu küçük değişiklik sistemin devasa farklılıkta sonuçlar vermesine neden olmuştu. Lorenz bilgisayarının bozulduğunu düşündü ancak tekrar tekrar yaptığı hesaplamalar bunun tersini söylüyordu. Gerçekten de Lorenz’in bilgisayarında bir kelebeğin kanat çırpması kadar önemsiz olan yaptığı bu küçük değişiklik sistemin tamamen farklılaşmasına yol açmıştı. Yani çok küçük değişkenlerin en ufak hareketlerinin bile sistemde çok büyük değişimlere sebep olabileceğini gördü.

NŞA’da bu kadar kesin ve net bilgi toplamak mümkün olmadığından, bir şeyi %100 doğruluk ile tahmin etmek mümkün değildir. Veri Bilimindeki en önemli konunun hata analizi olduğunu burda belirteyim.

Matematik biliminin kesinliğinden lisans döneminde aldığım “Bulanık Mantık” dersi yardımıyla bir üst kademeye geçtim. Java dersi ile de bu bulanıklığı modellemeye aşık oldum, bilgisayarın ve programlamanın gücüne hayran oldum. Matematik ile başlayan simge ve sembollere uğraşım, kod dünyasına devam etmekte, şimdi de mikrobik dünyaya doğru evrilmekte.. (Çok yakında bu durumu açıklayacağım bir yazı ile).. Devinim ve değişim hayat tarzım iken kariyerimde bunun devam etmemesi düşünülemezdi zaten.

Sosyal bir olgu üzerinden bir örnek verelim. Yaş, yaşılık ve gençlik üzerinden..

Matematik Kesindir. Derki ” a kişisi 45 yaşındadır.”

Peki bu kişi yaşlı mıdır genç midir diye sorulduğunda Matematik ne cevap verir? Matematiğin buna bir cevabı yoktur. Çünkü, yaşlılık-gençlik kavramı hayatın ve zamanın kendisi gibi göreceli bir kavramdır.

Bu soruya bir cevap bulmak için ne yaparız? Veri toplarız. 100 kişiye sorduk diyelim 45 yaşındaki bir kişi genç midir yaşlı mıdır? 60 kişi yaşlı, 40 kişi genç demiş olsun. O zaman bulanık mantığa göre deriz ki “a kişisi %60 genç, %40 yaşlıdır.” Nasıl yani! Bir kişi hem genç hem yaşlı nasıl olabilir! Saçmalık!

İşte Olasılık teorisi tam da bunu söylüyor. Diyor ki: bir şey aynı anda belli oranlarda başka şeyler olabilir. Aynı ikizler burcu gibi :p Ya da bir olguyu belli oranlarda başka şeyler etkiliyor olabilir. Şu şundan kaynaklı diyemezsin öyle kolayca. Örneğin, yukarıdaki sorunun cevabındaki oranların toplumdan topluma farklılık göstermesi olağandır. Yani o 100 kişiyi alacağınız toplumun örf-adet-gelenek-görenek-yaşam tarzı vb bilimum faktörlerde bu cevap üzerinde etkili. İşte bu yüzden Sosyal bilim çalışmak zordur..Sosyal bilimciler olasılık bilmeli ve bilişimcilerle işbirliği de her alanda olduğu gibi bence şarttır.
thisisnotkaosSonuçta Welcome to Chaos! Yani kutuda olduğunu bildiğin bir kedi kutu kapalıyken %50 olasılıkla oradadır. Yani orda olabilir de, olmaya da bilir? Gözün görmediğinden “o kedi orda! o kedi buraya gelecek!” di-ye-mi-yor-sun. Bazen gözün bile yanlış görmüyor mu? Halisünasyonlar falanlar filanlar.. Aman Tanrım bu yazı nereye gidiyor böyle 🙂 Ama şu artık biliniyor ki kaos gibi görünen şeylerin aslında kendi içinde bir düzeni olduğu ve bu düzenin ortaya çıkarılmasında veri bilimi ve bilgisayar biliminin etkinliği oldukça fazla.

Neyse konuya dönersek, Şimdiki bir durumu anlamaya ve gelecekte olacakları değerlendirebilmek için elimizde yanlızca tek şey var: Veri
Sadece şimdiyi anlamak ve gelecekte olacakları öngörmek iş değil (dipnot: aslında büyük bir iş bakmayın böyle dediğime), bir de bu gidişi değiştirmek var işte asıl devrimciler bunlar! (dipnot: buradaki devrim sözcüğü hiçbir siyasi anlam içermez.Devrimci’nin TDK sözlük anlamı: Belli bir alanda hızlı, köklü ve nitelikli değişiklik yapan kimse.) Örnek olarak dünyadaki eğitim durumunu ortaya koyan ve sonunda gelecek hedefi belirlenmiş şu makaleyi inceleyebilirsiniz.. Bir başka makalede de Türkiye’deki eğitim durumunu ve amaca yönelik belirlenmiş stratejileri inceleyebilirsiniz.

Geleceğimiz şekillendirebilmek için elimizde iki şey var: 1-Veri – 2-Niyet.. Veri çünkü bir şeyi yönetmek istiyor ise ölçmeliyiz. Neydi mottomuz:”Ölçemezsen Yönetemezsin!” Peki niyet de nerden çıktı! demeyin.. İşe başlamadan diyeceğiz ki “Niyet ettim ben bu veriyi iyi işler için kullanacağıma” 🙂 Ciddi diyorum.. Diyecez ki “ben gelecekte iyi şeyler olsun istiyorum. Şimdi elimdeki veri bu. Bu veriyi etkileyen faktörler de sanki şunlara benziyor. O zaman o faktörler üzerinde düzenlemeler yapıp ben gelecekte şu vakitte bunun söyle iyileşmesini gerçekleştirmek istiyorum” (Futurizm dersine minnattarım. Teşekkürler ODTÜ :*)

phd

İşte o aşık olduğum Veri Biliminin, olmak istediğim Veri Bilimcisinin işi de bu anlatılanların tam orta noktasında. Zurnanın zırt dediği yer ambiyane tabirle. En başta veri toplamakla başlayan ve veri içindeki örüntüleri ortaya çıkarmayı, veriyi görselleştirmeyi de kapsayan serüven ile geleceğimiz için somut bir şeyler yapabileceğiz, bu yüzden bu kadar heyecan. Vatana millete dünyaya hayırlı olacaz daha ne olsun :)) (Dipnot: Tezine başlayan her doktora öğrencisinin başına gelen “evroka” sendromu bu, fazla kaale almayın bence şimdilik yani..Taa ki Nature’da yayınımız çıkana kadar.)

 

Referanslar
www.baturorkun.com/olasılıksız
www.kozmikanafor.com/kaos-ve-kaos-teorisi
erguvanlar.blogcu.com/olasiliksiz-adam-fawer/3133586
www.datalove.me/

 

502 total views, no views today