Verimizi tanıyalım

vv

Baş aktörümüzü tanıyalım: İşte karşınızda “Veri”.. Veli ile karıştırmayın, Veri de konuşur tıpkı Veli gibi.. Ama Veri’deki ön yargı, eğilim ve yorum yoktur veride, desteklidir söyledikleri, yalanı, hilesi hurdası yoktur eğer sen verini doğru tanıyıp doğru yöntemlerle analiz etmiş isen.

Bu yazıda nelerden bahsediliyor?

  • Veri dosya formatları
  • Veri türleri

Temel olarak veri iyi yapıda bulunur: Yapılandırılmış  ve Yapılandırılmamış.

Yapılandırılmış veri bilgisayar işlemesine hazır halde bulunan veridir. JSON, CSV, XSL, XML, RDF, HTML gibi dosyalarda tutulabilir. Yapılandırılmamış veri, düz metin dosyası (TXT, PDF, DOC ), taranmış görsel dosyaları (JPEG vb.), ses dosyaları (MP3 vb.) gibi içeriğini anlayabilmek için ileri veri madenciliği teknikleri kullanılması gereken verilerdir.

İstatistiksel olarak da verinin türlerinden bahsedebiliriz: Nitel – Nicel Veri

Nitel Veri, adı üzerinde nitelikleri belirten veridir, sayım ile belirlenir: cinsiyet, eğitim durumu vb. Nicel veri sayısal veridir, ölçümle elde edilir: yaş, uzunluk, uzaklık vb.

Nitel Veri: Nominal ve Ordinal olarak iki alt türünden bahsedilebilir. Nominal veri kategoriktir ve “daha fazla” ifadesi ile kullanılmaz; cinsiyet gibi mesela. Daha fazla “kadın” yada daha fazla “erkek” denmez NŞA’da. Ama argo olarak denebilir tabi adam gibi adam dersin, adamın dibisin dersin, hatunun hası dersin. Bunlar hep “daha çok adam, daha çok kadın” anlamına gelir aslında ama bunun tabiki bizim konumuzla alakası yok.

Nominal veri cinsiyet gibi yanlızca ikili seçenekten oluşur ise (kadın ve erkek) buna özel bir isim verilir “dikatom (binary) ” veri denir. Ama yakında LBGT örgütleri güçlenip de cinsiyet ikiden fazladır da diyebilirler. Diğer türlerinde anketlerde yer alması istenebilir böylece daha fazla seçenek içerebilir nominal veri Medeni durum (evli, bekar, dul ) gibi. Bunlara da çoklu kategorik veri diyoruz.

Dikatom (Binary) veriler için genelllikle 1 ve 0 seçenekleri kullanılır. Örneğin evet ve hayır cevabı içeren bir test için evet 1 hayır ise 0 ile gösterilebilir. NŞA’da bu iki cevabın ağırlığı aynı olduğu kabul edilir yani evetin hayır üzerine bir üstünlüğü yoktur veyahut tam tersi. Bu durumda veri simetriktir denir.  Verinin asimetrik olduğu durumlar da olabilir. Örneğin,  bir testin + veya – çıkması durumunda negatif (-) çıkması daha önemli ise asimetrik binary veri tipi kullanılır.

Ordinal veri sıralama bilgisi içeren veri çeşitidir ve “daha fazla” ifadesi ile kullanılabilir, örneğin eğitim durumu (ilk, orta,lise,üniversite, yüksek lisans, doktora ) sıralanabilir bir veri türüdür.

Nicel Veri: Sayısal verilerdir. Sürekli ve  Kesikli olabilmesi yanında Aralıksal ve Oransal olarak da değerlendirilebilir.

Sürekli sayısal veri ölçüm yolu ile elde edilir; örneğin boy uzunluğu gibi. Kesikli sayısal veri sayılarak elde edilir, çocuk sayısı vb. gibi.

Aralıksal ve Oransal veriyi anlatmak için bir soru sorayım:

Hava Sıfır dereceyken “iki kat daha soğuk” kaç derece olur?

Aralıksal veri için iki sayı arasındaki oran anlamlı değildir. Onun için çarpma ve bölme işlemleri doğrudan doğruya tatbik edilemez. Örnek olarak : Miladî, Hicrî, Çinli vb gibi çok değişik takvim şekli olduğu için takvim tarihleri; yine santigrad, fahrenhayt vb kullanarak ısı ölçümleri. 10 derecenin iki katı 20 derece değildir örneğin. Çünkü Mutlak sıfır Kelvin deki 0’dır yani 273 santigrad. Santrigrad (273K ile 373K aralığında bir değerle ifade edilir.) iki kat soğuk hesap edilirken de 0’ın Kelvin cinsine çevirip işlem yapılmalıdır. 0 derece 273 kelvin yapar. iki kat soğuk demek bunun ikiye bölünmesi demek: 136,5 kelvin. Santigrada çevirince -136,5 santigrad derece demektir. Dolayısıyla santrigrad verisi arasında oran anlamlı değildir.

Oransal veri ise aralıksal verinin tüm özelliklerine sahiptirler ve bunlara ek olarak herhangi iki çift sayı arasında kurulan orantı da anlamlı olur. Oransal ölçekli sayılar için keyfî olmayan gerçek başlangıç sıfır noktası bulunur. Örnek olarak ısının Kelvin olarak ölçümü orantısal veri olur.  Diğer yandan, ankete cevap verenlerin için yaşı, belli bir adreste ikamet dönemi, çalışma yerinde kaç yıldır bulunduğu gibi verilerde orantısal olarak değerlendirilir mutlak 0 noktası olduğu için.

Veri türleri ve veri dosya formatları hakkında kısaca yazacaklarım bu kadar.. Veriyle kalın efendim..

Referanslar

http://mustafaakca.com/istatistiksel-veri-tipleri/
https://tr.wikipedia.org/wiki/%C3%96l%C3%A7%C3%BClme_%C3%B6l%C3%A7e%C4%9Fi
https://tr.wikipedia.org/wiki/Veri

699 total views, 1 views today

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir