Herkes için İstatistik

Burada neden bahsediliyor:

  • Temel istatistik kavramları
  • Merkezi eğilim ölçüleri
  • Dağılım ölçüleri

Veri Bilimi için 3 ana adım vardır. Verinin toplanması, analizi ve sonuçların aktarılması.

Veriyi toplamadan önce populasyonumuzun ve örneklemimizin farkında olmalıyız. İstatistikte genel bir populasyonu tanımlamak için o populasyonun tamamından veri toplanamayacağı için bir alt kümesi yani örneklemi seçilir. Örneklemin yanlı seçilmesi tamamen analizin yanlı,yanlış, çarpıtılmış olduğu anlamındadır. Objektif, yeterli ve rastgele örnekleminizi seçmiş ve verimizi toplamış olalım. Eğer verimiz kategorik ise matematiksel fazla bir işimiz yok kategorilere göre sayarız, şu kategoriden bu kadar bundan bu kadar var gibi frekans değerleri verilebilir. Eğer verimiz sayısal veri ise istatistik sayesinde iki tür analiz yapabiliriz: Tanımlayıcı ve Çıkarımsal. Tanımlayını istatistil veriyi açıklar, çıkarımsal ise veriden çıkarım yapar ismi üzerinde. Bu yazıda Tanımlayıcı istatistiğe bakacağız. Veriyi tanımlamak için de iki durumunu inceleriz:

  1. Merkezi Eğilimi
  2. Dağılımı

1-Merkezi Eğilim Ölçümleri

  • Ortalama: Tüm değerleri toplayıp veri sayısına bölerek bulunur.
  • Medyan : Orta değer (örneğin veri 1-2-3-4-5 ise medyan 3’tür.)
  • Tepe Değeri (Mode) : En çok tekrar eden (örneğin veri 1-2-2-4-5 ise mode 2’dir.)
    • unimodal : en çok tekrar eden veri tektir.(yukarıdaki gibi)
    • bimodal : en çok tekrar eden veri iki tanedir.  (örneğin veri 1-2-2-4-4-5 ise mode 2 ve 4’tür.)
    • multimodal : en çok tekrar eden ikiden fazladır. (yukarıdakine benzer)
  • Ortadeğer (Midrange) : Maksimum ve minimum değerlerin ortalamasıdır. (örneğin veri 2-3-4-5-6 ise ortadeğer 4’tür.)

2- Dağılım

  • 432px-Michelsonmorley-boxplot.svgAçıklık (Range)  : Maksimum – Minimum
  • Dörttebirlik (Quartiles) :
    • Q1-Birinci dörttebirlik:  verinin %25.cisi
    • Q2-İkinci dörttebirlik: Verinin %50.si = Medyan
    • Q3- Üçüncü dörttebirlik: Verinin %75.si
  • Yayılım Ölçüsü (Interquartiles range) Q3-Q1
  • Kutu Grafiği: 5-sayı ile (Maksimum,Q3,Q2,Q1,Minimum) özet bir gösterim sunar
  • Varyans: Dağılıma ait bir verinin dağılımın ortalamadan ne kadar uzak olduğuyla ilgidir.
  • 2000px-Comparison_standard_deviations.svgStandart Sapma (Standart Deviation ): Veri değerlerinin yaıyılımının özetlenmesi için kullanılır. Düşük standart sapma demek verinin ortalamaya yakın şekilde dağıldığı anlamına gelirken, yüksek standart sapmaya sahip dağılımlarda ortalamadan oldukça uzak veriler görülebilir.. Grafikte kırmızı dağılımın standart sapması düşük iken (değerler ortalama değere yakın iken ), mavi dağılımın standart sapması yüksektir.

Ortalama, ortanca ve tepe değerinin birbirine göre durumları dağılım grafiğinin simetrik olmasını veya sağa, sola çarpık olmasının işaretini verir.

istatistik-64-728

 

 

 

 

 

 

 

Son söz: “İstatistik yalan söyleme bilimidir” derler. İstatistik yalan söylemez, yalanı insan söyler.. Yeteri büyüklükte verin var ise, verinin kaynağına güveniyor isen, doğru analiz tekniklerini kullanmış isen yalan söylemiş olma ihtimalin yok.

Referanslar
https://tr.wikipedia.org/wiki/D%C3%B6rttebirlik#D.C3.B6rttebirlik_bulma
https://tr.wikipedia.org/wiki/Kutu_grafi%C4%9Fi
https://tr.wikipedia.org/wiki/Varyans

427 total views, no views today

Normal Dağılım nerden gelmiş?

Matematik doğanın dili olarak tanımlanır. Fizik problemleri matematik ile çözülebilir. Biyoloji, sosyoloji, ekonomi gibi alanlarda matematik kuralları uygulanabilir mi?

İnsan kendi başına karmaşık, kaotik bir varlık iken insanla ilişkili hiç bir bilim dalı da matematiksel kurallara tamamen oturtulamadı dolayısıyla. 16yy’da bilim insanları belirsizlik üzerine çalışmalar yaptı. Örneğin, kuantum fiziği tamamen belirsizlik üzerine kuruludur. Madem gerçek değer hesaplanamıyor, işte o noktada olasılık ve istatistik devreye giriyor.

Olasılık ve İstatistik, Matematiksel olguların insan ile ilişkili bir bilim dalında kullanımına olanak veren bir pencere oldu.

İlk istatistik analiz yapan kişi 17yy’da Londra’da tezgahtarlık yapan ve gazetedeki haftalık ölüm raporlarını takip eden John Graunt tarafından yapılmış. Bu raporları derleyip, hastalıklar ve o hastalıktan ölen kişilerin sayısı, yeni doğanlardaki cinsiyet dengesi, bölgelere göre yaş dengesi vb. istatistikler çıkarmış. O yıllarda yaşamış olan Elmond Halley, kendi oluşturduğu hayat tablosunu analiz ederek ölüm yaşlarına göre kişi sayısını hesaplamış ve  şöylee bir felsefik çıkarım yapmış:

“İnsanların neredeyse yarısı 17 yaşından önce ölüyor. Şikayet etmek yerine, her yılın bize verilmiş bir hediye olduğunu düşünmeliyiz.”

Modern istatistik Belçikalı bilim adamı Lambert Adolphe-Jacques Quetelet tarafından kurulmuş. Lambert kişilerin boy, kilo, uvuz uzunlukları ve bunların yanında psikolojik testler ile entellektüel özelliklerini ölçmüş. Ve görmüş ki çoğu insan için bu ölçümler benzer dağılım gösteriyor. Veriler grafiğe dökülünce de işte bu normal dağılım eğrisi ortaya çıkmış:normal-dagilim

Bu dağılımın matematiksel fonksiyonlara uyan bir çok özelliği var.  Örneğin, normal dağılım için şu her zaman doğru olan bir gerçek: örneklemin %99’u 3-standart sapma aralığına, %95’i 2-standart sapma aralığına, %68’i 1-standart sapma aralığına düşüyor. Tabi bazı ölçümler normal dağılıma uymamış. Mesela gelir dağılımı. Madem insanların doğasıyla ilgili tüm ölçümler normal dağılım gösterirken, neden gelir değerleri normal dağılım göstermiyor? Neden çünkü para mevzusu doğamıza aykırı, doğal olmayan bir durum mu acaba? Lidyalılar bile pişman olurlar belki parayı bulduklarına para için insanların düştüğü durumları görseler. İşte istatistik,sosyal olguların nedenleri üzerine bu tür yorumlara altyapı oluşturuyor. Yine normal dağılım eğrisine bakarak görülecek ve yorumlanacak birşey daha var. Outlier lar. Outlier, herkes normale uyarken normalin dışına çıkan yaramaz verilerdir. Bu veriler çok değerli olabilir fakat genelde göz ardı edilme eğilimi yüksektir. Detaylı inceleme başka bir blog yazısında olur.

Astronottan mühendise, fizikçiden psikologa, ilaç şirketlerinden genetikçilere herkes olasılık matematiği kullanmak zorunda.

İlk olasılık kuramı kumarhanelerde ortaya çıkmış. Karl Peason delirmiş olmalı ki gerçekten 24.000 kez bozuk parayı havaya atmış ve gelenin yazı mı tura mı olduğunu yazmış. Ve görmüş ki yazı tura yarı yarıya.

Şu bir gerçek ki olasılık ve istatistik büyük veri olduğu zaman anlamlı. Bir deneyi ne kadar fazla tekrar edilirse sonuçlar o kadar çok gerçeğe yaklaşacaktır. İlk yazımda bahsettiğim gibi bir olayı etkileyen tüm değişkenleri bilmenin imkanı olmayacağı için ne kadar fazla tekrar, ne kadar fazla verir o kadar gerçeğe yakınlık.

Büyük Veri – Big Data çağındayız ve ben  veri analisti olma yolunda olasılık ve istatistiksiz olmayacağının farkındayım. Dolayısıyla bir istatistik kategorisi açmak şart oldu.

Hiç bir şey olasılıksız değildir. Olasılıksız bırakmayın kendisini efendim sağlıcakla..

Referanslar
https://en.wikipedia.org/wiki/Edmond_Halley
https://en.wikipedia.org/wiki/Karl_Pearson
http://www.dr.com.tr/Kitap/Tanri-Matematikci-Mi/Mario-Livio/Bilim/Bilim-Tarihi-ve-Felsefesi/urunno=0000000632232

679 total views, no views today

Beyin mi Bağırsak mi

brainGutMısırlılar, mumyalama işlemlerinde mide, bağırsak, karaciğer gibi birçok organı korumaya alırlardı. Fakat beyin bunların arasında değildi. Mumyalama öncesinde beyni önce ezerler sonra burundan akıtıp dışarı atarlardı. Acaba bir bildikleri mi vardı Mısırlıların??

Bu yazıda nelerden bahsediliyor:

  • İkinci Beyin: Bağırsaklar
  • Mikrobiyom ve Hastalıklar
  • Yenidoğan Mikrobiyom çalışması ve Antibiyotik kullanımı
  • Probiyotikler

Vücudumuzda beyin kadar ağır, kim olduğumuzu belirlemede önemli olabilecek, şimdiye kadar fazla kaale alınmayan, hatta beyine de benzeyen, beyin kadar canlı başka bir organımız var: bağırsaklarımız. İlginç bir şekilde beyinde bulunan hormonların çoğu bağırsaklarda da mevcut, beyindeki nörotransmitter kadar bağırsakta da var.  Ayrıca bağırsaklarımızda ayrı da bir dünya var: mikroplar. Mikrobiyomumuz içimizde bir kalkan gibi bizi korur, yardımcı olur. Örneğin bazı yiyeceklerin sindirimi ile biz başa çıkamayız, mikroplarımız o işleri bizim için halleder, kolestrolün düşük seviyelerde kalmasını sağlar. Kısacası onlar bize biz de onlara muhtacız esasen ve son zamanlarda daha da fazla önemli hale geldi öyle ki ikinci beyin olarak nitelendiriliyor bağırsak mikrobiyomu.

Tıpkı fizikteki Netwon öğretisinden Einstein öğretisine geçişteki kırılım gibi, insan vücudunun algılanması ile ilgili yeni bir kırılım yaşanıyor.

Güzel yaz akşamlarında sivrisineklerin bazı insanları rahatsızlık verdiğini biliriz. Bunun nedeni cildimizdeki mikroplardan kaynaklıdır. Hayvanlar için kanıtlanmış olan ve mikroplarla ilişkili olduğu düşünülen ilginç bir şey de çiftleşme partnerinin seçimi imiş. Bende Rob Knight’ın yalancısıyım. İnsanlar için kanıtlanmamış henüz fakat şu elektrik var mı yok mu meselesi vücudumuzdaki mikroplarla ilişkili çıkarsa hiç şaşırmam.. Esra Erol’un programında bir deney yapılabilir belki :p

Şuanda mikroplar, bağırsak hastalıkları, kalp hastalıkları, kolon kanseri ve hatta obezite gibi hastalıklar ile bile ilişkilendirilmiştir. Kişilerin bağırsaklarındaki mikrop topluluğu incelenerek kişinin obez olup olmadığı %90 doğru tahmin edilebiliyor. Bu kişilerin DNA’sındaki benzerliğe bakılarak yalnız %60 doğru tahmin sağlanabiliyor.

Belki de vücudumuzdaki mikroplar, bazı sağlık durumlarında genomdaki her genden daha fazla önemli.

Obez bir kişiden ve normal bir kişiden alınan mikroplar normal farelere enjekte edilmiş, obez kişiden alınan mikropların enjekte edildiği fareler diğerlerinden daha şişman oldukları gözlenmiş. İlerde, obezite için kilo alma olayından koruyacak mikrobik toplulukları kullanarak bir aşı tasarlanabileceği düşünülüyor. Yine bir çalışmada ishal olan kişilere sağlıklı bireyden alınan mikroplar aktarıldığında hızlıca iyileşme gösteriyorlar.

Mikroplar hastalıkların tedavisinde kullanılabilecek yeni bir keşif.

Bilim dünyasının hedefleri arasında sağlıklı olma durumunun mikrobiyom haritası çıkarılması, bu haritada nerede bulunduğumuz ve nereden nereye nasıl gidilmesi gerektiğini de gösterebilecek bir “Mikrobiyom GPS” aracı oluşturabilmek.

Rob Knight ve ekibi oldukça ilginç bir çalışmaya imza atmışlar. Bir bebeğin mikrobik gelişimini incelemişler 2,5 yıl boyunca her hafta bebeğin dışkısından aldıkları örneklerle. Örneklerin, ilk zamanlarda vajinal ve cilt mikropları içerdiği, 2,5 yıl sonunda yetişkin birey dışkısı ile benzer mikrobik ortam oluşumu gözlemlemişler. Yalnız bebek antibiyotik aldığında mikrobik topluluklarda ani değişimler gözlenmiş.

Bir bebeğin ilk 6 ayında verilen antibiyotiğin, onun yaşamındaki sağlığı üzerinde derin etkiler bırakabilir.

Aşırı antibiyotik kullanımı mikrobiyom topluluklarının birçoğunu kırıp geçiriyor. Tek tük çok arada antibiyotik kullananlar için mikrobiyom çabuk toparlanabiliyor fakat hasta ve zayıf insanlar için öyle olmuyor. Antibiyotiğin yan etkisi olarak, ölümlere neden olan Clostriduim difficile adlı bir bakteri tarafından enfekte olabilirler.

Bu yıkıma çözüm olarak probiyotikler önerilebilir. Probiyotik, faydalı bakterilerdir ve yoğurt kefir de bol bulunur.

Kefir kendini iyi hissetme anlamına gelir ve Orta Asya ve Kafkaslarda yüzyıllardır tüketilen bir süt ürünüdür.

Ayrıca probiyotiklerin depresyon ve anksiyetede faydalı olduğu ortaya çıktı. Beyin ile bağırsak arasındaki etkileşimi yeniden tanımlama adına önemli . Mikropların memeli hayvanların davranışlarına bile etki edebileceği ile ilgili çalışmalar yapılmaya başlanmış.

 

Mikroplarınızla barışık kalın efendim..

Referanslar
http://www.haberturk.com/saglik/haber/687543-midenizde-ikinci-bir-beyin-var
http://www.gapskitap.com/bagirsak-beyin-iliskisi-1.html
http://www.hurriyet.com.tr/antibiyotiklerin-bebekler-uzerindeki-etkileri-24735914

Beyin – Bağırsak Bağlantısı

 

388 total views, no views today

İnsan Mikrobiyom Projesi

Bu yazıda nelerden bahsediliyor:

  • İnsan Mikrobiyom Projesi
  • Kişiye Özel Mikrobiyom
  • Mikrobiyom ve Hastalıklar ilgili Çalışmalar

2008’de ABD’de başlatılan İnsan Mikrobiyom Projesi 5 yıl süren ve 115 milyon dolara mal olmuş bir proje. Bu proje tıp dünyasına hastalıklara yaklaşım açısından yepyeni bir bakış açısı getirdi. Bir insanın, vücudunda 100 trilyon kadar mikroskobik canlıyla birlikte yaşadığı ortaya koyuldu. 250 insan üzerinde yapılan çalışmada, insan vücudundaki bazı noktalar belirlenerek orada yaşamını sürdüren tüm bakterilerin gen haritaları çıkarılmış, 5000’den fazla alınan örneklerde görülmüş ki, vücudumuzun farklı bölgeleri farklı mikrobik topluluklara sahip.

hmp

Yandaki resimde görülen her nokta, bir sağlıklı insanın belirlenen bölgesinden elde edilmiş mikrobiyom topluluğunu ifade ediyor. Renkler ise vücudun farklı bölgelerini (ağız içi, cilt, dışkı ve vajinal). Yani bir insanın ağzındaki mikroplar ile bağırsaklarındaki mikroplar tamamen farklı olabilirken, diğer bir insanla ağzındaki mikrobik topluluk benzerlik gösterebiliyor.

Her insanın kendine has DNA bilgisi vardır. Aslında her insan için DNA bilgisi %99 aynıdır. %1’lik farklılık insanlardaki farklılıkları yaratır. Fakat vücudumuzdaki mikrobik topluluklar için durum biraz farklıdır. Yanınızdaki kişi ile bağırsak bakterileriniz arasında sadece yaklaşık %10 benzerlik var olabiliyor. Dolayısıyla her insanın kendine özgü bir mikrop dünyası var biz bu dünyayı dokunduğumuz her yere de taşıyoruz. Bir çalışmada kişilerin kullandıkları bilgisayar faresi ve avuç içlerinden örnekler alınmış ve kimin hangi fareyi kullandığı %95 gibi yüksek bir oranda tahmin edilebilmiş. Bir kişiyle birlikte haftalar, aylar, yıllarca yaşasanız bile kendinize ait mikrobik dünyanızı koruyabiliyorsunuz.

İlk mikrobik topluluğumuzu, ilk doğarken elde ediyoruz. Normal doğan çocuklardaki mikrop topluluğu vajinal mikrobik topluluğa benzer iken, sezaryen ile doğan çocuklarda ciltteki mikrobik topluluğa benzer oluyor. Sezaryen ile doğan çocuklarda normal doğanlardan daha fazla görülen astım, alerji, obezite gibi birçok hastalık doğum anında değişmiş olan mikrobik topluluklardan kaynaklanabileceği araştırılmakta. Hatta son zamanlarda bilim insanları sezeryan ile doğan bebeklerin normal doğum sürecini yaşamadıkları için kaybettikleri mikrobik topluluğu yerine koyabilmek için, vajinal mikroplarla bir nevi mikrobik banyo yaptırılmasını uygun görüyorlar. (Kaynak)

Diyabet hastalığı nedir? Diyabet bir otoimmün hastalıktır. Vücut kendisi ile savaşıyor. Uzun yıllar diyabetin, bir bakteri tarafından vücudun insülin üreten hücreleri yok edecek şekilde immün sistemini etkilediğine inanıldı. Şimdi insan vücudunda yaşayan bakterilerin farkındalığı ile belki de diyabetin bu bakteriler arasındaki iletişim yanlışlığından kaynaklanabileceği yorumları yapılmaya başlandı.

Bağırsak bakterilerinin obezite ile ilişkisi de son zamanlarda araştırma konusu:  Genler bağırsak bakterilerini kontrol ederek kilomuzu kontrol edebilir

Genetik çalışmaların bakış açısı, genlerdeki farklılıkların direk hastalıklar ile ilişkilendirilmesi idi ki bazı hastalıklar için örneğin gögüs kanseri için BRCA geni bulundu. Şimdi biraz daha dolambaçlı bir yoldan, genlerdeki farklılıkların insan mikrobiyomunu etkileyerek hastalığa sebebiyet vermesi tartışılıyor.

Mikrobiyomu daha iyi , daha hızlı ve daha ucuza anlayabilecek hale gelmeliyiz diyor Rob Knight, Kaliforniya üniversitesinden. Mikrobiyom üzerine çalışan başlıca kişiler arasında (Knight Lab)

Rob Knight’ın Ted Talks’daki eğlenceli konuşmasını izlemenizi tavsiye ederim.

 

Mikroplarınızla barışık kalın efendim..

Referanslar
https://en.wikipedia.org/wiki/Human_Microbiome_Project

Genlerimiz Bağırsak Bakterilerini Kontrol Ederek Kilomuzu Kontrol Edebilir


https://knightlab.ucsd.edu/

http://www.nature.com/news/scientists-swab-c-section-babies-with-mothers-microbes-1.19275

 

1,559 total views, no views today

Mikroplarla İş-Birliği

“Haşin sevmek” diye bir şey vardır. Aslında bazen bir yaşam biçimi olduğunu düşünürüm.. Niyeyse daha samimi gelir bana diğer türlerden.. “ay canımm ciğerimli” konuşmalar daral getirir ruhuma belli bir müddetten sonra. Mesela “mikrop yaa” diyerek severim bazen, sıpa ve eşşek diye türevleri de mevcuttur. Garip biliyorum. Ama benim gibiler var diye düşünüyorum. Yalnız değilim biliyorum. Fazla “iyi” ortama alışkın olmamaktan mıdır nedir bilemiyorum malumunuz ortadoğu ülkesiyiz ya ondan yada ne bileyim bi çocukluğuma inip gelmem lazım sanırım bunun cevabı için. Neyse o yol uzun, buradan mikroplara yatay geçiş yapalım.

Bu yazıda nelerden bahsediliyor?

  • Mikrop ve Mikrobiyom nedir
  • Mikrobu ilk kim gördü
  • Biyoinformatikçiler ile ilişkisi
  • Mikrobiyom araştırılma trendi

mikMikrop deyince aklıma ilk gelen şey “ölsün mikroplar” reklamı. Hep öcü olarak gösterilen yeşil yaratıklar.. Halbuki onlar bizim hayat arkadaşlarımızmış ya. Birlikte yaşadığımız o kadar çok mikrop varmış ki ve onlarsız yaşayamacağımız da bir başka gerçek.. İnsan vücudunda var olan toplam hücrelerin 10 katı kadar mikropların var olduğunu biliyor muydunuz? 10 trilyon hücremiz var ise vücudumuzda, 100 trilyon kadar da mikrop hücresi var. Vücudumuzda 20.000 insan geni mevcut iken 2-20 milyon mikrop geni mevcut.

minicanZargan.com’da microbe kelimesi için İngilizce-Türkçe çevirisinde “minican” diye de bir kelimeye yer vermişler. Ne de sevimli değil mi  Dolayısıyla ölmesin mikroplar özellikle faydalı olanlar, yaşasın minicanlar!

llk bakteri 1675 de Hollandalı tuhafiyeci olan Antoni Van Leeuwenhoek tarafından görülmüş. 19 yy’ın sonlarında, doğal toprak ve sudan elde ederek mikropları, bakterileri geliştirecek laboratuvar teknikleri geliştilmiş. Şimdi de onları sadece gözlemek yerine onlarla çalışılabiliyor. 1950’lerde oksijenli ortamda üremeyen bakterileri çoğaltmak için bir teknik geliştirildi. 1980’lerde bakterileri artık üretmeye de gerek kalmadan genlerinden tanıyacak teknikler geliştirildi. Bir mikroplar dünyasıyla ilgili gen koleksiyonumuz oldu fakat %50 si şuan için bilinmiyor.

İşte vücudumuzun içini ve dışını kaplamış olan, dokunduğumuz her noktada var olan, havada, suda, toprakta, hatta uzayda imkansız koşullar artında bile yaşamlarını sürdürebilen mucizevi yaratıklar topluluğuna “mikrobiyom/mikrobiyota” diyoruz.

Mikrobiyomdan elde edilen genom bilgileri biyoinformatikçiler için muhteşem bir veri kaynağı oldu. Bilim adamları insan bağırsak mikrobiyomu içinde bazı bakterileri seçerek etkisiz hale veya etkili hale getirip bazı hastalıklar üzerindeki etkilerini değerlendirmeye başladılar. Bilişimcilerin mikrobiyologlar ile ortak çalışması sonucu, bir bilgisayar modeli oluşturulması, zaman içinde bir mikrobik topluluğun nasıl değişeceğinin tahmin edilmesi tıp alanında büyük farklılıklar yaratacağı düşünülüyor. Örneğin: bir diş fırçası düşünün ki sizin dişinizin çürüyeceğinin bilgisini önceden anlayabiliyor, yada derinizden bir parça analiz edilerek ilerde deri iltihabı olup olmayacağınız tahmin edilebiliyor.

Şöyle düşünmek lazım: İnsan, bitkiler, nehirler hepsi kendi başına bir ekosistemdir fakat aynı hayat kurallarına tabiiler. Kendimizi onlardan ayırarak bu benzerlikleri kaçırıyoruz. Mikropların yaşam sınırları yok ve dolayısıyla mikrobiyom çalışmaları tüm kıtaları ilgilendiriyor. Bu bakış açısı insan hastalıklarını da tüm fiziksel çevresiyle birlikte bir bütün olarak değerlendiriyor ki bana en mantıklı gelen bakış açısıdır. Sonuç olarak, ozon, çamaşır suyu gibi maddelerden hiç de hoşlanmayan birisi olarak, mikrobiyom konusunu oldukça benimsedim ve mikroplarla iş-birliği yaptım. Tıp bilişimi alanında olmaktan oldukça mutlu ve gururluyum, böyle evrensel bir konuda çalışacağım için mutluluğum bir kat daha arttı. Umarım hayırlı olur vatana millete.. (yine bir yeni doktora öğrencisi “euraka sendromu” cümleciği kaale almayınız 🙂 )

Şimdi kısa bir araştırma yaptım mikrobiyom ile ilgili. Google Trends’de tüm dünyada “microbiome” sözcüğü için arama trend grafiği aşağıdaki gibi: 2009’larda kıpırdanma başlamış, 2013’lerden itibaren artış hızla devam etmekte. Bölgesel olarak ABD, Avustralya, Kanada, UK, Hindistan ve Almanya ilk sıralarda. İlginç bir şey var ki bölgesel ilgiye şehir bazında baktığımda gördüm ki “Bethesda” şehri açık ara önde. Bu şehir ABD’de Maryland’da, sağlık ve tıp ile ilgili merkezlerin bulunduğu, zengin ve eğitim seviyesinin oldukça yüksek olduğu bir şehirmiş.

Tüm dünyada microbiome kelimesi için arama trendi
Tüm dünyada “microbiome” kelimesi için arama trendi

 

Sadece Türkiye için grafik aşağıdaki gibi ve 2012’den sonra bir kıpırdanma var. Lokasyon olarak  veri yok yeterli arama hacmi bulunmadığı için.

trend1
Türkiyede mikrobiyom kelimesi için arama trendi

 

Dünyada çok yeni, Türkiye’de ise henüz keşfedilmemiş bir alan mikrobiyom.

Mikroplarınızla barışık kalın efendim..

 

Referanslar

https://tr.wikipedia.org/wiki/Bakteri
https://tr.wikipedia.org/wiki/Antonie_van_Leeuwenhoek
https://www.google.com.tr/trends/

 

379 total views, no views today

Verimizi tanıyalım

vv

Baş aktörümüzü tanıyalım: İşte karşınızda “Veri”.. Veli ile karıştırmayın, Veri de konuşur tıpkı Veli gibi.. Ama Veri’deki ön yargı, eğilim ve yorum yoktur veride, desteklidir söyledikleri, yalanı, hilesi hurdası yoktur eğer sen verini doğru tanıyıp doğru yöntemlerle analiz etmiş isen.

Bu yazıda nelerden bahsediliyor?

  • Veri dosya formatları
  • Veri türleri

Temel olarak veri iyi yapıda bulunur: Yapılandırılmış  ve Yapılandırılmamış.

Yapılandırılmış veri bilgisayar işlemesine hazır halde bulunan veridir. JSON, CSV, XSL, XML, RDF, HTML gibi dosyalarda tutulabilir. Yapılandırılmamış veri, düz metin dosyası (TXT, PDF, DOC ), taranmış görsel dosyaları (JPEG vb.), ses dosyaları (MP3 vb.) gibi içeriğini anlayabilmek için ileri veri madenciliği teknikleri kullanılması gereken verilerdir.

İstatistiksel olarak da verinin türlerinden bahsedebiliriz: Nitel – Nicel Veri

Nitel Veri, adı üzerinde nitelikleri belirten veridir, sayım ile belirlenir: cinsiyet, eğitim durumu vb. Nicel veri sayısal veridir, ölçümle elde edilir: yaş, uzunluk, uzaklık vb.

Nitel Veri: Nominal ve Ordinal olarak iki alt türünden bahsedilebilir. Nominal veri kategoriktir ve “daha fazla” ifadesi ile kullanılmaz; cinsiyet gibi mesela. Daha fazla “kadın” yada daha fazla “erkek” denmez NŞA’da. Ama argo olarak denebilir tabi adam gibi adam dersin, adamın dibisin dersin, hatunun hası dersin. Bunlar hep “daha çok adam, daha çok kadın” anlamına gelir aslında ama bunun tabiki bizim konumuzla alakası yok.

Nominal veri cinsiyet gibi yanlızca ikili seçenekten oluşur ise (kadın ve erkek) buna özel bir isim verilir “dikatom (binary) ” veri denir. Ama yakında LBGT örgütleri güçlenip de cinsiyet ikiden fazladır da diyebilirler. Diğer türlerinde anketlerde yer alması istenebilir böylece daha fazla seçenek içerebilir nominal veri Medeni durum (evli, bekar, dul ) gibi. Bunlara da çoklu kategorik veri diyoruz.

Dikatom (Binary) veriler için genelllikle 1 ve 0 seçenekleri kullanılır. Örneğin evet ve hayır cevabı içeren bir test için evet 1 hayır ise 0 ile gösterilebilir. NŞA’da bu iki cevabın ağırlığı aynı olduğu kabul edilir yani evetin hayır üzerine bir üstünlüğü yoktur veyahut tam tersi. Bu durumda veri simetriktir denir.  Verinin asimetrik olduğu durumlar da olabilir. Örneğin,  bir testin + veya – çıkması durumunda negatif (-) çıkması daha önemli ise asimetrik binary veri tipi kullanılır.

Ordinal veri sıralama bilgisi içeren veri çeşitidir ve “daha fazla” ifadesi ile kullanılabilir, örneğin eğitim durumu (ilk, orta,lise,üniversite, yüksek lisans, doktora ) sıralanabilir bir veri türüdür.

Nicel Veri: Sayısal verilerdir. Sürekli ve  Kesikli olabilmesi yanında Aralıksal ve Oransal olarak da değerlendirilebilir.

Sürekli sayısal veri ölçüm yolu ile elde edilir; örneğin boy uzunluğu gibi. Kesikli sayısal veri sayılarak elde edilir, çocuk sayısı vb. gibi.

Aralıksal ve Oransal veriyi anlatmak için bir soru sorayım:

Hava Sıfır dereceyken “iki kat daha soğuk” kaç derece olur?

Aralıksal veri için iki sayı arasındaki oran anlamlı değildir. Onun için çarpma ve bölme işlemleri doğrudan doğruya tatbik edilemez. Örnek olarak : Miladî, Hicrî, Çinli vb gibi çok değişik takvim şekli olduğu için takvim tarihleri; yine santigrad, fahrenhayt vb kullanarak ısı ölçümleri. 10 derecenin iki katı 20 derece değildir örneğin. Çünkü Mutlak sıfır Kelvin deki 0’dır yani 273 santigrad. Santrigrad (273K ile 373K aralığında bir değerle ifade edilir.) iki kat soğuk hesap edilirken de 0’ın Kelvin cinsine çevirip işlem yapılmalıdır. 0 derece 273 kelvin yapar. iki kat soğuk demek bunun ikiye bölünmesi demek: 136,5 kelvin. Santigrada çevirince -136,5 santigrad derece demektir. Dolayısıyla santrigrad verisi arasında oran anlamlı değildir.

Oransal veri ise aralıksal verinin tüm özelliklerine sahiptirler ve bunlara ek olarak herhangi iki çift sayı arasında kurulan orantı da anlamlı olur. Oransal ölçekli sayılar için keyfî olmayan gerçek başlangıç sıfır noktası bulunur. Örnek olarak ısının Kelvin olarak ölçümü orantısal veri olur.  Diğer yandan, ankete cevap verenlerin için yaşı, belli bir adreste ikamet dönemi, çalışma yerinde kaç yıldır bulunduğu gibi verilerde orantısal olarak değerlendirilir mutlak 0 noktası olduğu için.

Veri türleri ve veri dosya formatları hakkında kısaca yazacaklarım bu kadar.. Veriyle kalın efendim..

Referanslar

http://mustafaakca.com/istatistiksel-veri-tipleri/
https://tr.wikipedia.org/wiki/%C3%96l%C3%A7%C3%BClme_%C3%B6l%C3%A7e%C4%9Fi
https://tr.wikipedia.org/wiki/Veri

301 total views, no views today

Hello DataAsk <3

obirdoktoraogrencısıTemel olarak bu blog sitemde sizlerle dataAşkımı paylaşmayı hedefliyorum. Veri Bilimi ve benim üzerinde yoğunlaşmaya başladığım mikrobiyom bilimi üzerine yazılarımı ve biriktirdiklerimi bulacaksınız. İki temel kategorim olacak: veribilim ve mikrobiyom

Umarım hep birlikte eğleniriz.. Bu arada fazla da şeyetmeyin öyle veridir, ölçmektir, analizdir filan, fazla kafayı yorarsak sıyırabiliriz.. Ben uyarımı yapayım da :))

Bu yazıda nelerden bahsediliyor?

  • Matematik, Olasılık ve Büyük Veri ilişkisi
  • %100 tahmin ve Kelebek Etkisi
  • Neden veri kıymetli?
  • Benim DataAsk’ım

“…’Satranç hayat gibidir David,’ demişti babası. ‘her parçanın kendi işlevi vardır. Bazıları zayıftır, bazıları ise güçlü. Bazıları oyunun başında işine yarar, bazılarıysa sonunda. Ama kazanmak için hepsini kullanmak zorundasın. Aynen hayatta olduğu gibi, satrançta da skor tutulmaz. On parçanı kaybedip, yine de kazanabilirsin oyunu. Satrancın güzelliği budur işte. İşler her an tersine dönebilir. Kazanmak için yapman gereken tek şey tahtanın üzerindeki olası hamleleri ve anlamlarını iyi bilmek ve karşındakinin ne yapacağını kestirebilmek.‘ ‘Yani bu geleceği tahmin etmek gibi bir şey mi?’ diye sordu Caine. ‘Tahmin etmek imkansızdır. Ama şimdiki zamanı çok iyi bilirsen geleceği kontrol edebilirsin.‘…”

Adam Fawer’ın Olasılıksız kitabından bir kesit. Bu kitabı okuduğum süreçteki aldığım hazza özlem duyuyorum sanırım. Fransız matematikçi Pierre-Simon Laplace, 18. yüzyılın sonlarında hazırladığı tezinde, günün birinde evrendeki tüm yasalar bilindiğinde gelecekteki tüm olayların öngörülebileceğini söylemişti.

Yani olay şu: bir parayı havaya fırlattık, yazı mı tura mı geleceğini tahmin etmek istiyoruz. Eğer o andaki o bozuk paraya etki eden tüm çevresel ve diğer faktörleri bilirsek; paranın fırlatılma hızı, hava sürtünme katsayısı, rüzgarın hızı, yer çekiminin gücü, paranın ağırlık dengesi vb verilerin hepsi.. işte o devasa veriye sahip olursak paranın tam olarak yazı mı tura mı geleceğini %100 doğrulukla bilmek mümkün olabilir. İşte bu devasa veri.. Şimdiki en büyük sorunsalımızdan birisi bu. Kim bilir neler gizli o verilerde.. “Big Data-Büyük Veri” kavramı ile isimlendirildi ve şuanda ki en çok konuşulan konulardan.

Bir olgunun tahmininde onu etkileyen faktörlerle ilgili herhangi bir verideki bir küçük noksanlık ya da farklılık sonuçlarda çok büyük değişikliklere sebep olabileceği de “Kelebek etkisi” fenomeni olarak bilinir. Bir meteorolog olan Edward Lorenz, 1963 yılında bilgisayarıyla hava durumu tahminleri üzerine çalışmaktaydı. Yine bir çalışmasında Lorenz, hesaplamasında sisteme 0,506127 sayısını başlangıç verisi olarak girdi. Sonraki aşamada Lorenz, 0,506127 sayısını 0,506 olarak girmesinin sisteme etkisinin olmayacağını, çünkü yaptığı değişikliğin çok küçük bir değişiklik olduğunu düşünüyordu. Nitekim bu değişiklik matematiksel olarak öyleydi de.. Ancak Lorenz, elde ettiği sonuçlar karşısında hayrete düştü. Yaptığı bu küçük değişiklik sistemin devasa farklılıkta sonuçlar vermesine neden olmuştu. Lorenz bilgisayarının bozulduğunu düşündü ancak tekrar tekrar yaptığı hesaplamalar bunun tersini söylüyordu. Gerçekten de Lorenz’in bilgisayarında bir kelebeğin kanat çırpması kadar önemsiz olan yaptığı bu küçük değişiklik sistemin tamamen farklılaşmasına yol açmıştı. Yani çok küçük değişkenlerin en ufak hareketlerinin bile sistemde çok büyük değişimlere sebep olabileceğini gördü.

NŞA’da bu kadar kesin ve net bilgi toplamak mümkün olmadığından, bir şeyi %100 doğruluk ile tahmin etmek mümkün değildir. Veri Bilimindeki en önemli konunun hata analizi olduğunu burda belirteyim.

Matematik biliminin kesinliğinden lisans döneminde aldığım “Bulanık Mantık” dersi yardımıyla bir üst kademeye geçtim. Java dersi ile de bu bulanıklığı modellemeye aşık oldum, bilgisayarın ve programlamanın gücüne hayran oldum. Matematik ile başlayan simge ve sembollere uğraşım, kod dünyasına devam etmekte, şimdi de mikrobik dünyaya doğru evrilmekte.. (Çok yakında bu durumu açıklayacağım bir yazı ile).. Devinim ve değişim hayat tarzım iken kariyerimde bunun devam etmemesi düşünülemezdi zaten.

Sosyal bir olgu üzerinden bir örnek verelim. Yaş, yaşılık ve gençlik üzerinden..

Matematik Kesindir. Derki ” a kişisi 45 yaşındadır.”

Peki bu kişi yaşlı mıdır genç midir diye sorulduğunda Matematik ne cevap verir? Matematiğin buna bir cevabı yoktur. Çünkü, yaşlılık-gençlik kavramı hayatın ve zamanın kendisi gibi göreceli bir kavramdır.

Bu soruya bir cevap bulmak için ne yaparız? Veri toplarız. 100 kişiye sorduk diyelim 45 yaşındaki bir kişi genç midir yaşlı mıdır? 60 kişi yaşlı, 40 kişi genç demiş olsun. O zaman bulanık mantığa göre deriz ki “a kişisi %60 genç, %40 yaşlıdır.” Nasıl yani! Bir kişi hem genç hem yaşlı nasıl olabilir! Saçmalık!

İşte Olasılık teorisi tam da bunu söylüyor. Diyor ki: bir şey aynı anda belli oranlarda başka şeyler olabilir. Aynı ikizler burcu gibi :p Ya da bir olguyu belli oranlarda başka şeyler etkiliyor olabilir. Şu şundan kaynaklı diyemezsin öyle kolayca. Örneğin, yukarıdaki sorunun cevabındaki oranların toplumdan topluma farklılık göstermesi olağandır. Yani o 100 kişiyi alacağınız toplumun örf-adet-gelenek-görenek-yaşam tarzı vb bilimum faktörlerde bu cevap üzerinde etkili. İşte bu yüzden Sosyal bilim çalışmak zordur..Sosyal bilimciler olasılık bilmeli ve bilişimcilerle işbirliği de her alanda olduğu gibi bence şarttır.
thisisnotkaosSonuçta Welcome to Chaos! Yani kutuda olduğunu bildiğin bir kedi kutu kapalıyken %50 olasılıkla oradadır. Yani orda olabilir de, olmaya da bilir? Gözün görmediğinden “o kedi orda! o kedi buraya gelecek!” di-ye-mi-yor-sun. Bazen gözün bile yanlış görmüyor mu? Halisünasyonlar falanlar filanlar.. Aman Tanrım bu yazı nereye gidiyor böyle 🙂 Ama şu artık biliniyor ki kaos gibi görünen şeylerin aslında kendi içinde bir düzeni olduğu ve bu düzenin ortaya çıkarılmasında veri bilimi ve bilgisayar biliminin etkinliği oldukça fazla.

Neyse konuya dönersek, Şimdiki bir durumu anlamaya ve gelecekte olacakları değerlendirebilmek için elimizde yanlızca tek şey var: Veri
Sadece şimdiyi anlamak ve gelecekte olacakları öngörmek iş değil (dipnot: aslında büyük bir iş bakmayın böyle dediğime), bir de bu gidişi değiştirmek var işte asıl devrimciler bunlar! (dipnot: buradaki devrim sözcüğü hiçbir siyasi anlam içermez.Devrimci’nin TDK sözlük anlamı: Belli bir alanda hızlı, köklü ve nitelikli değişiklik yapan kimse.) Örnek olarak dünyadaki eğitim durumunu ortaya koyan ve sonunda gelecek hedefi belirlenmiş şu makaleyi inceleyebilirsiniz.. Bir başka makalede de Türkiye’deki eğitim durumunu ve amaca yönelik belirlenmiş stratejileri inceleyebilirsiniz.

Geleceğimiz şekillendirebilmek için elimizde iki şey var: 1-Veri – 2-Niyet.. Veri çünkü bir şeyi yönetmek istiyor ise ölçmeliyiz. Neydi mottomuz:”Ölçemezsen Yönetemezsin!” Peki niyet de nerden çıktı! demeyin.. İşe başlamadan diyeceğiz ki “Niyet ettim ben bu veriyi iyi işler için kullanacağıma” 🙂 Ciddi diyorum.. Diyecez ki “ben gelecekte iyi şeyler olsun istiyorum. Şimdi elimdeki veri bu. Bu veriyi etkileyen faktörler de sanki şunlara benziyor. O zaman o faktörler üzerinde düzenlemeler yapıp ben gelecekte şu vakitte bunun söyle iyileşmesini gerçekleştirmek istiyorum” (Futurizm dersine minnattarım. Teşekkürler ODTÜ :*)

phd

İşte o aşık olduğum Veri Biliminin, olmak istediğim Veri Bilimcisinin işi de bu anlatılanların tam orta noktasında. Zurnanın zırt dediği yer ambiyane tabirle. En başta veri toplamakla başlayan ve veri içindeki örüntüleri ortaya çıkarmayı, veriyi görselleştirmeyi de kapsayan serüven ile geleceğimiz için somut bir şeyler yapabileceğiz, bu yüzden bu kadar heyecan. Vatana millete dünyaya hayırlı olacaz daha ne olsun :)) (Dipnot: Tezine başlayan her doktora öğrencisinin başına gelen “evroka” sendromu bu, fazla kaale almayın bence şimdilik yani..Taa ki Nature’da yayınımız çıkana kadar.)

 

Referanslar
www.baturorkun.com/olasılıksız
www.kozmikanafor.com/kaos-ve-kaos-teorisi
erguvanlar.blogcu.com/olasiliksiz-adam-fawer/3133586
www.datalove.me/

 

523 total views, no views today