Hello DataAsk <3

obirdoktoraogrencısıTemel olarak bu blog sitemde sizlerle dataAşkımı paylaşmayı hedefliyorum. Veri Bilimi ve benim üzerinde yoğunlaşmaya başladığım mikrobiyom bilimi üzerine yazılarımı ve biriktirdiklerimi bulacaksınız. İki temel kategorim olacak: veribilim ve mikrobiyom

Umarım hep birlikte eğleniriz.. Bu arada fazla da şeyetmeyin öyle veridir, ölçmektir, analizdir filan, fazla kafayı yorarsak sıyırabiliriz.. Ben uyarımı yapayım da :))

Bu yazıda nelerden bahsediliyor?

  • Matematik, Olasılık ve Büyük Veri ilişkisi
  • %100 tahmin ve Kelebek Etkisi
  • Neden veri kıymetli?
  • Benim DataAsk’ım

“…’Satranç hayat gibidir David,’ demişti babası. ‘her parçanın kendi işlevi vardır. Bazıları zayıftır, bazıları ise güçlü. Bazıları oyunun başında işine yarar, bazılarıysa sonunda. Ama kazanmak için hepsini kullanmak zorundasın. Aynen hayatta olduğu gibi, satrançta da skor tutulmaz. On parçanı kaybedip, yine de kazanabilirsin oyunu. Satrancın güzelliği budur işte. İşler her an tersine dönebilir. Kazanmak için yapman gereken tek şey tahtanın üzerindeki olası hamleleri ve anlamlarını iyi bilmek ve karşındakinin ne yapacağını kestirebilmek.‘ ‘Yani bu geleceği tahmin etmek gibi bir şey mi?’ diye sordu Caine. ‘Tahmin etmek imkansızdır. Ama şimdiki zamanı çok iyi bilirsen geleceği kontrol edebilirsin.‘…”

Adam Fawer’ın Olasılıksız kitabından bir kesit. Bu kitabı okuduğum süreçteki aldığım hazza özlem duyuyorum sanırım. Fransız matematikçi Pierre-Simon Laplace, 18. yüzyılın sonlarında hazırladığı tezinde, günün birinde evrendeki tüm yasalar bilindiğinde gelecekteki tüm olayların öngörülebileceğini söylemişti.

Yani olay şu: bir parayı havaya fırlattık, yazı mı tura mı geleceğini tahmin etmek istiyoruz. Eğer o andaki o bozuk paraya etki eden tüm çevresel ve diğer faktörleri bilirsek; paranın fırlatılma hızı, hava sürtünme katsayısı, rüzgarın hızı, yer çekiminin gücü, paranın ağırlık dengesi vb verilerin hepsi.. işte o devasa veriye sahip olursak paranın tam olarak yazı mı tura mı geleceğini %100 doğrulukla bilmek mümkün olabilir. İşte bu devasa veri.. Şimdiki en büyük sorunsalımızdan birisi bu. Kim bilir neler gizli o verilerde.. “Big Data-Büyük Veri” kavramı ile isimlendirildi ve şuanda ki en çok konuşulan konulardan.

Bir olgunun tahmininde onu etkileyen faktörlerle ilgili herhangi bir verideki bir küçük noksanlık ya da farklılık sonuçlarda çok büyük değişikliklere sebep olabileceği de “Kelebek etkisi” fenomeni olarak bilinir. Bir meteorolog olan Edward Lorenz, 1963 yılında bilgisayarıyla hava durumu tahminleri üzerine çalışmaktaydı. Yine bir çalışmasında Lorenz, hesaplamasında sisteme 0,506127 sayısını başlangıç verisi olarak girdi. Sonraki aşamada Lorenz, 0,506127 sayısını 0,506 olarak girmesinin sisteme etkisinin olmayacağını, çünkü yaptığı değişikliğin çok küçük bir değişiklik olduğunu düşünüyordu. Nitekim bu değişiklik matematiksel olarak öyleydi de.. Ancak Lorenz, elde ettiği sonuçlar karşısında hayrete düştü. Yaptığı bu küçük değişiklik sistemin devasa farklılıkta sonuçlar vermesine neden olmuştu. Lorenz bilgisayarının bozulduğunu düşündü ancak tekrar tekrar yaptığı hesaplamalar bunun tersini söylüyordu. Gerçekten de Lorenz’in bilgisayarında bir kelebeğin kanat çırpması kadar önemsiz olan yaptığı bu küçük değişiklik sistemin tamamen farklılaşmasına yol açmıştı. Yani çok küçük değişkenlerin en ufak hareketlerinin bile sistemde çok büyük değişimlere sebep olabileceğini gördü.

NŞA’da bu kadar kesin ve net bilgi toplamak mümkün olmadığından, bir şeyi %100 doğruluk ile tahmin etmek mümkün değildir. Veri Bilimindeki en önemli konunun hata analizi olduğunu burda belirteyim.

Matematik biliminin kesinliğinden lisans döneminde aldığım “Bulanık Mantık” dersi yardımıyla bir üst kademeye geçtim. Java dersi ile de bu bulanıklığı modellemeye aşık oldum, bilgisayarın ve programlamanın gücüne hayran oldum. Matematik ile başlayan simge ve sembollere uğraşım, kod dünyasına devam etmekte, şimdi de mikrobik dünyaya doğru evrilmekte.. (Çok yakında bu durumu açıklayacağım bir yazı ile).. Devinim ve değişim hayat tarzım iken kariyerimde bunun devam etmemesi düşünülemezdi zaten.

Sosyal bir olgu üzerinden bir örnek verelim. Yaş, yaşılık ve gençlik üzerinden..

Matematik Kesindir. Derki ” a kişisi 45 yaşındadır.”

Peki bu kişi yaşlı mıdır genç midir diye sorulduğunda Matematik ne cevap verir? Matematiğin buna bir cevabı yoktur. Çünkü, yaşlılık-gençlik kavramı hayatın ve zamanın kendisi gibi göreceli bir kavramdır.

Bu soruya bir cevap bulmak için ne yaparız? Veri toplarız. 100 kişiye sorduk diyelim 45 yaşındaki bir kişi genç midir yaşlı mıdır? 60 kişi yaşlı, 40 kişi genç demiş olsun. O zaman bulanık mantığa göre deriz ki “a kişisi %60 genç, %40 yaşlıdır.” Nasıl yani! Bir kişi hem genç hem yaşlı nasıl olabilir! Saçmalık!

İşte Olasılık teorisi tam da bunu söylüyor. Diyor ki: bir şey aynı anda belli oranlarda başka şeyler olabilir. Aynı ikizler burcu gibi :p Ya da bir olguyu belli oranlarda başka şeyler etkiliyor olabilir. Şu şundan kaynaklı diyemezsin öyle kolayca. Örneğin, yukarıdaki sorunun cevabındaki oranların toplumdan topluma farklılık göstermesi olağandır. Yani o 100 kişiyi alacağınız toplumun örf-adet-gelenek-görenek-yaşam tarzı vb bilimum faktörlerde bu cevap üzerinde etkili. İşte bu yüzden Sosyal bilim çalışmak zordur..Sosyal bilimciler olasılık bilmeli ve bilişimcilerle işbirliği de her alanda olduğu gibi bence şarttır.
thisisnotkaosSonuçta Welcome to Chaos! Yani kutuda olduğunu bildiğin bir kedi kutu kapalıyken %50 olasılıkla oradadır. Yani orda olabilir de, olmaya da bilir? Gözün görmediğinden “o kedi orda! o kedi buraya gelecek!” di-ye-mi-yor-sun. Bazen gözün bile yanlış görmüyor mu? Halisünasyonlar falanlar filanlar.. Aman Tanrım bu yazı nereye gidiyor böyle 🙂 Ama şu artık biliniyor ki kaos gibi görünen şeylerin aslında kendi içinde bir düzeni olduğu ve bu düzenin ortaya çıkarılmasında veri bilimi ve bilgisayar biliminin etkinliği oldukça fazla.

Neyse konuya dönersek, Şimdiki bir durumu anlamaya ve gelecekte olacakları değerlendirebilmek için elimizde yanlızca tek şey var: Veri
Sadece şimdiyi anlamak ve gelecekte olacakları öngörmek iş değil (dipnot: aslında büyük bir iş bakmayın böyle dediğime), bir de bu gidişi değiştirmek var işte asıl devrimciler bunlar! (dipnot: buradaki devrim sözcüğü hiçbir siyasi anlam içermez.Devrimci’nin TDK sözlük anlamı: Belli bir alanda hızlı, köklü ve nitelikli değişiklik yapan kimse.) Örnek olarak dünyadaki eğitim durumunu ortaya koyan ve sonunda gelecek hedefi belirlenmiş şu makaleyi inceleyebilirsiniz.. Bir başka makalede de Türkiye’deki eğitim durumunu ve amaca yönelik belirlenmiş stratejileri inceleyebilirsiniz.

Geleceğimiz şekillendirebilmek için elimizde iki şey var: 1-Veri – 2-Niyet.. Veri çünkü bir şeyi yönetmek istiyor ise ölçmeliyiz. Neydi mottomuz:”Ölçemezsen Yönetemezsin!” Peki niyet de nerden çıktı! demeyin.. İşe başlamadan diyeceğiz ki “Niyet ettim ben bu veriyi iyi işler için kullanacağıma” 🙂 Ciddi diyorum.. Diyecez ki “ben gelecekte iyi şeyler olsun istiyorum. Şimdi elimdeki veri bu. Bu veriyi etkileyen faktörler de sanki şunlara benziyor. O zaman o faktörler üzerinde düzenlemeler yapıp ben gelecekte şu vakitte bunun söyle iyileşmesini gerçekleştirmek istiyorum” (Futurizm dersine minnattarım. Teşekkürler ODTÜ :*)

phd

İşte o aşık olduğum Veri Biliminin, olmak istediğim Veri Bilimcisinin işi de bu anlatılanların tam orta noktasında. Zurnanın zırt dediği yer ambiyane tabirle. En başta veri toplamakla başlayan ve veri içindeki örüntüleri ortaya çıkarmayı, veriyi görselleştirmeyi de kapsayan serüven ile geleceğimiz için somut bir şeyler yapabileceğiz, bu yüzden bu kadar heyecan. Vatana millete dünyaya hayırlı olacaz daha ne olsun :)) (Dipnot: Tezine başlayan her doktora öğrencisinin başına gelen “evroka” sendromu bu, fazla kaale almayın bence şimdilik yani..Taa ki Nature’da yayınımız çıkana kadar.)

 

Referanslar
www.baturorkun.com/olasılıksız
www.kozmikanafor.com/kaos-ve-kaos-teorisi
erguvanlar.blogcu.com/olasiliksiz-adam-fawer/3133586
www.datalove.me/

 

488 total views, no views today