Mikrobiyom verileri için UniFrac Metriği

UniFrac filogenetik temelli uzaklık metriğidir.

Bir kişinin bağırsaklarındaki mikrobik canlılar ile başka bir kişinin bağırsaklarındaki mikrobik canlılar birbirinden tamamen farklıdır. Aslında bu canlılar evrimsel açıdan birbirlerine oldukça benzer yapıdadırlar, çünkü hepsi bağırsakta yaşayan bakterilerdir. Böyle bir durumda, bu iki mikrobiyom birbirinden tamamen farklı demek istemiyoruz. Bu açıdan daha duyarlı bir test için UniFrac metriği kullanılır. UniFrac ile beta uzaklık ölçümünde dendrogram ağacının diğer örneklerde var olamayan kısmı yani o ağaca özel olan kısmı hesaplamalarda kullanılır.

unifrac

  1. resimde iki topluluk da aynıdır. Uzaklık 0’dır.
  2. resimde iki topluluk arasında birbirinden biraz farklılık vardır. Farklılık cins ve filum seviyesinde değil, OTU ve ya tür seviyesindedir. Çünkü mor çizgiler iki topluluk için de ortaktır ve bunun anlamı evrimsel geçmiş olarak ortak özelliklere sahiplerdir demektir. D=0.5
  3. resimde iki topluluk birbirinden tamamen farklıdır.  D=1.0

Ağırlıklı Unifrac (Weighted Unifrac) metriği göreceli bolluk miktarını hesaba katar. Böylelikle her dal için hangi türlerin olduğunun yanında ne kadar olduğu bilgisi de vardır. Fazlaca bulunan türleri vurgular.

Ağırlıksız Unifrac (Unweighted Unifrac) yanlıza türlerin varlığı ve yokluğu bilgisini hesaba katar. Örnekler arasında aynı olan türleri vurgular.

QIIME’de toplulular arasındaki Beta uzaklığı hesaplayıp sonra veri PCoA kullanılarak 3 boyutlu bir şekilde görselleştirilir. PCA ile PCoA arasındaki fark, PCA öklit metriği ile yapılır, PCoA daha genel halidir ve istenilen herhangi bir metrik ile yapılır.

betadiv

  1. Tüm örneklerdeki tüm mikropları içeren filogenetik ağaç ile başlıyoruz.
  2. Her iki örnek arasındaki unifrac uzaklığı hesaplanır ve uzaklık matriksi kurulur.
  3. Bu uzaklık matrisi ile PCoA yapılır ve veri görüntülenir.

303 total views, 1 views today

Alfa – Beta Uzaklık Ölçümleri ve UniFrac

Alfa ve Beta Uzaklık Ölçüleri Mikrobiyom toplulukları içerisinde ve birbirleri arasındaki uzaklığı ölçmek için kullanılan metriklerdir. QIIME prosesinde OTU seçimleri yapıldıktan sonra bu uzaklıklar hesaplanır.

Alfa Uzaklık ölçüsü (Alpha Diversity)

Bir mikrobiyom verisinde hangi tür canlılar vardır ve ne kadardır ı ölçmek için kullanılır. Yani bir örnek kendi içinde ne kadar farklıdır sorusuna cevap verir. Alfa uzaklığı ölçümü için 3 metot tanımlanmıştır.

Metot 1: Canlıların sayılması. Bu süreçte OTU’lar kullanılır. Bu sayma işlemi, cinsler arasındaki ilişkiyi dışarıda bırakır.

Yapılan bir çalışmada, Modern bir toplum olan USA ile Malawians, Amerindians gibi modernleşmemiş toplulukların bağırsaklarından alınan örneklerdeki canlı sayımı yapılmış ve görülmüş ki, modern toplumlarda yaşayan kişilerin bağırsaklarındaki canlı çeşitliliği diğerlerine göre oldukça düşük.

met1

Metot 2: Filogenetik Farklılık. Örnekte görülen canlıların, bilinen yaşam ağacının hangi kısmına düştüğüne göre uzaklıklar belirlenir. Eğer örnekteki canlılar bir dal üzerinde toplanmış ise örnek içindeki uzaklık çok değildir. Eğer görülen canlılar farklı dallara dağılmış ise örnek içindeki uzaklık fazla demektir. Dalların arasındaki uzaklıkların toplamı filogenetik uzaklığı verir.

met2
filogenetikAlfa

Metot 3:Chao1 Yaklaşımı. Verilen sonlu bir örnekteki canlı türlerine bakarak asıl toplulukta kaç tane tür olduğunu tahmin etmeye çalışır.

S1 = Sobs + F12 / 2F

  • Sobs: Gözlemlenen canlılar
  • F1: Yanlızca bir kez görülen canlıların sayısı
  • F2: Yanlızca iki kez görülen canlıların sayısı

Ne yapılabilir?: Bir Mikrobiyom örneğini verisinin alt kümesi alınabilir. Chao1 sayısı hesaplanır ve 1 milyon dizilim ile karşılaştırılır. Örnekteki çeşitliliği ne kadar iyi tahmin ettiği bu şekilde ölçülebilir.

Refraksiyon (Rarefraction): Bir örnekteki tüm çeşitliliği görüp görmediğimize nasıl karar vereceğiz?

Gerçek bir örnekte dizilim sayısı binler milyonlar olur fakat şimdi örnek için diyelim ki 140 dizilim verimiz var. İlk başta 10 taneden başlayarak rastgele alt kümelerini seçelim ve alfa çeşitlilik ölçümünü hesaplayalım. Bunu birçok kez yaparak ortalama ve standart sapmasını hesaplayalım. Daha sonra aynı prosedürü 20 dizilim için, 30 dizilim için … yapalım. Aşağıdaki grafiği elde ederiz.

rerafraction
Refraksyon grafiği

Bu grafiğe göre yeterli kadar dizilim ile çeşitlilik ölçüldüğümü nasıl anlarız? Eğer yeteri kadar dizilim ile çalışlmış ise bu eğri düze çıkmalı. Yani daha fazla dizilim ile de çalışılsa yeni türler görülmüyor demek olur bu da optimum dizilim sayısına karar vermekte yardımcı olur. Eğer eğri hala dik bir şeklide yukarı doğru gidiyor ise henüz tüm çeşitliliği içerecek dizilim sayısına ulaşılmamış demektir.

Beta Uzaklık Ölçüsü

Örneklerin birbirihmpnden ne kadar farklı olduğuna cevap verir. Örnekler arasında karşılaştırma yapar. Örnekteki genel değişimi ölçer.

Yandaki örnekte vücudun farklı parçalarında yaşayan canlıların kümelenmesi gösterilmektedir.

En bilinen uzaklık metriklerinden birisi Öklit uzaklığıdır ve uzaydaki gerçek uzaklığı ölçer. Fakat ekolojik uzaklıkları ölçmek için kullanılması doğrı sonuçlar vermeyebilir. Öklit, KiKare, Bray-Curtis gibi metrikler filogenetik bilgiyi kullanmaz. UniFrac bu boşluğu dolduran bir metriktir. UniFrac ile bu yazıya bakabilirsiniz.

335 total views, no views today

Mikrobiyom Verisi Nasıl Elde Edilir? SRA – Okunmuş Dizilim Arşivi

SRA (Sequence Read Archive), Next Generation Sequencing olarak isimlendirilmiş yeni nesil dizileme yöntemi ile elde edilmiş dizilim verilerinin depolandığı bir NCBI veritabanıdır. SRA çeşitli organizmalardan örneklenmiş ham veriyi depolar.

Bu sayfa (http://www.ncbi.nlm.nih.gov/sra) bir arama motorudur ve okunmuş dizilim verilerine buradan ulaşılabilir.

Ben çalışmam için 16s rRNA verisi arıyorum ve Illumina sisteminde elde edilmiş olanlarını istiyorum. Arama alanına “16s rRNA illumina” yazıyorum. (linke tıklayarak arama sayfasına gidebilirsiniz.)

Arama sonunda ilişkili tüm deneyler listelenir. Her deney için bir kod vardır – accession  code – Bu kodu daha sonra veriyi indirmek için kullanacağız. Sonuçlardan birine tıklandığında, deneyle ilgili metadata görülebilir. Çalışmanın tasarımı, kim tarafından veritabanına eklendiği, deneyde toplanan niteliklerin listesi gibi bilgilere erişilir.

Sonuçlarda gelen listeden belli bir organizma içinde olanları filtrelemek için sol menüden “Results by taxon” bölümünden istenilen tür seçilebilir. Ben çevresel mikrobiyom verisi aradığım için “indoor metagenome” seçeneği ile devam ediyorum.

sra2
Arama listesi

Sonuç listedeki ilk linki tıkladığımda kış uykusunda yatan ayıların dışkısından elde edilen dizilim verisi olduğunu görüyorum ki bu aradığım şey değil.

5.sayfaya gidelim ve 81. liste elemanı (Accession:ERX1532372) tıklayalım. “Design: 16S Sequencing of Hospital Surfaces” ifadesini göreceğiz yani buradan itibaren hastane ortamından elde edilmiş verileri bulabiliyoruz. Bu sayfada deneyle ilgili metadata görüntülenir. Çalışmanın tasarımı, kim tarafından veritabanına eklendiği, deneyde toplanan niteliklerin listesi gibi bilgilere erişilir.

Farklı veritabanlarında olan ekstra bilgilere “related information” başlığı altında ulaşılabilir. Örneğin BioSample tıklandığında veya SAMEA ile başlayan koda tıklandığında BioSample veritabanından getirilen veriler görüntülenir. Burada, örneğin hangi çevreden alındığı bilgisi detaylı olarak yer alır. Accession:ERX1532372 olan deneyin verisi soğuk musluk başlığından alınmış örneğin.

sra3
Deney ile ilgili Metadata Sayfası

Bu deney verisini fasta veya fastaq formatında indirmek için şu sayfaya gidelim.  Deney numarasını buraya yazalım ve “show runs” diyelim. Yukarıdaki sayfadaki (Deney ile ilgili Metadata Sayfasındaki) run kodu ile aynı koda ulaştık – ERR14611894. Download Format kısmında FASTQ seçeneğini seçerek download linkine tıklayınız ve verinizi fastq formatında elde ediniz.

sra4
Deney veri indirmek için gidilecek sayfa

FastQ formatı ile ilgili şu yazıya bakabilirsiniz

Az önce indirilen veri yalnızca bir örnek için elde edilen veri idi. Çalışmada toplanan tüm verileri indirmek istiyor isek, deney ile ilgili metadata sayfasında Study kısmındaki “All experiments” linkine tıklayalım. Tüm örnekler ayrı linkler halinde tam olarak 3079 sonuç döndürüldü. Sonuçları tek bbir tabloda görüntülemek için Run Selector aracını kullanabiliriz.Bunun için “Send results to Run selector” linkine tıklayalım. Bu tabloyu aynı zamanda txt dosyası olarak da “RunInfo Table” tuşuna tıklayarak indirebiliriz.

sra6

sra5

Hastaneden elde edilmiş veriler için  qiita_ptid_1499 ve qiita_ptid_1765 olmak üzere iki farklı tarihte çalıştırılmış deney verileri mevcut. Sayfa 5 – 38 ‘de yer alan listedeki 81 ve 394 no’lu sonuçlar qiita_ptid_1765 olan çalışmadan, Sayfa 20-38 ‘de yeralan listedeki 395 ve 745 no’lu sonuçlar qiita_ptid_1499 olan çalışmalardır. qiita_ptid_1499 çalışması 3/1/13’de çalıştırılmıştır. qiita_ptid_1765 çalışması 2/28/09’da çalıştırılmıştır. Yani 1499 nolu çalışmalar daha yenidir.

Biz tüm deney verilerini indirdiğimiz için her iki çalışmadan da veriler mevcut.

 

287 total views, no views today

Dizilim verisi için FastQ Formatı

sra7

QIIME de fastq formatı dizilim verileri ile çalışır. SRA veritabanından fastq formatında indirilen tipik bir dizilim verisi yukarıdaki gibidir.

  • @ ile başlayan ilk satır belirleyici run kodu ve dizi uzunluğunu içerir.
  • İkinci satır, ham dizilim harfleridir.
  • + ile başlayan üçüncü satır, yine birinci satırdaki gibi belirleyici kodları içerir.
  • Dördüncü satır dizilimin kalite bilgisini içerir. Uzunluğu dizilimin uzunluğu kadardır. 4. satır başındaki karakter eğer “!” ise bu çok düşük kalite anlamına gelir. Eğer “~” ise bu de yüksek kalite anlamındadır. Soldan sağa doğru kalite belirten işaretler şu şekildedir.

!”#$%&'()*+,-./0123456789:;<=>@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\] ^_`abcdefghijklmnopqrstuvwxyz{|}~

311 total views, no views today

Haberlerde İnsan Mikrobiyomu

Mikrobiyomun hem psikolojik hemde fiziksel olarak sağlıklı yaşam için etkili olduğu ile ilgili çalışmalar yapılmakta. Mikrobiyomdaki bozulmaların psikiyatrik rahatsızlıklara sebep olabileceğine dair de çalışmalar var. Gazetelere ve internetteki bir kaç haber söyle:

mmikrobiyom2

mikrobiyom

 

 

mikrobiyom3_n

 

 

mikrobiyom4_n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Kaynaklar:

http://www.sabah.com.tr/pazar/2014/10/26/tip-dunyasinda-ezber-bozdu

Bağışıklık Sistemi Kişinin Sosyal Etkileşiminde Rol Oynuyor

http://www.imgrum.net/user/saglikliyasiyoruzcom/1417334033

291 total views, no views today

QIIME-OTU Seçme Yaklaşımları

OTU Operational Taxonomik Unit kelimelerin baş harflerinden oluşmuştur. Mikrobiyom verisindeki birbirine yakın benzer diziler (sequences) gruplanarak OTU’lar oluşturulur. Diyelim ki 1000 dizimiz var. Birbirine benzer her 10 dizi tek bir isim altında toplanır ve böylece veri toplam 100 diziye indirgenmiş olur.

QIIME 3 çeşit otu şeçme protokolü tanımlamıştır:
1. De novo Clustering: Hiçbir referans dizi olmadan, ham veriyi kullanarak kendi içinde kümelemek demektir. ( pick_de_novo_otus.py) Bu script, otu seçimi yanında taksonomi ataması, dizi sıralaması (sequence alignment) ve ağaç kurulumu aşamalarını içerir.

Burada kullan:Eğer,  kullanabileceğiniz hiçbir referans veritabanı yok ise, örneğin, çok nadir çalışılan bir gen ile çalışıyor iseniz de novo yöntemi kullanmalısınız.

Burada kullanma: Eğer, örtüşmeyen amplikonlarınörneğin,  16S rRNA’ın V2 ve V4 gibi bölgelerin  karşılaştırmasını yapıyorsanız veya çok büyük veriseti ile çalışıyor iseniz bu yöntemi kullanmayın. Kodun çalışmasını 1 ay bekleyebilirsiniz.

  • Avantajı: Tüm dizileri kümeler.
  • Dezavantajı: Paralel şekilde çalıştırılma imkanı olmadığı için büyük veri setlerinde çok yavaş olabilir.

2. Closed reference: Varolan veritabanındaki referans dizilerle benzerlikleri ölçülerek kümeleme yapılır.(pick_closed_reference_otus.py) Eğer referans veritabanlarında hiç diziye yakın bulunmaz ise o dizi kümelemeden çıkarılır.

Burada kullan:Eğer, örtüşmeyen amplikonların örneğin,  16S rRNA’ın V2 ve V4 gibi bölgelerin  karşılaştırmasını yapıyorsanız bu yöntemi kullanmalısınız.

Burada kullanma: Eğer, kullanabileceğiniz hiçbir referans veritabanı yok ise, örneğin, çok nadir çalışılan bir gen ile çalışıyor iseniz bu yöntemi kullanamazsınız.

  • Avantajı: Hızlıdır. Parelellenebilir. Büyük verisetleri için kullanışlıdır. Referans veritabanlarındaki veriler için zaten taksonomiler ve ağaçlar yapıldığı için, çalışılan veriseti için de daha iyi ağaçlar ve taksonomiler oluşturulur.
  • Dezavantajı: Referans veritabanları dışında yepyeni bir çeşitliliği bulmak mümkün değildir.

3. Open reference (de novo + closed): Yukarıdaki bahsedilen iki yöntemin birleşimidir. Önce dizi veritabanından aratılır, eğer bir sonuç gelmez ise de novo kümeleme yapılır. (pick_open_reference_otus.py) QIIME tasarımcıları en çok bu yöntemi tavsiye ederler.

Burada kullanma:Eğer, kullanabileceğiniz hiçbir referans veritabanı yok ise, örneğin, çok nadir çalışılan bir gen ile çalışıyor iseniz bu yöntemi kullanamazsınız. Örtüşmeyen amplikonların örneğin,  16S rRNA’ın V2 ve V4 gibi bölgelerin  karşılaştırmasını yapıyorsanız bu yöntemi kullanmamalısınız.

  • Avantajı: Tüm dizileri kümeler. Belli bir kısmı parelellenebilir. De novo’dan daha hızlıdır.
  • Dezavantajı: Paralellenemeyen kısımları için yavaştır. Referans veritabanları dışında yepyeni bir çeşitlilik için kodun çalışması günlerce sürebilir.

 

OTU Seçme Yaklaşımları Hangi çalışmalarda Kullanılır?
Closed reference İnsan-fare, bağırsak, cilt, ağız mikrobiyomu
De novo Çevre toprak, su gibi belirsiz mikrobiyomlarda
Open reference Her türlü mikrobiyom çalışmalarında kullanılabilir. QIIME tasarımcıları en çok bu yöntemi tavsiye ederler.

QIIME içindeki otu seçme algoritmalarını varolan başka algoritmalardır. Bu nedenle hangi algoritmayı kullanmış iseniz onu makalenizde belirtmeniz gereklidir. QIIME iş akışı içindevarolan otu seçme algoritmalarından açık kaynak kodlu olanlar, SortMeRNA,SUMACLUST ve SWARM; kapalı kodlu olanlar UCLUST ve USEARCH’dür. QIIME’in varsayılan otu seçme algoritması UCLUST’dır.

De novo Metodlar

  • UCLUST: Bir greedy  (açgözlü) kümeleme yöntemidir. İlk dizi merkez noktası olarak alınır. Bu algoritma için diziler en çok görülenden en az görülene göre sıralanmalıdır.
  • CD-HIT: UCLUST ile benzerdir. Daha titiz bir karşılaştırma yapar ve daha uzun sürer.
  • SUMACLUST: UCLUST gibidir, fakat her seferinde tüm dizilimi kullanır.
  • Mothur: Single, complete, average linkage yöntemlerinin hepsini ikili olarak kullanır. Açgözlü yaklaşımlardan daha iyidir. Uzaklık matrisi, büyük veri için uygun değildir.
  • SWARM: Random bir merkez seçer. Random şekilde benzer dizilere bakmak yerine, single linkage yöntemi ile en benzer alt dizileri seçerek birbirine bağlar. Böylece merkez olarak seçilenin önemi kalmaz. OTU’lar arasında büyük farklılıklar var ise daha iyi çalışır.

Kümeleme Nasıl Yapılır?
Kümeleme yaparken dizilerin aralarındaki uzaklık ya da benzerlik bir metrik baz alınarak ölçülür, buna göre de kümeler oluşturulur. Verilerin birbirine yakınlıklarını ölçmek için üç farklı yöntem vardır:

  • Single-linkage (tekil bağlantı): Veri noktasına en yakın olan ilk veri noktası kümeye dahil edilir. Sosyal ağlarda da bu yaklaşım kullanılır. Örneğin, bir kişi için single-linkage kümesi kendisinin en yakın arkadaşıdır. Tüm herkes için bu yapıldığında uzun bir kişi zinciri oluşur. (friend of a friend)
  • Complete-linkage (tamamlanmış bağlantı): Teknik olarak iki küme içindeki birbirine en uzak veri noktalarının arasındaki uzaklıktır. Bu uzaklıktan küçük olan diğer tüm noktalar kümeye dahil edilir. Sosyal ağlarda, bir kişi için complete-linkage kümesi, o kişinin tüm arkadaşlarını kapsar. Bu her kişi için yapılırsa tüm kullanıcı kümesi elde edilir. (we are all friends)
  • Average-linkage (ortalama bağlantı): Single ile complete link arasındadır. Teknik olarak, kümelerdeki en uzak iki nokta arasındaki uzaklık ile en yakın iki nokta arasındaki uzaklığın ortalaması alınarak uzaklık tanımlanır. Sosyal ağlarda, uzaklık iletişim miktarı olarak alınırsa, average-linkage kümesi, her kişinin yakın çevresi olduğu söylenebilir.

Bu bilgiler özellikle hiyerarşik kümeleme yapılacağında çok kullanılır.

linkage

 

 

 

 

 

 

 

Video anlatım:

 

Referanslar

http://qiime.org/tutorials/otu_picking.html

349 total views, 1 views today

Mikrobiyom Analizi için QIIME

QIIME “Quantitative Insight into Microbial Ecology” kelimelerin baş harflerini temsil eder, “çaym” diye okunur. Mikrobiyom analizi yapmak için geliştirilmiş phyton ile kodlanmış bir yazılımdır. QIIME ile 9 farklı mikrobik topluluğun 16S rRNA verisi analiz edilebilir. QIIME’in kullanımı aslında bazı komutların terminal ekranına yazılıp metinsel ve grafiksel çıktıların izlenmesinden ibarettir. Bazı temel linux komutlarının bilinmesi yeterlidir.

QIIME kullanımı için ilk yapılacak şey -windows kullanıcılar için – VirtualBox’ı indirmektir.

QIIME kullanımına ilişkin 4 temel protokol belirlenmiştir:

  • Ayrıştırma (Demultiplexing)
  • OTU Seçimi, Taksonomi Belirlenmesi, Phylogeny çıkarımı ve OTU tablo oluşturulması
  • Alfa Çeşitlilik (alpha diversity) ve Seyreltme Eğrileri (rarefraction curves)
  • Beta Çeşitlilik (beta diversity) ve Beta Çeşitlilik Eğrileri

QIIME’in kullanımına yönelik yayınlanmış “Using QIIME to Analyze 16S rRNA Gene Sequences from Microbial Communities” adlı makaleyi Türkçeye çevirmeye çalıştım. Tabi terimleri ne kadar doğru çevirebildim çok emin değilim. Genelde ingilizcelerini yanlarına yazmaya çalıştım bir karışıklığa sebebiyet vermemek adına.

QIIME_ile_Mikrobiyom_Analizi (PDF dosyası )

 

 

 

 

490 total views, 2 views today