QIIME-OTU Seçme Yaklaşımları

OTU Operational Taxonomik Unit kelimelerin baş harflerinden oluşmuştur. Mikrobiyom verisindeki birbirine yakın benzer diziler (sequences) gruplanarak OTU’lar oluşturulur. Diyelim ki 1000 dizimiz var. Birbirine benzer her 10 dizi tek bir isim altında toplanır ve böylece veri toplam 100 diziye indirgenmiş olur.

QIIME 3 çeşit otu şeçme protokolü tanımlamıştır:
1. De novo Clustering: Hiçbir referans dizi olmadan, ham veriyi kullanarak kendi içinde kümelemek demektir. ( pick_de_novo_otus.py) Bu script, otu seçimi yanında taksonomi ataması, dizi sıralaması (sequence alignment) ve ağaç kurulumu aşamalarını içerir.

Burada kullan:Eğer,  kullanabileceğiniz hiçbir referans veritabanı yok ise, örneğin, çok nadir çalışılan bir gen ile çalışıyor iseniz de novo yöntemi kullanmalısınız.

Burada kullanma: Eğer, örtüşmeyen amplikonlarınörneğin,  16S rRNA’ın V2 ve V4 gibi bölgelerin  karşılaştırmasını yapıyorsanız veya çok büyük veriseti ile çalışıyor iseniz bu yöntemi kullanmayın. Kodun çalışmasını 1 ay bekleyebilirsiniz.

  • Avantajı: Tüm dizileri kümeler.
  • Dezavantajı: Paralel şekilde çalıştırılma imkanı olmadığı için büyük veri setlerinde çok yavaş olabilir.

2. Closed reference: Varolan veritabanındaki referans dizilerle benzerlikleri ölçülerek kümeleme yapılır.(pick_closed_reference_otus.py) Eğer referans veritabanlarında hiç diziye yakın bulunmaz ise o dizi kümelemeden çıkarılır.

Burada kullan:Eğer, örtüşmeyen amplikonların örneğin,  16S rRNA’ın V2 ve V4 gibi bölgelerin  karşılaştırmasını yapıyorsanız bu yöntemi kullanmalısınız.

Burada kullanma: Eğer, kullanabileceğiniz hiçbir referans veritabanı yok ise, örneğin, çok nadir çalışılan bir gen ile çalışıyor iseniz bu yöntemi kullanamazsınız.

  • Avantajı: Hızlıdır. Parelellenebilir. Büyük verisetleri için kullanışlıdır. Referans veritabanlarındaki veriler için zaten taksonomiler ve ağaçlar yapıldığı için, çalışılan veriseti için de daha iyi ağaçlar ve taksonomiler oluşturulur.
  • Dezavantajı: Referans veritabanları dışında yepyeni bir çeşitliliği bulmak mümkün değildir.

3. Open reference (de novo + closed): Yukarıdaki bahsedilen iki yöntemin birleşimidir. Önce dizi veritabanından aratılır, eğer bir sonuç gelmez ise de novo kümeleme yapılır. (pick_open_reference_otus.py) QIIME tasarımcıları en çok bu yöntemi tavsiye ederler.

Burada kullanma:Eğer, kullanabileceğiniz hiçbir referans veritabanı yok ise, örneğin, çok nadir çalışılan bir gen ile çalışıyor iseniz bu yöntemi kullanamazsınız. Örtüşmeyen amplikonların örneğin,  16S rRNA’ın V2 ve V4 gibi bölgelerin  karşılaştırmasını yapıyorsanız bu yöntemi kullanmamalısınız.

  • Avantajı: Tüm dizileri kümeler. Belli bir kısmı parelellenebilir. De novo’dan daha hızlıdır.
  • Dezavantajı: Paralellenemeyen kısımları için yavaştır. Referans veritabanları dışında yepyeni bir çeşitlilik için kodun çalışması günlerce sürebilir.

 

OTU Seçme Yaklaşımları Hangi çalışmalarda Kullanılır?
Closed reference İnsan-fare, bağırsak, cilt, ağız mikrobiyomu
De novo Çevre toprak, su gibi belirsiz mikrobiyomlarda
Open reference Her türlü mikrobiyom çalışmalarında kullanılabilir. QIIME tasarımcıları en çok bu yöntemi tavsiye ederler.

QIIME içindeki otu seçme algoritmalarını varolan başka algoritmalardır. Bu nedenle hangi algoritmayı kullanmış iseniz onu makalenizde belirtmeniz gereklidir. QIIME iş akışı içindevarolan otu seçme algoritmalarından açık kaynak kodlu olanlar, SortMeRNA,SUMACLUST ve SWARM; kapalı kodlu olanlar UCLUST ve USEARCH’dür. QIIME’in varsayılan otu seçme algoritması UCLUST’dır.

De novo Metodlar

  • UCLUST: Bir greedy  (açgözlü) kümeleme yöntemidir. İlk dizi merkez noktası olarak alınır. Bu algoritma için diziler en çok görülenden en az görülene göre sıralanmalıdır.
  • CD-HIT: UCLUST ile benzerdir. Daha titiz bir karşılaştırma yapar ve daha uzun sürer.
  • SUMACLUST: UCLUST gibidir, fakat her seferinde tüm dizilimi kullanır.
  • Mothur: Single, complete, average linkage yöntemlerinin hepsini ikili olarak kullanır. Açgözlü yaklaşımlardan daha iyidir. Uzaklık matrisi, büyük veri için uygun değildir.
  • SWARM: Random bir merkez seçer. Random şekilde benzer dizilere bakmak yerine, single linkage yöntemi ile en benzer alt dizileri seçerek birbirine bağlar. Böylece merkez olarak seçilenin önemi kalmaz. OTU’lar arasında büyük farklılıklar var ise daha iyi çalışır.

Kümeleme Nasıl Yapılır?
Kümeleme yaparken dizilerin aralarındaki uzaklık ya da benzerlik bir metrik baz alınarak ölçülür, buna göre de kümeler oluşturulur. Verilerin birbirine yakınlıklarını ölçmek için üç farklı yöntem vardır:

  • Single-linkage (tekil bağlantı): Veri noktasına en yakın olan ilk veri noktası kümeye dahil edilir. Sosyal ağlarda da bu yaklaşım kullanılır. Örneğin, bir kişi için single-linkage kümesi kendisinin en yakın arkadaşıdır. Tüm herkes için bu yapıldığında uzun bir kişi zinciri oluşur. (friend of a friend)
  • Complete-linkage (tamamlanmış bağlantı): Teknik olarak iki küme içindeki birbirine en uzak veri noktalarının arasındaki uzaklıktır. Bu uzaklıktan küçük olan diğer tüm noktalar kümeye dahil edilir. Sosyal ağlarda, bir kişi için complete-linkage kümesi, o kişinin tüm arkadaşlarını kapsar. Bu her kişi için yapılırsa tüm kullanıcı kümesi elde edilir. (we are all friends)
  • Average-linkage (ortalama bağlantı): Single ile complete link arasındadır. Teknik olarak, kümelerdeki en uzak iki nokta arasındaki uzaklık ile en yakın iki nokta arasındaki uzaklığın ortalaması alınarak uzaklık tanımlanır. Sosyal ağlarda, uzaklık iletişim miktarı olarak alınırsa, average-linkage kümesi, her kişinin yakın çevresi olduğu söylenebilir.

Bu bilgiler özellikle hiyerarşik kümeleme yapılacağında çok kullanılır.

linkage

 

 

 

 

 

 

 

Video anlatım:

 

Referanslar

http://qiime.org/tutorials/otu_picking.html

362 total views, 1 views today

Mikrobiyom Analizi için QIIME

QIIME “Quantitative Insight into Microbial Ecology” kelimelerin baş harflerini temsil eder, “çaym” diye okunur. Mikrobiyom analizi yapmak için geliştirilmiş phyton ile kodlanmış bir yazılımdır. QIIME ile 9 farklı mikrobik topluluğun 16S rRNA verisi analiz edilebilir. QIIME’in kullanımı aslında bazı komutların terminal ekranına yazılıp metinsel ve grafiksel çıktıların izlenmesinden ibarettir. Bazı temel linux komutlarının bilinmesi yeterlidir.

QIIME kullanımı için ilk yapılacak şey -windows kullanıcılar için – VirtualBox’ı indirmektir.

QIIME kullanımına ilişkin 4 temel protokol belirlenmiştir:

  • Ayrıştırma (Demultiplexing)
  • OTU Seçimi, Taksonomi Belirlenmesi, Phylogeny çıkarımı ve OTU tablo oluşturulması
  • Alfa Çeşitlilik (alpha diversity) ve Seyreltme Eğrileri (rarefraction curves)
  • Beta Çeşitlilik (beta diversity) ve Beta Çeşitlilik Eğrileri

QIIME’in kullanımına yönelik yayınlanmış “Using QIIME to Analyze 16S rRNA Gene Sequences from Microbial Communities” adlı makaleyi Türkçeye çevirmeye çalıştım. Tabi terimleri ne kadar doğru çevirebildim çok emin değilim. Genelde ingilizcelerini yanlarına yazmaya çalıştım bir karışıklığa sebebiyet vermemek adına.

QIIME_ile_Mikrobiyom_Analizi (PDF dosyası )

 

 

 

 

504 total views, no views today

Mikrobiyom Analizine Giriş

Şimdiye kadar mikrobiyomu hiç bilmeyenler için genel bir tanıtım yaptık. Hem canlılarda hem de her ortamda, çevrede var olduğunu gördük. Kısaca mikrobiyom dediğimiz şey bir mikrop topluluğu. Peki bu mikrobik topluluğun analizi ne demektir? Nasıl yapılır?

Dan Knights mikrobiyom verisini, birçok yapbozdan gelen parçaların oluşturduğu bir yığına benzetmiş, “Microbiome Discovery” adlı video serisinde analizi üzerine güzel videolar çekmiş. Ben de oradan öğrendiklerimi aktarmaya çalışacağım bundan sonraki yazılarda.
DanKnight

Bir mikrobiyom verisini elde edene kadar şu iki işlem yapılır:

1. İlk iş ve en basit olanı mikrobiyom örneği almak. Steril bir çubuk, örnek alınacak yere sürtülür ve özel koşullarda taşınıp saklanır.
2. Mikrobiyal DNA izolasyonu yapılır. 16S rRNA sekanslama V3-V4 bölgesini hedefleyerek yapılır. Bu evrede işte biyoinformatikçilerin üzerinde çalışacağı veri elde edilir.

Neden 16s rRNA? Çünkü tüm bakterilerde vardır ve tür düzeyinde ayrım sağlar, dolayısıyla taksonomik analizler için kullanılır.

Burada yapbozlar farklı mikrobik filumu yada sınıfı, her yapboz parçası da bakterinin kendisini temsil eder. Mikrobiyom verisi hangi türden, sınıftan, filumdan olduğunu bilmediğimiz mikropların 16S rRNA dizilimleridir.

Bir yapboz yığınını ile biyoinformatikçi neler yapar?

  1. İlk işi her bir yapboz parçasının esasen hangi resimden geldiğini bulmak
  2. Bulgulara göre yapboz yığınını tanımlayacak bir profil çıkarmak. Bu profil OTU (Operational Taxonomic Units) denilen kümeler ile tanımlanır ve OTU tablosu çıkarılır.

16S rRNA verisinden OTU’ları belirleme süreçi için akış şemaları geliştirilmiş UPARSE, QIIME gibi.

Örneğin UPARSE akışı şu şekilde
uparse_flow

uparse_tr

Mikrobiyom verisindeki benzer dizilimler gruplanarak OTU’lar oluşturulur. Diyelim ki 1000 dizimiz çıktı verimizden. Birbirine benzer her 10 dizi tek bir isim altında toplanır ve böylece veri toplam 100 diziye indirgenmiş olur. OTU Seçme Yaklaşımları ile ilgili detaylı bir yazı yazacağım.

QIIME iş akışı UPARSE ile aynı hatlara sahip yanlız daha detaylı ifade edilmiş aşağıdaki şekilde görüleceği gibi. QIIME’in nasıl işletileceği ile ilgili de yazım çok yakında..

qiime_flowchart

 

Referanslar
http://docplayer.biz.tr/960802-16s-rrna-analizi-doc-dr-zeynep-ceren-karahan-ankara-universitesi-tip-fakultesi-tibbi-mikrobiyoloji-anabilim-dali.html
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3249058/
https://sites.google.com/site/knightslabwiki/qiime-workflow

30,207 total views, 39 views today