QIIME-OTU Seçme Yaklaşımları

OTU Operational Taxonomik Unit kelimelerin baş harflerinden oluşmuştur. Mikrobiyom verisindeki birbirine yakın benzer diziler (sequences) gruplanarak OTU’lar oluşturulur. Diyelim ki 1000 dizimiz var. Birbirine benzer her 10 dizi tek bir isim altında toplanır ve böylece veri toplam 100 diziye indirgenmiş olur.

QIIME 3 çeşit otu şeçme protokolü tanımlamıştır:
1. De novo Clustering: Hiçbir referans dizi olmadan, ham veriyi kullanarak kendi içinde kümelemek demektir. ( pick_de_novo_otus.py) Bu script, otu seçimi yanında taksonomi ataması, dizi sıralaması (sequence alignment) ve ağaç kurulumu aşamalarını içerir.

Burada kullan:Eğer,  kullanabileceğiniz hiçbir referans veritabanı yok ise, örneğin, çok nadir çalışılan bir gen ile çalışıyor iseniz de novo yöntemi kullanmalısınız.

Burada kullanma: Eğer, örtüşmeyen amplikonlarınörneğin,  16S rRNA’ın V2 ve V4 gibi bölgelerin  karşılaştırmasını yapıyorsanız veya çok büyük veriseti ile çalışıyor iseniz bu yöntemi kullanmayın. Kodun çalışmasını 1 ay bekleyebilirsiniz.

  • Avantajı: Tüm dizileri kümeler.
  • Dezavantajı: Paralel şekilde çalıştırılma imkanı olmadığı için büyük veri setlerinde çok yavaş olabilir.

2. Closed reference: Varolan veritabanındaki referans dizilerle benzerlikleri ölçülerek kümeleme yapılır.(pick_closed_reference_otus.py) Eğer referans veritabanlarında hiç diziye yakın bulunmaz ise o dizi kümelemeden çıkarılır.

Burada kullan:Eğer, örtüşmeyen amplikonların örneğin,  16S rRNA’ın V2 ve V4 gibi bölgelerin  karşılaştırmasını yapıyorsanız bu yöntemi kullanmalısınız.

Burada kullanma: Eğer, kullanabileceğiniz hiçbir referans veritabanı yok ise, örneğin, çok nadir çalışılan bir gen ile çalışıyor iseniz bu yöntemi kullanamazsınız.

  • Avantajı: Hızlıdır. Parelellenebilir. Büyük verisetleri için kullanışlıdır. Referans veritabanlarındaki veriler için zaten taksonomiler ve ağaçlar yapıldığı için, çalışılan veriseti için de daha iyi ağaçlar ve taksonomiler oluşturulur.
  • Dezavantajı: Referans veritabanları dışında yepyeni bir çeşitliliği bulmak mümkün değildir.

3. Open reference (de novo + closed): Yukarıdaki bahsedilen iki yöntemin birleşimidir. Önce dizi veritabanından aratılır, eğer bir sonuç gelmez ise de novo kümeleme yapılır. (pick_open_reference_otus.py) QIIME tasarımcıları en çok bu yöntemi tavsiye ederler.

Burada kullanma:Eğer, kullanabileceğiniz hiçbir referans veritabanı yok ise, örneğin, çok nadir çalışılan bir gen ile çalışıyor iseniz bu yöntemi kullanamazsınız. Örtüşmeyen amplikonların örneğin,  16S rRNA’ın V2 ve V4 gibi bölgelerin  karşılaştırmasını yapıyorsanız bu yöntemi kullanmamalısınız.

  • Avantajı: Tüm dizileri kümeler. Belli bir kısmı parelellenebilir. De novo’dan daha hızlıdır.
  • Dezavantajı: Paralellenemeyen kısımları için yavaştır. Referans veritabanları dışında yepyeni bir çeşitlilik için kodun çalışması günlerce sürebilir.

 

OTU Seçme Yaklaşımları Hangi çalışmalarda Kullanılır?
Closed reference İnsan-fare, bağırsak, cilt, ağız mikrobiyomu
De novo Çevre toprak, su gibi belirsiz mikrobiyomlarda
Open reference Her türlü mikrobiyom çalışmalarında kullanılabilir. QIIME tasarımcıları en çok bu yöntemi tavsiye ederler.

QIIME içindeki otu seçme algoritmalarını varolan başka algoritmalardır. Bu nedenle hangi algoritmayı kullanmış iseniz onu makalenizde belirtmeniz gereklidir. QIIME iş akışı içindevarolan otu seçme algoritmalarından açık kaynak kodlu olanlar, SortMeRNA,SUMACLUST ve SWARM; kapalı kodlu olanlar UCLUST ve USEARCH’dür. QIIME’in varsayılan otu seçme algoritması UCLUST’dır.

De novo Metodlar

  • UCLUST: Bir greedy  (açgözlü) kümeleme yöntemidir. İlk dizi merkez noktası olarak alınır. Bu algoritma için diziler en çok görülenden en az görülene göre sıralanmalıdır.
  • CD-HIT: UCLUST ile benzerdir. Daha titiz bir karşılaştırma yapar ve daha uzun sürer.
  • SUMACLUST: UCLUST gibidir, fakat her seferinde tüm dizilimi kullanır.
  • Mothur: Single, complete, average linkage yöntemlerinin hepsini ikili olarak kullanır. Açgözlü yaklaşımlardan daha iyidir. Uzaklık matrisi, büyük veri için uygun değildir.
  • SWARM: Random bir merkez seçer. Random şekilde benzer dizilere bakmak yerine, single linkage yöntemi ile en benzer alt dizileri seçerek birbirine bağlar. Böylece merkez olarak seçilenin önemi kalmaz. OTU’lar arasında büyük farklılıklar var ise daha iyi çalışır.

Kümeleme Nasıl Yapılır?
Kümeleme yaparken dizilerin aralarındaki uzaklık ya da benzerlik bir metrik baz alınarak ölçülür, buna göre de kümeler oluşturulur. Verilerin birbirine yakınlıklarını ölçmek için üç farklı yöntem vardır:

  • Single-linkage (tekil bağlantı): Veri noktasına en yakın olan ilk veri noktası kümeye dahil edilir. Sosyal ağlarda da bu yaklaşım kullanılır. Örneğin, bir kişi için single-linkage kümesi kendisinin en yakın arkadaşıdır. Tüm herkes için bu yapıldığında uzun bir kişi zinciri oluşur. (friend of a friend)
  • Complete-linkage (tamamlanmış bağlantı): Teknik olarak iki küme içindeki birbirine en uzak veri noktalarının arasındaki uzaklıktır. Bu uzaklıktan küçük olan diğer tüm noktalar kümeye dahil edilir. Sosyal ağlarda, bir kişi için complete-linkage kümesi, o kişinin tüm arkadaşlarını kapsar. Bu her kişi için yapılırsa tüm kullanıcı kümesi elde edilir. (we are all friends)
  • Average-linkage (ortalama bağlantı): Single ile complete link arasındadır. Teknik olarak, kümelerdeki en uzak iki nokta arasındaki uzaklık ile en yakın iki nokta arasındaki uzaklığın ortalaması alınarak uzaklık tanımlanır. Sosyal ağlarda, uzaklık iletişim miktarı olarak alınırsa, average-linkage kümesi, her kişinin yakın çevresi olduğu söylenebilir.

Bu bilgiler özellikle hiyerarşik kümeleme yapılacağında çok kullanılır.

linkage

 

 

 

 

 

 

 

Video anlatım:

 

Referanslar

http://qiime.org/tutorials/otu_picking.html

409 total views, no views today