Mikrobiyom Verisi Nasıl Elde Edilir? SRA – Okunmuş Dizilim Arşivi

SRA (Sequence Read Archive), Next Generation Sequencing olarak isimlendirilmiş yeni nesil dizileme yöntemi ile elde edilmiş dizilim verilerinin depolandığı bir NCBI veritabanıdır. SRA çeşitli organizmalardan örneklenmiş ham veriyi depolar.

Bu sayfa (http://www.ncbi.nlm.nih.gov/sra) bir arama motorudur ve okunmuş dizilim verilerine buradan ulaşılabilir.

Ben çalışmam için 16s rRNA verisi arıyorum ve Illumina sisteminde elde edilmiş olanlarını istiyorum. Arama alanına “16s rRNA illumina” yazıyorum. (linke tıklayarak arama sayfasına gidebilirsiniz.)

Arama sonunda ilişkili tüm deneyler listelenir. Her deney için bir kod vardır – accession  code – Bu kodu daha sonra veriyi indirmek için kullanacağız. Sonuçlardan birine tıklandığında, deneyle ilgili metadata görülebilir. Çalışmanın tasarımı, kim tarafından veritabanına eklendiği, deneyde toplanan niteliklerin listesi gibi bilgilere erişilir.

Sonuçlarda gelen listeden belli bir organizma içinde olanları filtrelemek için sol menüden “Results by taxon” bölümünden istenilen tür seçilebilir. Ben çevresel mikrobiyom verisi aradığım için “indoor metagenome” seçeneği ile devam ediyorum.

sra2
Arama listesi

Sonuç listedeki ilk linki tıkladığımda kış uykusunda yatan ayıların dışkısından elde edilen dizilim verisi olduğunu görüyorum ki bu aradığım şey değil.

5.sayfaya gidelim ve 81. liste elemanı (Accession:ERX1532372) tıklayalım. “Design: 16S Sequencing of Hospital Surfaces” ifadesini göreceğiz yani buradan itibaren hastane ortamından elde edilmiş verileri bulabiliyoruz. Bu sayfada deneyle ilgili metadata görüntülenir. Çalışmanın tasarımı, kim tarafından veritabanına eklendiği, deneyde toplanan niteliklerin listesi gibi bilgilere erişilir.

Farklı veritabanlarında olan ekstra bilgilere “related information” başlığı altında ulaşılabilir. Örneğin BioSample tıklandığında veya SAMEA ile başlayan koda tıklandığında BioSample veritabanından getirilen veriler görüntülenir. Burada, örneğin hangi çevreden alındığı bilgisi detaylı olarak yer alır. Accession:ERX1532372 olan deneyin verisi soğuk musluk başlığından alınmış örneğin.

sra3
Deney ile ilgili Metadata Sayfası

Bu deney verisini fasta veya fastaq formatında indirmek için şu sayfaya gidelim.  Deney numarasını buraya yazalım ve “show runs” diyelim. Yukarıdaki sayfadaki (Deney ile ilgili Metadata Sayfasındaki) run kodu ile aynı koda ulaştık – ERR14611894. Download Format kısmında FASTQ seçeneğini seçerek download linkine tıklayınız ve verinizi fastq formatında elde ediniz.

sra4
Deney veri indirmek için gidilecek sayfa

FastQ formatı ile ilgili şu yazıya bakabilirsiniz

Az önce indirilen veri yalnızca bir örnek için elde edilen veri idi. Çalışmada toplanan tüm verileri indirmek istiyor isek, deney ile ilgili metadata sayfasında Study kısmındaki “All experiments” linkine tıklayalım. Tüm örnekler ayrı linkler halinde tam olarak 3079 sonuç döndürüldü. Sonuçları tek bbir tabloda görüntülemek için Run Selector aracını kullanabiliriz.Bunun için “Send results to Run selector” linkine tıklayalım. Bu tabloyu aynı zamanda txt dosyası olarak da “RunInfo Table” tuşuna tıklayarak indirebiliriz.

sra6

sra5

Hastaneden elde edilmiş veriler için  qiita_ptid_1499 ve qiita_ptid_1765 olmak üzere iki farklı tarihte çalıştırılmış deney verileri mevcut. Sayfa 5 – 38 ‘de yer alan listedeki 81 ve 394 no’lu sonuçlar qiita_ptid_1765 olan çalışmadan, Sayfa 20-38 ‘de yeralan listedeki 395 ve 745 no’lu sonuçlar qiita_ptid_1499 olan çalışmalardır. qiita_ptid_1499 çalışması 3/1/13’de çalıştırılmıştır. qiita_ptid_1765 çalışması 2/28/09’da çalıştırılmıştır. Yani 1499 nolu çalışmalar daha yenidir.

Biz tüm deney verilerini indirdiğimiz için her iki çalışmadan da veriler mevcut.

 

314 total views, 3 views today

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir