您的位置 首页 数据分析

数据分析时,如何选择参考基因组

很早之前就看过关于参考基因组的资料来着,最近又忘得一干二净了,想整理笔记的时候看到了这篇很早之前的文章,于是决定简单翻译过来,方便查看。

关于构建pipelines和结果可重复性

本周的博客,我们将讨论如何选择一个合适的参考基因组。无论如何,不看分析的数据类型,大多数的生信分析流程,都需要使用参考基因组。例如,我们在做甲基化分析,差异基因表达分析,细胞群体内转录组异质性分析时都使用了参考基因组。基因组的选择影响着下游的分析质量。有研究表明,基因注释的选择不仅影响RNA-seq数据分析,也影响变异预测[1,2]。

how do you chose the correct one?

答案并不简单,取决于下面几个因素。我们将一一来讨论:

1) 参考基因组版本(Versions of the reference genome)

例如,人类 GRCh37.75 (unmasked) vs GRCh38.80 (unmasked)。后面的数字越高,版本越新。需要记住的一件事是,最新版本的基因组,类似基因组注释和功能信息可能会有限制性,因为Ensembl/UCSC需要时间为新版本的基因组整合相关数据。

因此,有时候最新的不一定意味着最好的。

2) 物种选择

很多种菌种,如K12,O103:H2,是E.coli.的两种品系。K12是一种良性菌种,被广泛用于实验室研究。O103:H2则是可致病的菌种,是从欧洲的感染人群体内分离出来的。基于实验,你需要选择一个相应的基因组

3)Masked, soft-masked 和 unmasked

Ensembl 参考基因组有三大类,masked, soft-masked and unmasked。一般而言,比对的时候推荐使用unmasked 参考基因组。Masking用于检测和隐藏散布的重复序列和低复杂度的DNA区域,以便可以使用比对工具对其进行正确处理。(Masking 这个词不太好翻译,意思见下面引用原文)

Masking is used to detect and conceal interspersed repeats and low complexity DNA regions so that they could be processed properly by alignment tools.

Masked genome

Masked基因组也分两类,Masked, soft-masked。

Masked 基因组,也叫 hard-masked DNA sequences,重复和低复杂基因组区域被识别出来并用许多的‘N’代替。使用masked 基因组可能会造成错误的read mapping和变异识别 (variant calls)。

我们不建议你使用masked genome,因为它缺失了一些信息(如在比对结束后,有些unique序列并非真正的unique序列),无法保证100%的准确性和敏感性。此外,它可能会提高了falsely mapped reads的数量。

soft-masked genome

soft masked genomes 中的重复和低复杂基因组区域则是用小写字母替换了原有的大写字母。

soft-masked genome包含了用小写字母标记的重复序列,因此使用soft-masked genome可提高比对质量,且不会损害敏感性。但是应该注意,大多数比对工具都没有考虑到soft-masked区域,例如BWA,tophat,bowtie2等工具在比对时始终使用所有碱基,无论它们是否为小写核苷酸。这就是为什么与unmasked genome相比,使用soft-masked genome并没有实际的好处。有时候你也可以看到repeat-masked genome,这是用特别的工具如RepeatMasker, 进行masking得到的。RepeatMasker会遍历DNA序列,寻找重复序列和低复杂度区域。默认参数的情况下,会用‘N’替代。

unmasked genome

建议使用unmasked genome,如果你不想丢失信息。如果你想过滤数据,最好是在比对后进行。

例如:WES分析,我们建议使用最新的unmasked参考基因组。

一句话总结:用unmasked genome就可以了,使用最新版本的基因组时,需要看看相应的注释文件是否也已经更新。

References:

1. McCarthy DJ, Humburg P, Kanapin A, Rivas MA, Gaulton K, Cazier JB, Donnelly P. Choice of transcripts and software has a large effect on variant annotation. Genome Med. 2014;6(3):26; 2. 2.Frankish A, Uszczynska B, Ritchie GR, Gonzalez JM, Pervouchine D, Petryszak R, et al. Comparison of GENCODE and RefSeq gene annotation and the impact of reference geneset on variant effect prediction. BMC Genomics. 2015;16 (Suppl 8):S2

翻译自:https://genestack.com/blog/2016/07/12/choosing-a-reference-genome/

作者: 陈玫君

现任广州再生医学实验室研究实习员,苏州大学生物科学专业本科毕业,研究内容主要涉及分子生物学以及单细胞测序相关分析,曾实习于中科院上海植生所。



发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

评论列表(14)

联系我们

联系我们

(44)07934433023

在线咨询: QQ交谈

邮箱: info@bioengx.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部