小美聊科研002期--微生物组学测序十大错误认知(下)

  • 2020-01-19 16:18:08
  • 39
  • 0

前情回顾:

视频:小美聊科研001期--微生物组学十大错误认知(上

文字:小美聊科研001期--微生物组学十大错误认知(上)


          聚焦生命科研动态,透析行业热门话题,小美聊科研,带您解读信息背后的知识。大家好,我是小美。

 我们上期一起盘点了微生物组学测序研究中的五大错误认知,受到了大家的广泛关注和一致好评,这一期我们继续聊聊微生物组学测序的其他五大错误认知。

 

错误认知6生物学重复不够,可以用技术重复代替

解析:在微生物组学研究中,很多情况下都需要重复样本的这个观念和认知似乎已经成为常识了。那么,大家知道样本重复分为生物学重复和技术重复两大类吗?下面我们先了解一下二者的区别。

生物学重复是对于同一种方式处理下的不同样本而言的,比如同一片小区域里面的不同具体位置取的不同样本、使用同一批培养基和同样来源的等量菌体分装在不同培养瓶分装后又在同一个摇床中培养的菌体样本、同一种病症或其他生理表征的不同人的个体等等。这些个体分布在同一个处理组内被认为具有同样的微生物特性。然而实际上呢,生物学重复个体之间,必然是会存在一定差异的,因为我们任何时候都无法保证具有生命活性的个体之间保持完全一致。






生物学重复的意义所在,可以总结为如下几个要点:

① 生物学重复可以减少组内个体之间差异的干扰,从而体现出更为真实的不同处理组之间的差异;

② 生物学重复可以评估个体尤其是这些个体组成的分组之间差异的可靠性;

③ 生物学重复可以辅助筛查异常样本,从而使得抽样的可靠性大幅提升;

④ 生物学重复可以检验生物学实验操作的可重复性,进而保障数据和结论的可靠性。

 

以上,说的是生物学重复的关键信息,然而,技术性重复就不同了,它是指同一个样品,在同一个处理环节进行的多次重复。比如对于同一个样本代谢产物浓度或种类的多次测定、对同一份样品多次抽提、对同一份样品由不同的技术人员分别建库或者同一个文库的多批次测序等等。说的简单一点,技术重复就是同一个样品,同一种处理方案,同一个人员或者不同人员使用同样的方法多次操作,看看各次之间是否存在差异。技术性重复关注的是如何尽可能地减弱系统误差带来的影响,主要应用于技术不成熟或者工艺不稳定的相应环节。

 

目前而言,大多数情况下,生物学重复之间的差异要显著大于技术性重复之间的差异。对于技术成熟度较高和仪器设备的稳定性较好的环境而言,批次之间、不同实操人员之间的操作差异对最终结果的影响基本可以忽略不计。也就是说,技术性重复可以不进行,而生物学重复往往是必须的。至于生物学重复的数目,不同的样本类型、研究类型之间,差异还是很大的,需要具体情况具体对待。

在研究中,也时常会有研究人员因为生物学重复设置失败,比如说忘记设置生物学重复、某些重复数据异常被剔除等等,就人为地把技术重复的数据当成生物学重复使用。大部分情况下,这种做法是违背统计学原则的,并且,技术重复数据的一致性往往是非常高的,会明显区别于正常的生物学重复之间的数据情况,所以往往也非常容易被其他学者发现这种“偷天换日”的行为。

在此,我们呼吁大家用真实的数据讲故事,科学研究可不要抱有侥幸心理呀。

 

 

错误认知7微生物多样性、宏基因组、代谢组学等组学研究样本重复数越多越好

解析:上一个话题中,我们讨论了生物学重复和技术性重复的区别,在大部分情况下,科研工作者口中说的样本重复,其实就是在说生物学重复。那么,对于组学研究而言,是不是样本的生物学重复越多越好呢?

理论上讲,如果大家选择的生物学重复是真正意义上基于特定标准筛选的,这类有效的生物学重复数越多越好。但是实际上,有三个问题比较突出。

① 很多科研工作者准备的“生物学重复”并不是有效的重复。这些重复之间存在着很明显的差异性,比如收集土壤样品时不考虑pH的差异、温度的差异等等,收集人的样本时忽略了饮食、作息、药物使用等等要素可能会对微生物生长和代谢情况带来显著影响的因素,这种类型的重复,会导致最后的组学测定数据整体性非常差,主要表现在组内不同生物学重复之间差异很大,样品越多越乱,不易得出准确的结论甚至掩盖一些规律和信息。从这个意义上来讲,生物学重复数的多少,价值就很小了。

② 成本问题。大部分学者最纠结的往往就是项目的总花销问题,生物学重复数的增加,就意味着科研成本会成倍增加,这种挑战是大部分经费无法承受的。当然,细心的你可能也发现了,那些发表在优秀杂志上的论文,往往还真是借力了大样本大数据量的红利,可以说,这是用钱砸出来的呀,也不是我们一般课题组所能达到的。

③ 必要性问题。如果某个水平上的重复数已经可以解释或者代表某类科学现象了,更多的样本并不会增加结论的准确性,从这个意义上来讲,重复数合适就好,并不一定追求数量指标。

 

总结一下,生物学重复样本在准备时,要提前考虑周全,尽可能保证关键影响因子没有显著差异,样本数目的多少,视研究需要而定,没必要盲目求多。小美在这里,整理了微生物多样性、宏基因组、代谢组学的生物学重复样本常见数量,供大家参考。



 

错误认知8数据库注释出来的物种信息、基因描述信息就是最准确的

解析:我们在跟研究人员沟通时,经常会听到的一种说法就是“数据库就是这样子的呀,肯定是你们哪里搞错了”。今天呢,我们就一起聊一聊数据库的问题。

我们选定微生物组研究中常见的两种场景,一种是微生物多样性研究中依赖于数据库的物种注释,另一种是基因组层面上依赖于数据库的基因描述信息的注释。

微生物多样性物种注释数据库、基因和基因组注释数据库及其应用范围,如下表所示:






 

以上这些数据库,只有少数数据库如Swiss-prot数据库、KEGG数据库等是经过人工校对和整理的,其他的数据库大部分都是基于算法或者数据的分类整合做成的。不过,作为微生物的数据最丰富的NCBI数据库,最近几年也进行了大量的算法优化,并且有比较高的人工干预,数据的准确性也提高了很多。基于数据库注释,小美总结了两条常见的现象。

① 同样的序列,有多条不同的注释信息,如物种信息、基因描述信息等;

② 注释信息不准确甚至错误,如silvia数据库中某些物种只有菌株或者编号信息,缺了真正有价值的物种分类信息,或者某些本身功能已经比较明确的基因却只是被简单地描述成了hypthetical protein等等。

 

产生这种结果的主要原因,有两条,一个是数据库本身就不足够准确,另一个就是与数据库比对分析时,研究人员并没有对于注释结果进行校正,而是采用了一种很偷懒的方式,即只取第一条注释信息。如果第一条本身就是不准确的甚至错误的,最后的结果必然也是有问题的。

 

总结一下,数据库也是基于各类算法,最多再搭上人工校对做出来的,并且随着各领域研究成果的不断积累,数据库也是需要不断更新和修正的,简言之,数据库并非是百分百准确的。为了获得更具有说服力的结果,大家最好对基于数据库分析的结果进行人工核验,不要盲信数据库。

 

错误认知9:微生物多样性研究物种注释信息明确到种或属水平的数据不可用

解析:微生物多样性研究是基于特定的Marker基因或片段代表相应的物种与数据库进行比较分析,从而获得详细的物种注释信息的。常见的Marker基因或片段有细菌的16S rDNA、功能基因,真菌的ITS序列等等。然而,进行物种注释时,往往无法注释到很明确的物种分类信息,经常会遇到只注释到门或纲水平的数据,有些物种,特别是真菌类物种,甚至连界水平都无法界定。No_rank、unclassified这两个单词是大家经常遇到的,两者都表示物种分类信息的不完整和不确定。具体而言,No_rank代表的意思分别是该分类水平上没有明确的分类信息或分类名称,在这个分类下面的各个更低的分类水平,也就没有分类信息了。Unclassified表示,在数据库中没有找到对应于该序列的分类信息,无法对这些序列信息进行相应水平的分类。No_rank和unclassified的区别在于,前者在数据库中是有序列的,但是分类无法命名,后者是在在该水平上数据库中就没有符合置信区间的序列。

 

换句话说呢,就是,现在的物种注释数据库,包含的数据信息仍旧是非常有限的,巨大的微生物种群被人类认知到的仍旧极其微小,所以,如果研究人员的微生物样本来源比较特殊,比如深海、极端环境以及其他人迹罕至的地方等等,往往会发现大量新物种,可能很多都不在现有的数据库中。所以呢,微生物多样性研究中,物种注释信息的精细化水平如何,限制因素在于数据库,而不是实验测序人员或者数据分析人员。

大家研究微生物菌群,除了获悉有什么物种之外,更重要的是找到微生物菌群变化与外部环境变化的相关性,回答什么原因导致了怎样的变化,或者找到一些biomarker用于后续的快速检测。如果物种注释时未能明确种属的序列或OTU,与大家研究的目的无关,大可不必关注这些信息了,但是如果这些信息不明确的OTU所代表的的物种也刚好是目标物种之一,大家可以尝试使用不同的数据库或者其他方法来获得更多、更细致的注释信息,但无论信息精细度如何,我们都不能丢掉这些物种,影响最终结果的准确性。

 

总结一下,物种注释信息的精细程度,取决于数据库的含金量,但大千世界总有新的物种被不断发现,未明确分类信息的物种时常会见到,如何取舍,取决于这些物种与研究目的的强关联程度。


 

10个错误认知:做纯培养细菌全基因组denovo测序,完全没有必要做成完成图。

解析:最近我们与公司的技术人员沟通时发现,很多科研人员都提到说,别人告诉自己做纯培养细菌全基因组denovo测序,完全没必要做成完成图,做扫描图就完全足够了。今天呢,我们就一起盘点一下,细菌基因组denovo测序,做扫描图和完成图的区别和各自的使用场景。

下面的一个表格,总结了二者在主流测序方法、基因组完整度、获取难度、获取成本、优势与劣势、应用场景等方面的区别。





总结来说呢,细菌基因组扫描图价格便宜,获取容易,获取周期很短,一般情况下,最快2周可以获得分析结果了,主要是大样本量测序时采用该技术。不过,在前几年,测序价格,尤其是三代测序价格还比较高的时候,基于二代测序平台的细菌基因组扫描图确实是研究人员的不二之选。扫描图几乎可以获得全部的保守基因,完全可以进行各类基于具体基因的分析和功能验证研究。不过,扫描图的一个巨大缺陷在于,不能将组装获得的各个大片段序列按照基因组本来的排序串联起来,也就无法进行基于全长基因组或者大片段之间断开处的共线性分析了。如果基因组中含有多个质粒,或者处于游离状态的噬菌体,很难分清彼此,所以呢,二代测序平台于研究移动元件也存在一定难度。

随着三代测序技术的日益成熟,价格持续下降,越来越多的学者开始使用三代联合二代测序技术的方式获取细菌基因组完成图序列,从而有助于自己开展更多、更细致的数据分析。使用扫描图数据能做的所有分析,使用完成图数据都能做,同时,完成图数据还能更准确地鉴定和分析质粒、噬菌体、CRISPR-Cas系统、基因组岛、基因簇等移动单元和大片段,对于基因水平转移的研究非常有必要。如果大家仅仅研究某一个特定的菌株,并且计划在将来作为实验室里面的模式菌株,其他人员会基于基因组测序信息开展各类功能基因组学研究,无论是发表论文的需要还是自己研究的需要,最好做到完成图水平。毕竟,现在的测序和数据分析技术手段已经很成熟很便宜了,对于大部分细菌基因组而言,获得完成图并不存在经费压力和技术难度,大家发表论文时,可能某些评阅人也会建议甚至要求菌株做到完成图水平。不过呢,相对于扫描图而言,完成图的获取难度还是稍高一些的,并且样品制备的要求也会更高一些,项目周期也会稍微长一点。正可谓“收益总是伴随着代价的”。

科研界之所以很多人强调说没必要做成完成图,大概是基于如下两条认知而形成的:

① 如果仅仅是在基因层面上分析细菌的基因组情况,扫描图数据确实基本够用了;

② 由于认知的历史遗留问题,可能很多学者对于三代测序技术的成熟与普及程度,以及细菌基因组完成图水平数据的获取代价,还停留在五六年前。

好了,总结一下,细菌基因组扫描图成本低、获取快,多用于样本量较大的研究,或者是以特定基因为主要分析对象的研究中。而细菌基因组完成图成本稍高一点,分析难度也稍大一些,多用于某些重要的、特定的菌株研究,或者非常看重可移动元件的研究中。


好啦,关于微生物组学测序的十大错误认知,我们就全部分享完了,不知以上知识,您get到了吗?

 

小美聊科研,解读信息背后的知识,咱们,下期新话题,接着聊

评论

全部评论()
查看更多评论
湖北11选5 湖北11选5 湖北11选5 湖北快三 湖北快三 湖北11选5 湖北快三 湖北快三 湖北快三 湖北11选5