在科研工作里,构建与美化进化树是必须掌握的技能之一。这篇文章汇总和整理了之前的相关内容,依照文章中的脉络,基本上能够在大多数情形下满足构建进化树的需求。本文将从测序数据到构建系统发育树需要经过这4个步骤进行阐述:①数据收集与预处理②多序列比对③选择适合的建树方法④系统发育树的评估与美化。
数据准备与预处理
数据收集与预处理是基因组测序数据分析的关键步骤,主要包括去除低质量序列、去除接头序列、过滤污染序列等,以提高数据的整体质量。
如何选择合适的分子序列
在构建系统发育树之前,首先需要从海量的生物信息数据中挑选出适合的分子序列。常见的分子序列包括DNA序列和蛋白质序列。
• DNA序列:DNA分子由四种核苷酸(A、T、G、C)排列组成,DNA序列就是这些核苷酸的排列次序。DNA序列具有高变异性和丰富的遗传信息,适合用于亲缘关系较远的物种间的系统发育分析。
• 蛋白质序列:蛋白质的一级结构由20种氨基酸线性排列构成,蛋白序列就是这些氨基酸的排列次序。蛋白质序列相对保守,适合用于亲缘关系较近的物种间的系统发育分析。
选择分子序列时,首先要明确研究目的。若想探究物种间大框架的亲缘关系,那就选保守性高的基因序列,比如 16S rRNA 基因,在原核生物系统发育研究中就经常会用到。要是关注物种近期的进化,或者种群动态,那就选变异性高的基因或者非编码区序列。同时,还得考虑物种特性。在植物研究中,叶绿体基因相对保守,非常适合用来分析植物类群的系统发育。而在动物研究里,线粒体基因进化速率快,常用于动物种群层面的研究。
• 注意事项:
• 确保所选序列的质量,避免包含过多噪声或错误。
• 所选序列应能代表目标物种的遗传特征,确保分析结果的可靠性。
• 选的基因进化速率要适中,太慢信息不够,太快又容易出错。
• 确保基因在不同物种里既有保守性又有变异性,这样才能区分不同物种。
• 基因长度和覆盖范围也很重要,太短信息量不够。
数据收集
• 从测序平台获取下机数据,这些数据通常是DNA、RNA或蛋白质的原始序列数据。
• 可以从公共数据库(如NCBI、Ensembl等)获取额外的序列数据,以丰富数据集。
质量控制与预处理
• FastQC
用于评估测序数据的质量,提供碱基质量分布、GC含量分布、序列长度分布等统计信息。
详情参考文章:生信软件,就是赢家通吃:最佳FASTQ质控软件
• fastp
一个高效、快速的通用型序列数据质控工具,支持多种质控功能,如低质量碱基修剪、去除接头、过滤低质量读段等。
详情参考文章:都2025年了,谁还不会下一代测序(NGS)数据质控(一)
• Trimmomatic
用于去除低质量序列和接头序列,支持多种参数配置,如设定质量阈值、最小序列长度等。
详情参考文章:都2025年了,谁还不会下一代测序(NGS)数据质控(三)
• Cutadapt
专门用于去除接头序列,提高比对的准确性。
详情参考文章:都2025年了,谁还不会下一代测序(NGS)数据质控(四)