北京中科测试 Metagenome 分析结题报告

合同编号	HXXXSCXXXXXXXX
合同名称	XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
分期编号	X101SCXXXXXXXX-XXX-XXXX
报告时间	2025-09-18
售后服务电话	010-82726200
售后服务邮箱	bjzklh@163.com
售后服务云平台	https://wwww.bjzklh.com/ 说明：您可以登录云平台并进行数据分析；
温馨提示	Report仅供展示部分结果，全部分析内容详见Result文件夹；在您拿到Result前Report中的Result超链接无效，确认结算后，释放结果文件Result中Report的结果目录超链接有效。

1 项目简介

微生物群体存在于世界各类生态系统中，从个体体表到肠道，从高原空气到深海海底淤泥，从冰川冻湖到火山岩浆，微生物无处不在，并扮演着不可或缺的角色。对微生物的研究从 Antoni van Leeuwenhoek 发明显微镜开始的数百年中，主要基于纯培养的研究方式。在数以万亿计的微生物种类中，仅 0.1%-1% 的物种可培养(Chen et al., 2005)，极大地限制了对微生物多样性资源的研究和开发。

宏基因组学(Metagenomics)，是由Handelman (Handelsman et al., 1998)最先提出的一种直接对微生物群体中包含的全部基因组信息进行研究的手段。之后，宏基因组学的定义为 “绕过对微生物个体进行分离培养，应用基因组学技术对自然环境中的微生物群落进行研究”的学科。它规避了对样品中的微生物进行分离培养，提供了一种对不可分离培养的微生物进行研究的途径，更真实地反映样本中微生物组成、互作情况，同时在分子水平对其代谢通路、基因功能进行研究(Tringe et al., 2005)。

近年来，随着测序技术和信息技术的快速发展，利用下一代测序技术(Next Generation Sequencing, NGS)研究宏基因组学，能快速准确得到大量生物数据和丰富的微生物研究信息，从而成为研究微生物多样性和群落特征的重要手段(Tringe et al., 2005; Raes et al., 2007)。如致力于研究微生物与人类疾病健康关系的人体微生物组计划(Human Microbiome Project, HMP)，研究全球微生物组成和分布的全球微生物组计划(Earth Microbiome Project, EMP)都主要利用高通量测序技术进行研究。

项目整体流程图如下：

图1 项目整体流程

2 建库测序流程

检测合格的DNA样品用Covaris超声波破碎仪随机打断成长度约为350 bp的片段，经末端修复、加A尾、加测序接头、纯化、PCR扩增等步骤完成整个文库制备。文库构建流程图如下：

图2 文库构建流程图

文库的检测主要包括2种方法：

(1) AATI检测文库片段的完整性及插入片段大小

(2) qPCR检测文库有效浓度

库检合格后，把不同文库按照有效浓度及目标下机数据量的需求 pooling 后进行双端测序(PE150)。

中文版method

英文版method

3 信息分析流程

测序得到的原始数据(Raw Data)存在一定比例的低质量数据，为了保证后续信息分析结果的准确可靠，首先要对原始数据进行质控及宿主过滤，得到有效数据(Clean Data)之后，根据样品质控后的 Clean Data ，进行组装后，得到scaftigs。基于组装后的 scaftigs ，进行基因预测与去冗余，构建 gene catalogue，从而进行相应的gene catalogue 在各样品中的丰度信息计算。

物种丰度方面，将gene catalogue与Micro_NR库进行比对，获得每个基因(unigene)的物种注释信息，并结合基因丰度表，获得不同分类层级的物种丰度表。

功能注释方面，根据常用的功能数据库，从gene catalogue出发，进行代谢通路数据库(Kyoto Encyclopedia of Genes and Genomes, KEGG)、同源基因簇数据库(Evolutionary genealogy of genes: Non-supervised Orthologous Groups, eggNOG)、碳水化合物酶数据库(Carbohydrate-Active enzymes Database, CAZy)、细菌致病菌毒力因子数据库(Virulence Factor Database, VFDB)、病原与宿主互作数据库(Pathogen-Host Interactions, PHI)功能注释和丰度分析。

基于物种丰度和功能丰度，进行丰度聚类分析，PCA和NMDS降维分析，Anosim分析，样品聚类分析；当有分组信息时，可以进行MetagenomeSeq和LEfSe多元统计分析以及代谢通路比较分析，挖掘样品之间的物种组成和功能组成差异。

抗性基因注释方面，根据抗生素抗性基因数据库(Comprehensive Antibiotic Resistance Database, CARD)，转移元件数据库(Mobile Genetic Elements, MGEs)进行注释，可以获得抗性基因丰度分布情况以及这些抗性基因的物种归属和抗性机制。

信息分析流程如下图：

图3 信息分析流程图

说明：当样品数目小于3个时，无法进行PCA，PCoA，NMDS，聚类分析，丰度聚类热图分析；当分组内的生物学重复数目小于3个时，诸如Anosim，MetaGenomeSeq，LEfSe等统计分析皆没有统计学意义，将不进行此类分析。

4 分析结果

4.1 数据处理

对原始测序数据进行预处理，包括：当任一测序read中含有接头序列，去除此paired reads；当任一测序read中含有的低质量（Q<=5）碱基数超过该条read碱基数的50%时，去除此paired reads；当任一测序read中N含量超过该read碱基数的10%时，去除此paired reads。如果样品存在宿主污染，需与宿主序列进行比对，过滤掉可能来源于宿主(Karlsson et al., 2012; Karlsson et al., 2013; Scher et al., 2013) (默认采用 Bowtie2 软件)，从而获取用于后续分析的有效数据(clean data)。上述处理步骤均是对read 1和read 2进行操作。测序数据预处理统计结果见下表。

表4.1 数据处理统计结果

SampleID	Raw_Base(G)	Clean_Base(G)	Clean_Q20(%)	Clean_Q30(%)	Clean_GC(%)	Effective(%)	NonHost_Base(G)
A1	6.07	6.03	97.10	91.62	50.34	99.22	6.01
A2	6.52	6.47	97.84	93.69	51.00	99.32	6.20
A3	6.32	6.29	97.56	92.87	50.01	99.50	6.25
A4	6.19	6.16	97.66	93.12	50.64	99.43	6.13
A5	6.12	6.06	97.58	92.93	49.01	99.05	5.47
A6	7.04	7.00	98.22	94.71	50.63	99.41	6.72
B1	11.67	11.46	97.83	93.90	47.04	98.21	6.43
B2	9.68	9.50	97.67	93.46	48.33	98.12	5.93
B3	6.10	6.02	96.96	91.34	51.11	98.70	5.99
B4	6.24	6.18	97.42	92.56	48.49	99.08	5.38
B5	6.10	6.03	96.94	91.25	51.13	98.92	5.92
B6	7.52	7.41	97.24	92.23	48.42	98.65	5.78
C1	6.47	6.43	97.24	92.09	50.59	99.31	6.04
C2	7.98	7.90	97.67	93.28	47.86	98.95	6.27
C3	8.29	8.18	97.69	93.38	47.00	98.70	6.06
C4	6.17	6.12	97.66	93.20	45.85	99.20	5.75
C5	8.90	8.75	97.57	93.19	46.48	98.33	5.19
C6	7.93	7.85	97.78	93.62	48.02	98.96	6.62

显示注释

Raw_Base(G)：测序原始数据的总碱基数，即为测序序列的个数乘以测序长度算得，以G为单位

Clean_Base(G)：过滤之后的有效数据量，过滤后测序序列的个数乘以测序序列的长度，以G为单位

Clean_Q20(%)：Clean_Base 中 Phred 数值大于20的碱基占总体碱基的百分比

Clean_Q30(%)：Clean_Base 中Phred 数值大于30的碱基占总体碱基的百分比

Clean_GC(%)：碱基G和C的数量总和占总的碱基数量的百分比

Effective(%)：有效数据( Clean_Base )与原始数据( Raw_Base )的百分比

NonHost_Base(G)：剔除宿主序列的Clean_Base

结果目录：

各样品QC结果详细信息见：result/01.QC/QC_summary.xls

4.2 组装

经过预处理后得到clean data，使用MEGAHIT组装软件进行组装分析(Assembly Analysis) (https://www.metagenomics.wiki/tools/assembly/megahit)。

对于单样品组装生成的Scaftigs，过滤掉500 bp以下的片段，并进行统计分析和后续基因预测(Karlsson et al., 2013; Li et al., 2014; Zeller et al., 2014; Sunagawa et al., 2015)。

表4.2 各样品组装结果scaftigs基本信息统计(>= 500 bp)

SampleID	Total len(bp)	Scaftigs num	Average len(bp)	N50 len(bp)	N90 len(bp)	Max len(bp)
A1	165,447,841	69,857	2,368.38	10,965	708	478,642
A2	213,570,341	111,489	1,915.62	4,092	656	646,982
A3	235,682,388	121,901	1,933.39	3,883	666	646,981
A4	144,363,110	50,624	2,851.67	15,391	785	478,624
A5	183,960,238	86,142	2,135.55	9,028	657	412,322
A6	249,341,826	138,844	1,795.84	3,263	642	646,982
B1	319,519,425	166,683	1,916.93	3,518	672	481,015
B2	132,072,777	89,750	1,471.56	1,905	596	818,692
B3	121,835,665	76,525	1,592.10	2,583	610	819,022
B4	247,135,836	148,448	1,664.80	2,709	626	488,277
B5	92,541,796	54,664	1,692.92	2,594	638	819,154
B6	185,528,748	117,961	1,572.80	2,107	630	498,778
C1	200,981,089	105,572	1,903.73	4,001	648	818,507
C2	265,057,699	148,610	1,783.58	3,019	654	460,710
C3	309,520,243	169,297	1,828.27	3,159	664	437,747
C4	170,647,887	87,284	1,955.09	4,858	655	488,694
C5	225,060,591	140,455	1,602.37	2,417	620	646,981
C6	317,578,445	168,282	1,887.18	3,369	673	479,734

显示注释

Total len(bp)：组装得到的scaftigs的总长

Scaftigs num：组装得到的scaftigs总条数

Average len(bp)：scaftigs的平均长度

N50 len(bp)：将scaftigs按照长度进行排序，然后由长到短加和，当加和值达到scaftigs总长的50%时的scaftigs的长度值

N90 len(bp)：将scaftigs按照长度进行排序，然后由长到短加和，当加和值达到scaftigs总长的90%时的scaftigs的长度值

Max len(bp)：组装得到的最长scaftigs的长度值

结果目录：

按照长度500 bp进行过滤后，所有样品的Scaftigs序列：result/02.Assembly/Sample_Name/*.scaftigs.fa

按照长度500 bp进行过滤后，所有样品的Scaftigs统计表：result/02.Assembly/total.scaftigs.stat.info.xls

各样品对应的组装结果见：result/02.Assembly/Sample

各样品中Scaftigs长度的分布图见：result/02.Assembly/Sample/*.{svg,png}

4.3 基因预测及丰度分析

4.3.1 基因预测及丰度分析步骤

使用 MetaGeneMark (http://topaz.gatech.edu/GeneMark/)对各样品的scaftigs (>= 500 bp)进行 ORF 预测(Karlsson FH et al., 2012; Mende DR et al.,2012; Li J et al., 2014; Oh J et al., 2014; Qin N et al., 2014)，并过滤掉预测结果中长度小于100 nt的信息(Qin J et al., 2010; Zhu W et al., 2010; Nielsen HB et al., 2014; Zeller G et al., 2014; Sunagawa S et al., 2015)，均采用默认参数。

对ORF预测结果，采用CD-HIT软件(http://www.bioinformatics.org/cd-hit/)进行去冗余(Li W et al., 2006; Fu L et al., 2012)，以获得非冗余的初始gene catalogue，此处将非冗余的连续基因编码的核酸序列称之为genes (Zeller G et al., 2014)(Li J et al., 2014; Qin N et al., 2014)。

使用Bowtie2将各样品的clean data 比对至初始gene catalogue，计算得到基因在各样品中比对上的reads数目(Qin J et al., 2010; Li J et al., 2014)。

过滤掉各个样品中reads数目<= 2的基因(Zeller G et al., 2014)，获得最终用于后续分析的gene catalogue (unigene)。从比对上的reads数目及基因长度出发，计算得到各基因在各样品中的丰度信息(Cotillard A et al., 2013; Buchfink B et al., 2015; Villar E et al., 2015)，如下公式所示：

说明：r为比对上基因的reads 数目，L 为基因的长度

基于gene catalogue 中各基因在各样品中的丰度信息，进行基本信息统计，core-pan基因分析，样品间相关性分析，及基因数目韦恩图分析。

4.3.2 gene catalogue 基本信息统计

表4.3 Gene catalogue基本信息统计表

ORFs_NO.	1,319,089
Integrity_start	293,325(22.24%)
Integrity_end	251,360(19.06%)
Integrity_none	127,814(9.69%)
Integrity_all	646,590(49.02%)
Total_Len.(Mbp)	897.37
Average_Len.(bp)	680.3
GC_Percent	50.60

显示注释

ORFs_NO.：gene catalogue 中基因的数目

Integrity_start：只含有起始密码子的基因数目及百分比

Integrity_end：只含有终止密码子的基因数目及百分比

Integrity_none：没有起始密码子也没有终止密码子的基因数目及百分比

Integrity_all：完整基因(既有起始密码子也有终止密码子)数目的百分比

Total_Len. (Mbp)：gene catalogue 中基因的总长，单位是百万

Average_Len. (bp)：gene catalogue 中基因的平均长度

GC_Percent：预测的 gene catalogue 中基因的整体 GC 含量值

图4.1 Unigene长度分布统计

结果目录：

Unigene长度分布统计见：result/03.GenePredict/GenePredict/UniGenes/*.{svg,png}

4.3.3 Core-pan 基因分析

从基因在各样品中的丰度表出发，可以获得各样品的基因数目信息，通过随机抽取不同数目的样品，可以获得不同数目样品组合间的基因数目，由此构建和绘制的Core 和 Pan 基因的稀释曲线，图片展示如下：

图4.2 Core-pan基因稀释曲线

说明：a) Pan基因稀释曲线；b) Core基因稀释曲线；横坐标表示抽取的样品个数；纵坐标表示抽取的样品组合的非冗余的基因数目

结果目录：

Core-pan 基因稀释曲线图见：result/03.GenePredict/GeneStat/core_pan/*.{png,pdf}

4.3.4 基于基因数目的样品间相关性分析

生物学重复是任何生物学实验所必须的，高通量测序技术也不例外。样品间基因丰度相关性是检验实验可靠性和样本选择合理性的重要指标。相关系数越接近1，表明样品之间基因丰度模式的相似度越高。

图4.3 样品间相关系数热图

说明：图中，不同颜色代表 spearman 相关系数的高低；相关系数与颜色间的关系见右侧图例；颜色越深代表样品间相关系数的绝对值越大；椭圆向右偏表明相关系数为正，左偏为负；椭圆越扁说明相关系数的绝对值越大

结果目录：

样品间相关系数热图见：result/03.GenePredict/GeneStat/correlation/*.{png,pdf}

4.3.5 基因数目差异分析

为了考察组与组间的基因数目差异情况，绘制了组间基因数目差异箱图，展示结果如下：

图4.4 组间基因数目差异箱图

说明：横坐标为各个分组信息；纵坐标为基因数目

结果目录：

组间基因数目差异箱图见: result/03.GenePredict/GeneStat/genebox_group1/*.{png,pdf}

4.4 物种与功能注释

4.4.1 Micro_NR物种注释

目前常用的功能数据库主要有:

NR数据库(https://www.ncbi.nlm.nih.gov/)：非冗余蛋白质的氨基酸序列数据库，包含SwissProt、PIR (Protein Information Resource)、PRF (Protein Research Foundation)、PDB (Protein Data Bank)蛋白质数据库非冗余的数据以及从GenBank 和RefSeq 的CDS 数据翻译来的蛋白质数据。

Micro_NR数据库：从NR数据库中抽提出的细菌(Bacteria)、真菌(Fungi)、古菌(Archaea)和病毒(Viruses)四部分微生物序列用作微生物分析。

4.4.1.1 物种注释基本步骤

使用DIAMOND软件(https://github.com/bbuchfink/diamond/) (Buchfink B et al., 2015)，将unigene与从NCBI的NR数据库(https://www.ncbi.nlm.nih.gov/)中抽提出的细菌(Bacteria)、真菌(Fungi)、古菌(Archaea)和病毒(Viruses)序列进行比对(Karlsson FH et al., 2013)。

对于每一条序列的比对结果，选取evalue <= 10e-5的结果，由于每一条序列可能有多个比对结果，采取 LCA 算法(应用于MEGAN软件的系统分类(https://en.wikipedia.org/wiki/Lowest_common_ancestor) 来确定该序列的物种注释信息(Huson DH et al., 2011)。

从LCA注释结果及基因丰度表出发，获得各个样品在各个分类层级(界门纲目科属种)上的丰度信息及基因数目表，对于某个物种在某个样品中的丰度，等于注释为该物种的基因丰度的加和(Karlsson FH et al., 2012; Li J et al., 2014; Feng Q et al., 2015);对于某个物种在某个样品中的基因数目，等于在注释为该物种的基因中，丰度不为0的基因数目。

4.4.1.2 物种相对丰度概况

为了综合而直观的展示各样品中，不同分类层级的物种相对丰度，我们采用 Krona对物种注释结果进行可视化展示(Ondov et al., 2011)，Krona 示例图如下所示：

图4.5 使用 Krona 对物种注释结果进行展示(示例图)

点击查看详细结果

说明：图中，圆圈从内到外依次代表不同的分类级别(界门纲目科属种)；扇形的大小代表不同物种的相对丰度比例；更多详细的信息请参考KRONA 展示结果详解(https://github.com/marbl/Krona/wiki/)

从不同分类层级的相对丰度表出发，选取出在各样品(组)中的最大相对丰度排名前 10 的物种，并将其余的物种设置为 Others，绘制出各样品对应的物种注释结果在不同分类层级上的相对丰度柱形图。

Kingdom Phylum Class Order Family Genus Species

图4.6 物种水平的物种相对丰度柱形图

说明：每个层级的相对丰度柱形图，横向表示样品名称，纵向表示注释到某类型的物种的相对丰度比例；各颜色区块对应的物种类别见右侧图例

结果目录：

Krona展示结果见：result/04.Annotation/MicroNR/Krona/taxonomy.krona.html

top10物种相对丰度柱形图见：result/04.Annotation/MicroNR/{Top_sample,Top_group1}，包括界门纲目科属种(Kingdom、 Phylum、 Class、 Order、 Family、 Genus、Species)7个分类级别的结果

4.4.1.3 注释基因数目及相对丰度聚类分析

从不同分类层级的相对丰度表和基因数目表出发，选取各分类层级丰度排名前 35 的物种绘制热图，并从物种层面进行聚类，便于结果展示和信息发现，从而找出样品中聚集较多的物种，结果展示见下图：

Kingdom Phylum Class Order Family Genus Species

图4.7 物种丰度聚类热图

说明：物种丰度聚类热图；横向为样品信息；纵向为物种信息；图中左侧的聚类树为物种聚类树；热图对应的值为每一行物种相对丰度经过标准化处理后得到的 Z 值；即一个样品在某个分类上的 Z 值为样品在该分类上的相对丰度和所有样品在该分类的平均相对丰度的差除以所有样品在该分类上的标准差所得到的值

Kingdom Phylum Class Order Family Genus Species

图4.8 基因数目聚类热图

说明：Unigenes 注释数目统计热图；横向为样品名称；纵向为物种信息；不同颜色代表 Unigenes 数目的高低

结果目录：

物种丰度聚类热图见：result/04.Annotation/MicroNR/Heatmap_sample，包括界门纲目科属种(Kingdom、 Phylum、 Class、 Order、 Family、 Genus 、Species)7个分类级别的结果

基因数目聚类热图见：result/04.Annotation/MicroNR/Heatmap_genenums_sample，包括界门纲目科属种(Kingdom、 Phylum、 Class、 Order、 Family、 Genus 、Species)7个分类级别的结果

4.4.2 KEGG 功能蛋白注释

KEGG 数据库(Kanehisa et al., 2006; Kanehisa et al., 2017)于1995年由 Kanehisa Laboratories 推出 0.1 版，目前发展为一个综合性数据库，其中最核心的为 KEGG PATHWAY 和 KEGG ORTHOLOGY 数据库。在KEGG ORTHOLOGY数据库中，将行使相同功能的基因聚在一起，称为Ortholog Groups (KO entries)，每个KO包含多个基因信息，并在一至多个pathway 中发挥作用。而在 KEGG PATHWAY 数据库中，将生物代谢通路划分为 6 类，分别为：细胞过程(Cellular Processes)、环境信息处理(Environmental Information Processing)、遗传信息处理(Genetic Information Processing)、人类疾病(Human Diseases)、新陈代谢(Metabolism)、生物体系统(Organismal Systems)，其中每类又被系统分类为二、三、四层。第二层目前包括有 57个种子 pathway；第三层即为其代谢通路图；第四层为每个代谢通路图的具体注释信息。

4.4.2.1 KEGG 注释基本步骤

使用DIAMOND软件将unigene与KEGG功能数据库进行比对(Li et al., 2014; Feng et al., 2015)，然后进行比对结果过滤，对于每一条序列的比对结果，选取score最高的比对结果(one HSP > 60 bits)进行后续分析(Qin et al., 2012; Li et al., 2014; Qin et al., 2014; Bäckhed et al, 2015)。

从功能注释结果及基因丰度表出发，获得各个样品在各个分类层级上的基因数目表，对于某个功能在某个样品中的基因数目，等于在注释为该功能的基因中，丰度不为 0 的基因数目。

4.4.2.2 KEGG 注释基因数目统计

从 unigene 注释结果出发，绘制KEGG 数据库level1 层级的注释基因数目统计图，展示结果如下图所示：

图4.9 KEGG数据库注释基因数目统计图

结果目录：

KEGG数据库注释基因数目统计图见：result/04.Annotation/KEGG/Anno/KEGG.unigenes.num.{pdf,png}

4.4.2.3 KEGG 相对丰度概况

根据KEGG数据库的注释结果，绘制了样品(组)在KEGG数据库中对应层级上的相对丰度统计图。以各样品在KEGG数据库中level1层级上的相对丰度统计图为例展示。其余层级为相对丰度前10的注释结果。

level1 level2 level3 KO ec module

图4.10 KEGG 功能注释相对丰度柱形图

说明：每个层级的相对丰度柱形图，横向表示样品名称，纵向表示注释到某类型功能的相对比例；各颜色区块对应的功能类别见图例

结果目录：

样品 - KEGG各层级相对丰度前10的相对丰度柱形图见：result/04.Annotation/KEGG/Top_sample/*/*.top10.{svg,png}

组 - KEGG各层级相对丰度前10的相对丰度柱形图见：result/04.Annotation/KEGG/Top_group1/*/*.top10.{svg,png}

4.4.2.4 KEGG 功能相对丰度聚类分析

根据所有样品在KEGG数据库中的功能注释及丰度信息，选取丰度排名前 35 的功能及它们在每个样品中的丰度信息绘制热图，并从功能差异层面进行聚类。

level1 level2 level3 KO ec module

图4.11 KEGG 功能丰度聚类热图

说明：横向为样品信息；纵向为KEGG注释信息；图中左侧的聚类树为功能聚类树；中间热图对应的值为每一行功能相对丰度经过标准化处理后得到的 Z 值；即一个样品在某个分类上的 Z 值为样品在该分类上的相对丰度和所有样品在该分类的平均相对丰度的差除以所有样品在该分类上的标准差所得到的值

结果目录：

KEGG丰度聚类热图见：result/04.Annotation/KEGG/Heatmap_sample/*/heatmap.sample.*.{pdf,png}

4.4.3 eggNOG 直系同源蛋白注释

EggNOG数据库是利用Smith-Waterman 比对算法对构建的基因直系同源簇(Orthologous Groups)进行功能注释，eggNOG涵盖了5,090个物种的基因，构建了约440万个Orthologous Groups。

4.4.3.1 eggNOG 注释基本步骤

使用DIAMOND软件将unigene与eggNOG功能数据库进行比对(Li et al., 2014; Feng et al., 2015)，然后进行比对结果过滤，对于每一条序列的比对结果，选取score 最高的比对结果(one HSP > 60 bits)进行后续分析(Qin et al., 2012; Li et al., 2014; Qin et al., 2014; Bäckhed et al, 2015)。

4.4.3.2 eggNOG 注释基因数目统计

从 unigene注释结果出发，绘制eggNOG数据库的level1层级注释基因数目统计图，展示结果如下图所示：

图4.12 EggNOG数据库注释基因数目统计图

结果目录：

eggNOG数据库注释基因数目统计图见：result/04.Annotation/eggNOG/Anno/eggNOG.unigenes.num.{pdf,png}

4.4.3.3 eggNOG 相对丰度概况

根据eggNOG数据库的注释结果，绘制了样品(组)在eggNOG数据库中对应层级上的相对丰度统计图。以各样品在eggNOG数据库中level1层级上的相对丰度统计图为例展示。其余层级为相对丰度前10的注释结果。

levle1 level2 og

图4.13 eggNOG 功能注释相对丰度柱形图

说明：每个层级的相对丰度柱形图，横向表示样品名称，纵向表示注释到某类型功能的相对比例；各颜色区块对应的功能类别见图例

结果目录：

样品 - eggNOG各层级相对丰度前10的相对丰度柱形图见：result/04.Annotation/eggNOG/Top_sample/*/*.top10.{svg,png}

组 - eggNOG各层级相对丰度前10的相对丰度柱形图见：result/04.Annotation/eggNOG/Top_group1/*/*.top10.{svg,png}

4.4.3.4 eggNOG 功能相对丰度聚类分析

根据所有样品在eggNOG数据库中的功能注释及丰度信息，选取丰度排名前 35 的功能及它们在每个样品中的丰度信息绘制热图，并从功能差异层面进行聚类。

level1 level2 og

图4.14 eggNOG 功能丰度聚类热图

说明：横向为样品信息；纵向为eggNOG注释信息；图中左侧的聚类树为功能聚类树；中间热图对应的值为每一行功能相对丰度经过标准化处理后得到的 Z 值；即一个样品在某个分类上的 Z 值为样品在该分类上的相对丰度和所有样品在该分类的平均相对丰度的差除以所有样品在该分类上的标准差所得到的值

结果目录：

eggNOG丰度聚类热图见：result/04.Annotation/eggNOG/Heatmap_sample/*/heatmap.sample.*.{pdf,png}

4.4.4 CAZy 碳水化合物活性酶注释

CAZy数据库是研究碳水化合物酶的专业级数据库，主要涵盖 6 大功能类：糖苷水解酶(Glycoside Hydrolases ，GHs)，糖基转移酶(Glycosyl Transferases，GTs)，多糖裂合酶(Polysaccharide Lyases，PLs)，碳水化合物酯酶(Carbohydrate Esterases，CEs)，辅助氧化还原酶(Auxiliary Activities , AAs)和碳水化合物结合模块(Carbohydrate-Binding Modules, CBMs)。

4.4.4.1 注释基本步骤

使用DIAMOND软件将 unigene与CAZy功能数据库进行比对(Li et al., 2014; Feng et al., 2015)，然后进行比对结果过滤，对于每一条序列的比对结果，选取score 最高的比对结果(one HSP > 60 bits)进行后续分析(Qin et al., 2012; Li et al., 2014; Qin et al., 2014; Bäckhed et al, 2015)。

4.4.4.2 CAZy 注释基因数目统计

从unigene注释结果出发，绘制CAZy数据库level1层级的注释基因数目统计图，展示结果如下图所示：

图4.15 CAZy数据库注释基因数目统计图

结果目录：

CAZy数据库注释基因数目统计图见：result/04.Annotation/CAZy/Anno/CAZy.unigenes.num.{pdf,png}

4.4.4.3 CAZy 相对丰度概况

根据CAZy数据库的注释结果，绘制了样品(组)在CAZy数据库中对应层级上的相对丰度统计图。以各样品在CAZy数据库中level1 层级上的相对丰度统计图为例展示。其余层级为相对丰度前10的注释结果。

level1 level2 ec

图4.16 CAZy 功能注释相对丰度柱形图

说明：每个层级的相对丰度柱形图，横向表示样品名称，纵向表示注释到某类型功能的相对比例；各颜色区块对应的功能类别见图例

结果目录：

样品 - CAZy各层级相对丰度前10的相对丰度柱形图见：result/04.Annotation/CAZy/Top_sample/*/*.top10.{svg,png}

组 - CAZy各层级相对丰度前10的相对丰度柱形图见：result/04.Annotation/CAZy/Top_group1/*/*.top10.{svg,png}

4.4.4.4 CAZy 功能相对丰度聚类分析

根据所有样品在CAZy数据库中的功能注释及丰度信息，选取丰度排名前 35 的功能及它们在每个样品中的丰度信息绘制热图，并从功能差异层面进行聚类。

level1 level2 ec

图4.17 CAZy 功能丰度聚类热图

说明：横向为样品信息；纵向为CAZy注释信息；图中左侧的聚类树为功能聚类树；中间热图对应的值为每一行功能相对丰度经过标准化处理后得到的 Z 值；即一个样品在某个分类上的 Z 值为样品在该分类上的相对丰度和所有样品在该分类的平均相对丰度的差除以所有样品在该分类上的标准差所得到的值

结果目录：

CAZy丰度聚类热图见：result/04.Annotation/CAZy/Heatmap_sample/*/heatmap.sample.*.{pdf,png}

4.4.5 VFDB 直系同源蛋白注释

细菌致病菌毒力因子数据库VFDB（Virulence Factors of Pathogenic Bacteria），是致病细菌、衣原体和支原体的毒力因子数据库，除收录毒力基因的物种信息、基本特征描述外，还提供毒力基因功能和致病机制的详细描述。其包含26个种，共459个致病因子，24个致病岛，2,505个与毒力因子相关的基因。

4.4.5.1 VFDB 注释基本步骤

使用DIAMOND软件将unigene与VFDB功能数据库进行比对(Li et al., 2014; Feng et al., 2015)，然后进行比对结果过滤，对于每一条序列的比对结果，选取 score 最高的比对结果(one HSP > 60 bits)进行后续分析(Qin et al., 2012; Li et al., 2014; Qin et al., 2014; Bäckhed et al, 2015)。

4.4.5.2 VFDB 相对丰度概况

根据VFDB数据库的注释结果，绘制了样品(组)在VFDB数据库中对应层级上的相对丰度统计图。以各样品在VFDB数据库中level1 层级上的相对丰度统计图为例展示。其余层级为相对丰度前10的注释结果。

level1 level2

图4.18 VFDB 功能注释相对丰度柱形图

说明：每个层级的相对丰度柱形图，横向表示样品名称，纵向表示注释到某类型功能的相对比例；各颜色区块对应的功能类别见图例

结果目录：

样品 - VFDB各层级相对丰度前10的相对丰度柱形图见：result/04.Annotation/VFDB/Top_sample/*/*.top10.{svg.png}

组 - VFDB各层级相对丰度前10的相对丰度柱形图见 : result/04.Annotation/VFDB/Top_group1/*/*.top10.{svg.png}

4.4.5.3 VFDB 功能相对丰度聚类分析

根据所有样品在VFDB数据库中的功能注释及丰度信息，选取丰度排名前 35 的功能及它们在每个样品中的丰度信息绘制热图，并从功能差异层面进行聚类。

level1 level2

图4.19 VFDB 功能丰度聚类热图

说明：横向为样品信息；纵向为VFDB注释信息；图中左侧的聚类树为功能聚类树；中间热图对应的值为每一行功能相对丰度经过标准化处理后得到的 Z 值；即一个样品在某个分类上的 Z 值为样品在该分类上的相对丰度和所有样品在该分类的平均相对丰度的差除以所有样品在该分类上的标准差所得到的值

结果目录：

VFDB丰度聚类热图见：result/04.Annotation/VFDB/Heatmap_sample/*/heatmap.sample.*.{pdf,png}

4.4.6 PHI 直系同源蛋白注释

PHI数据库（Pathogen-Host Interaction database）是一个专注于病原体-宿主相互作用的数据库。它收集、整理和提供了各种病原体（如细菌、病毒、真菌和寄生虫等）与宿主（包括人类和其他动植物）之间相互作用的信息。

4.4.6.1 PHI 注释基本步骤

使用DIAMOND软件将unigene与PHI功能数据库进行比对(Li et al., 2014; Feng et al., 2015)，然后进行比对结果过滤，对于每一条序列的比对结果，选取 score 最高的比对结果(one HSP > 60 bits)进行后续分析(Qin et al., 2012; Li et al., 2014; Qin et al., 2014; Bäckhed et al, 2015)。

4.4.6.2 PHI 相对丰度概况

根据PHI数据库的注释结果，绘制了样品在PHI 数据库中对应层级上的相对丰度统计图。以各样品在PHI数据库中level1 层级上的相对丰度统计图为例展示。其余层级为相对丰度前10的注释结果。

level1 level2 level3

图4.20 PHI 功能注释相对丰度柱形图

说明：每个层级的相对丰度柱形图，横向表示样品名称，纵向表示注释到某类型功能的相对比例；各颜色区块对应的功能类别见图例

结果目录：

样品 - PHI各层级相对丰度前10的相对丰度柱形图见 : result/04.Annotation/PHI/Top_sample/*/*.top10.{svg,png}

组 - PHI各层级相对丰度前10的相对丰度柱形图见 : result/04.Annotation/PHI/Top_group1/*/*.top10.{svg,png}

4.4.6.3 PHI 功能相对丰度聚类分析

根据所有样品在PHI数据库中的功能注释及丰度信息，选取丰度排名前 35 的功能及它们在每个样品中的丰度信息绘制热图，并从功能差异层面进行聚类。

level1 level2 level3

图4.21 PHI 功能丰度聚类热图

说明：横向为样品信息；纵向为PHI注释信息；图中左侧的聚类树为功能聚类树；中间热图对应的值为每一行功能相对丰度经过标准化处理后得到的 Z 值；即一个样品在某个分类上的 Z 值为样品在该分类上的相对丰度和所有样品在该分类的平均相对丰度的差除以所有样品在该分类上的标准差所得到的值

结果目录：

PHI丰度聚类热图见：result/04.Annotation/PHI/Heatmap_sample/*/heatmap.sample.*.{pdf,png}

4.5 物种与功能多样性分析

4.5.1 Alpha多样性分析

4.5.1.1 Micro_NR

从物种注释 Absolute 表出发，计算得到每个样本内物种的丰富度以及多样性。该表仅展示 species 层级结果，其他层级见结果文件。

表4.4 Alpha多样性分析统计结果

Sample	ACE	chao1	shannon	simpson	observed_species	goods_coverage
A1	4153.16211857023	4192.97540983607	4.23652508774237	0.958209284387269	3989	1
A2	4602.73575329709	4635.43961352657	4.50987271592601	0.959378874314839	4469	1
A3	4788.9436452936	4853.04918032787	4.64437045044106	0.969292478414934	4659	1
A4	3423.94758375198	3485.5303030303	3.96051157512467	0.940471347191081	3268	1
A5	4632.57530473899	4642.5	4.56171871530976	0.967498440202328	4521	1
A6	4918.94735285027	4962.80597014925	4.44206779235049	0.951241490383073	4794	1
B1	5518.4225119167	5563.82258064516	4.50076093446646	0.935731650056453	5416	1
B2	4764.9617400887	4805.17374517375	2.65115165076833	0.68023414806216	4625	1
B3	4784.89214043213	4829.84435797665	2.90484187183182	0.77064545616734	4630	1
B4	5544.13245194484	5570.5	4.39565960090137	0.951783196735385	5469	1
B5	4196.11300437445	4298.1013215859	2.1159518202566	0.609310388100981	3999	1
B6	5043.2503030825	5090.16901408451	3.48569723474056	0.838059772573625	4912	1
C1	5168.35162106894	5190.424	4.49203323759425	0.96721798846755	5043	1
C2	5270.91753977194	5308.20873786408	4.4582227679025	0.960715860494338	5151	1
C3	5576.1807877487	5606.85534591195	4.73414115765239	0.972438698767873	5510	1
C4	4851.77395793166	4884.05882352941	3.73204558562936	0.921457130317677	4714	1
C5	5317.7939557869	5331.68181818182	4.6063846836177	0.968427081913359	5241	1
C6	5614.77681166886	5663.54022988506	4.7139141440765	0.972334502038189	5520	1

显示注释

（1）ACE：估计群落中物种数目。

（2）chao1：估计群落样品中包含的物种总数，群落中低丰度物种越多，chao1指数越大。

（3）shannon：样品中的分类总数及其占比。群落多样性越高，物种分布越均匀，shannon指数越大。

（4）simpson：表征群落内物种分布的多样性和均匀度，物种均匀度越好，Simpson指数越大。

（5）observed_species：直观观测到的物种数目，指数越大观测到的物种越多。

（6）goods_coverage：覆盖度，测序覆盖度越高，指数越大。

结果目录：

Micro_NR Alpha多样性指数汇总表见：result/05.Diversity/MicroNR/AlphaDiversity/Alpha_index_table/tax_Alphaindex.*.xls

4.5.1.2 KEGG

从功能注释 Absolute 表出发，计算得到每个样本内物种的丰富度以及多样性。该表仅展示 level3 层级结果，其他层级见结果文件。

表4.5 Alpha多样性分析统计结果

Sample	ACE	chao1	shannon	simpson	observed_species	goods_coverage
A1	273.707444598338	273	4.77411934855941	0.987928684299046	272	1
A2	285	285	4.76457945770708	0.987648971413218	285	1
A3	270	270	4.77166244174991	0.987768810460186	270	1
A4	269	269	4.76710073185288	0.987827943762566	269	1
A5	286.622402962375	285.5	4.77100544765721	0.987880727814654	283	1
A6	283.714825816905	285.5	4.75105915789526	0.98720532799813	278	1
B1	303.147321428571	303	4.72245567149193	0.98655069095923	303	1
B2	305.441840277778	312	4.63637994828289	0.984859130862253	302	1
B3	287	287	4.63189666241211	0.984668674272447	287	1
B4	306.306818181818	304.333333333333	4.65682146718501	0.984927662405129	301	1
B5	295.360248447205	295.5	4.60057688981784	0.984162491412753	295	1
B6	297	297	4.66394302418658	0.985165454799683	297	1
C1	415.929402573907	415.333333333333	4.67284280123368	0.985395128698675	415	1
C2	415.53825	415	4.67590954874842	0.985014290363385	415	1
C3	415	415	4.761726454503	0.985823169202734	415	1
C4	412	412	4.68908642661952	0.984705702675436	412	1
C5	414.302900128103	414	4.67650949443659	0.98521938619125	414	1
C6	416	416	4.71185254502252	0.98526606576296	416	1

显示注释

（1）ACE：估计群落中功能数目。

（2）chao1：估计群落样品中包含的功能总数，群落中低丰度功能越多，chao1指数越大。

（3）shannon：样品中的分类总数及其占比。群落多样性越高，功能分布越均匀，shannon指数越大。

（4）simpson：表征群落内功能分布的多样性和均匀度，功能均匀度越好，Simpson指数越大。

（5）observed_species：直观观测到的功能数目，指数越大观测到的功能越多。

（6）goods_coverage：覆盖度，测序覆盖度越高，指数越大。

结果目录：

KEGG Alpha多样性指数汇总表见：result/05.Diversity/KEGG/AlphaDiversity/Alpha_index_table/KEGG_Alphaindex.*.xls

4.5.1.3 eggNOG

从功能注释 Absolute 表出发，计算得到每个样本内物种的丰富度以及多样性。该表仅展示 og 层级结果，其他层级见结果文件。

表4.6 Alpha多样性分析统计结果

Sample	ACE	chao1	shannon	simpson	observed_species	goods_coverage
A1	152504.599479114	153133.947639359	10.0308450107352	0.999855253951031	149285	1
A2	162663.085761941	163204.680626546	10.2334392392994	0.999876439458422	159904	1
A3	169126.640172966	170039.179750711	10.3798407715437	0.999881247443049	166868	1
A4	132799.509769068	133354.936900056	9.81051100719566	0.999829571396549	129080	1
A5	163229.388556906	163546.916968647	10.1513746017508	0.999861500677522	160807	1
A6	174509.249480247	175136.448888889	10.4439069602209	0.99988742958355	172227	1
B1	216442.692036418	217381.022929936	10.6687509218202	0.99989923521811	214258	1
B2	188301.105426006	189445.893065693	9.97157599261154	0.999834118948884	184526	1
B3	186280.372550211	187579.126540881	10.1160966387582	0.999861134540014	182517	1
B4	211885.200124527	212416.459049545	10.5720278220846	0.999890405077804	209938	1
B5	167895.847107994	169689.026962539	9.73775863769876	0.999810109884451	162519	1
B6	198189.338070971	199220.965997468	10.3916857730234	0.999882522163175	195954	1
C1	207489.893751353	208037.286532422	10.4787461728404	0.999896225564693	202754	1
C2	216463.903421993	217943.891014691	10.4786726680676	0.999888625691143	214092	1
C3	221932.523445026	222731.370864886	10.6369735109214	0.999890338389475	219781	1
C4	207213.636732081	207630.462481275	10.219197904323	0.999880367165942	204181	1
C5	210383.156206416	210910.465192021	10.5243461558896	0.999889771877566	208377	1
C6	220135.56193467	221209.377305463	10.5607272186908	0.999881922546549	217390	1

显示注释

（1）ACE：估计群落中功能数目。

（2）chao1：估计群落样品中包含的功能总数，群落中低丰度功能越多，chao1指数越大。

（3）shannon：样品中的分类总数及其占比。群落多样性越高，功能分布越均匀，shannon指数越大。

（4）simpson：表征群落内功能分布的多样性和均匀度，功能均匀度越好，Simpson指数越大。

（5）observed_species：直观观测到的功能数目，指数越大观测到的功能越多。

（6）goods_coverage：覆盖度，测序覆盖度越高，指数越大。

结果目录：

eggNOG Alpha多样性指数汇总表见：result/05.Diversity/eggNOG/AlphaDiversity/Alpha_index_table/eggNOG_Alphaindex.*.xls

4.5.1.4 CAZy

从功能注释 Absolute 表出发，计算得到每个样本内物种的丰富度以及多样性。该表仅展示 level2 层级结果，其他层级见结果文件。

表4.7 Alpha多样性分析统计结果

Sample	ACE	chao1	shannon	simpson	observed_species	goods_coverage
A1	315.312536254797	314.6	4.22572314998574	0.964337753356556	314	1
A2	318.214953271028	318	4.2356347474775	0.96510466630556	318	1
A3	326.336526077098	326	4.21433113268013	0.964255266260201	326	1
A4	304.545796308954	304.125	4.21598324541129	0.965094789977119	304	1
A5	323.943910989179	323.5	4.25715557512568	0.96563683295147	322	1
A6	328.075435519603	327.6	4.21043990155504	0.963683989142133	327	1
B1	331.376680391569	330.5	4.1759323901759	0.961842108822012	330	1
B2	312.680309442895	313	3.92760303601137	0.956142341984569	310	1
B3	316.413154031694	315.5	4.02230554411756	0.95913785458032	314	1
B4	324.754409165509	325.5	4.08575025422213	0.959941700907112	324	1
B5	301.304899930616	302.090909090909	3.93406985825386	0.957900540309229	295	1
B6	314.568775686428	314.2	3.99236952338246	0.957977119677532	314	1
C1	345.295207490014	345.142857142857	4.04328177272977	0.957837136968416	343	1
C2	341.827769557028	342	4.07812283334349	0.95964309287744	341	1
C3	355.328571128285	355.75	4.10944296584069	0.957804510804491	352	1
C4	343.423950089238	342.428571428571	4.08995668833175	0.963238807332684	341	1
C5	341.181461030023	341	4.06111769030604	0.956837981854216	341	1
C6	353.499705739011	352.75	4.06764003512731	0.956146606838414	352	1

显示注释

（1）ACE：估计群落中功能数目。

（2）chao1：估计群落样品中包含的功能总数，群落中低丰度功能越多，chao1指数越大。

（3）shannon：样品中的分类总数及其占比。群落多样性越高，功能分布越均匀，shannon指数越大。

（4）simpson：表征群落内功能分布的多样性和均匀度，功能均匀度越好，Simpson指数越大。

（5）observed_species：直观观测到的功能数目，指数越大观测到的功能越多。

（6）goods_coverage：覆盖度，测序覆盖度越高，指数越大。

结果目录：

CAZy Alpha多样性指数汇总表见：result/05.Diversity/CAZy/AlphaDiversity/Alpha_index_table/CAZy_Alphaindex.*.xls

4.5.1.5 VFDB

从功能注释 Absolute 表出发，计算得到每个样本内物种的丰富度以及多样性。该表仅展示 level2 层级结果，其他层级见结果文件。

表4.8 Alpha多样性分析统计结果

Sample	ACE	chao1	shannon	simpson	observed_species	goods_coverage
A1	388.964525555637	388.75	4.60681106128574	0.98470464011846	385	1
A2	397.24041730913	397	4.72389561029957	0.98644835192534	397	1
A3	403.03142081448	403.5	4.75642218434215	0.986779414541669	401	1
A4	359.65264472372	358.105263157895	4.50371181939169	0.983493528006494	357	1
A5	400.070456412606	399.666666666667	4.66003241837505	0.985297833356714	399	1
A6	428.721668468319	427.4	4.79496079870919	0.987081171202975	425	1
B1	477.46007927133	479.111111111111	4.8583725112885	0.986956227260229	473	1
B2	453.105265940573	452.769230769231	4.65794775277879	0.982700147697841	450	1
B3	439.798688328006	439.666666666667	4.72728292467256	0.984065139323195	438	1
B4	474.228619058982	473.75	4.90421579051127	0.986858924579309	473	1
B5	422.860236418291	425.1	4.55318367644758	0.980740144991998	416	1
B6	462.366228159147	464.333333333333	4.87039302374642	0.986420684981125	461	1
C1	422.015365013354	426.375	4.7970003134788	0.98630623148142	415	1
C2	442.005573189256	442.142857142857	4.8146976230964	0.985876990923083	440	1
C3	438.405496200752	442.2	4.80690610314774	0.986319274165337	435	1
C4	420.532976209875	421	4.71480188994615	0.983807665962192	418	1
C5	415.950879765396	419	4.8090694266594	0.986351806659103	414	1
C6	440.323104610956	443.75	4.78512278327314	0.986134841169294	434	1

显示注释

（1）ACE：估计群落中功能数目。

（2）chao1：估计群落样品中包含的功能总数，群落中低丰度功能越多，chao1指数越大。

（3）shannon：样品中的分类总数及其占比。群落多样性越高，功能分布越均匀，shannon指数越大。

（4）simpson：表征群落内功能分布的多样性和均匀度，功能均匀度越好，Simpson指数越大。

（5）observed_species：直观观测到的功能数目，指数越大观测到的功能越多。

（6）goods_coverage：覆盖度，测序覆盖度越高，指数越大。

结果目录：

VFDB Alpha多样性指数汇总表见：result/05.Diversity/VFDB/AlphaDiversity/Alpha_index_table/VFDB_Alphaindex.*.xls

4.5.1.6 PHI

从功能注释 Absolute 表出发，计算得到每个样本内物种的丰富度以及多样性。该表仅展示 level1 层级结果，其他层级见结果文件。

表4.9 Alpha多样性分析统计结果

Sample	ACE	chao1	shannon	simpson	observed_species	goods_coverage
A1	201	201	4.01759895340563	0.968251945852084	201	1
A2	213.217614301625	212.75	4.0455743772716	0.969478833047895	212	1
A3	210	210	4.06607335419074	0.96984182576026	210	1
A4	200.206607729125	199.75	3.9989296105317	0.968881328985398	199	1
A5	212	212	4.03725953724112	0.96873147064498	212	1
A6	214	214	4.08325482974162	0.970873227472076	214	1
B1	217.570881226054	216	4.08974464276702	0.969045577602434	215	1
B2	219.744663846709	218.5	3.97011291985018	0.967050525570614	217	1
B3	220.409962871287	222	3.96627329603286	0.965778952140164	217	1
B4	225.79859541436	225.25	4.06400505287462	0.967360764709619	225	1
B5	204.641517318228	205	3.91842811777064	0.964926787797584	204	1
B6	219.624441848297	219.333333333333	3.99160103073352	0.964622868561648	219	1
C1	236.365472580093	235.25	4.04084851612471	0.967825529822778	234	1
C2	241.801979530165	242.5	4.03696408799607	0.967121068825541	241	1
C3	241.406060606061	240.25	4.12384770413627	0.970215262684218	240	1
C4	238.327971359609	238	3.94969923613933	0.962657889600896	238	1
C5	238.340425531915	239	4.07136359697583	0.968899322601918	238	1
C6	244.066582407443	246	4.11760993118336	0.970468601671707	243	1

显示注释

（1）ACE：估计群落中功能数目。

（2）chao1：估计群落样品中包含的功能总数，群落中低丰度功能越多，chao1指数越大。

（3）shannon：样品中的分类总数及其占比。群落多样性越高，功能分布越均匀，shannon指数越大。

（4）simpson：表征群落内功能分布的多样性和均匀度，功能均匀度越好，Simpson指数越大。

（5）observed_species：直观观测到的功能数目，指数越大观测到的功能越多。

（6）goods_coverage：覆盖度，测序覆盖度越高，指数越大。

结果目录：

PHI Alpha多样性指数汇总表见：result/05.Diversity/PHI/AlphaDiversity/Alpha_index_table/PHI_Alphaindex.*.xls

4.5.2 基于相对丰度的样品聚类分析

为了研究不同样品的相似性，还可以通过对样品进行聚类分析，构建样品的聚类树。Bray-Curtis 距离是系统聚类法中使用最普遍的一个距离指标，它主要用来刻画样品间的相近程度，它的大小是进行样品分类的主要依据。

从基因在各样品中的丰度表出发，以 Bray-Curtis 距离矩阵进行样品间聚类分析，并将聚类结果与各样品在物种或功能层级上的相对丰度整合进行展示。

4.5.2.1 Micro_NR

Kingdom Phylum Class Order Family Genus Species

图4.22 基于 Bray-Curtis 距离的Micro_NR聚类树

说明：图中，左侧是 Bray-Curtis 距离聚类树结构；右侧是各样品的物种相对丰度分布图

结果目录：

基于 Bray-Curtis 距离的聚类树见 : result/05.Diversity/MicroNR/ClusterTree_group1

4.5.2.2 KEGG

level1 level2 level3 KO ec module

图4.23 基于 Bray-Curtis 距离的KEGG聚类树

说明：图中，左侧是 Bray-Curtis 距离聚类树结构；右侧是各样品的功能相对丰度分布图

结果目录：

基于 Bray-Curtis 距离的聚类树见 : result/05.Diversity/KEGG/ClusterTree_group1

4.5.2.3 eggNOG

level1 level2 og

图4.24 基于 Bray-Curtis 距离的eggNOG聚类树

说明：图中，左侧是 Bray-Curtis 距离聚类树结构；右侧是各样品的功能相对丰度分布图

结果目录：

基于 Bray-Curtis 距离的聚类树见 : result/05.Diversity/eggNOG/ClusterTree_group1

4.5.2.4 CAZy

level1 level2 ec

图4.25 基于 Bray-Curtis 距离的CAZy聚类树

说明：图中，左侧是 Bray-Curtis 距离聚类树结构；右侧是各样品的功能相对丰度分布图

结果目录：

基于 Bray-Curtis 距离的聚类树见 : result/05.Diversity/CAZy/ClusterTree_group1

4.5.2.5 VFDB

level1 level2

图4.26 基于 Bray-Curtis 距离的VFDB聚类树

说明：图中，左侧是 Bray-Curtis 距离聚类树结构；右侧是各样品的功能相对丰度分布图

结果目录：

基于 Bray-Curtis 距离的聚类树见 : result/05.Diversity/VFDB/ClusterTree_group1

4.5.2.6 PHI

level1 level2 level3

图4.27 基于 Bray-Curtis 距离的PHI聚类树

说明：图中，左侧是 Bray-Curtis 距离聚类树结构；右侧是各样品的功能相对丰度分布图

结果目录：

基于 Bray-Curtis 距离的聚类树见 : result/05.Diversity/PHI/ClusterTree_group1

4.5.3 主成分（PCA）分析

主成分分析(PCA，Principal Component Analysis)是基于线型模型的一种降维分析，它应用方差分解的方法对多维数据进行降维，从而提取出数据中最主要的元素和结构(Rao et al., 2002)；PCA 能够提取出最大程度反映样品间差异的两个坐标轴，从而将多维数据的差异反映在二维坐标图上，进而揭示复杂数据背景下的简单规律。

4.5.3.1 Micro_NR

Phylum Class Order Family Genus Species

图4.28 基于 Micro_NR 水平的 PCA 结果展示

说明：PCA分析，横坐标表示第一主成分，百分比则表示第一主成分对样品差异的贡献值；纵坐标表示第二主成分，百分比表示第二主成分对样品差异的贡献值；图中的每个点表示一个样品，同一个组的样品使用同一种颜色表示，没有分组默认按照样本出图

结果目录：

标注样品名的PCA图见 : result/05.Diversity/MicroNR/PCA_group1/*/PCA_lable.{png,pdf}

未标注样品名的PCA图见 : result/05.Diversity/MicroNR/PCA_group1/*/PCA.{png,pdf}

未标示样品名称的带聚类圈的PCA图见 : result/05.Diversity/MicroNR/PCA_group1/*/PCA_circle.{png,pdf}

标示样品名称的带聚类圈的PCA图见 : result/05.Diversity/MicroNR/PCA_group1/*/PCA_circleLable.{png,pdf}

各个主成分分析结果见 : result/05.Diversity/MicroNR/PCA_group1/*/PCA.xls

4.5.3.2 KEGG

level1 level2 level3 KO ec module

图4.29 基于 KEGG 水平的 PCA 结果展示

说明：功能水平PCA分析，横坐标表示第一主成分，百分比则表示第一主成分对样品差异的贡献值；纵坐标表示第二主成分，百分比表示第二主成分对样品差异的贡献值；图中的每个点表示一个样品，同一个组的样品使用同一种颜色表示，没有分组默认按照样本出图

结果目录：

标注样品名的PCA图见 : result/05.Diversity/KEGG/PCA_group1/*/PCA_lable.{png,pdf}

未标注样品名的PCA图见 : result/05.Diversity/KEGG/PCA_group1/*/PCA.{png,pdf}；

未标示样品名称的带聚类圈的PCA图见 : result/05.Diversity/KEGG/PCA_group1/*/PCA_circle.{png,pdf}

标示样品名称的带聚类圈的PCA图见 : result/05.Diversity/KEGG/PCA_group1/*/PCA_circleLable.{png,pdf}

各个主成分分析结果见 : result/05.Diversity/KEGG/PCA_group1/*/PCA.xls

4.5.3.3 eggNOG

level1 level2 og

图4.30 基于 eggNOG 水平的 PCA 结果展示

结果目录：

标注样品名的PCA图见 : result/05.Diversity/eggNOG/PCA_group1/*/PCA_lable.{png,pdf}

未标注样品名的PCA图见 : result/05.Diversity/eggNOG/PCA_group1/*/PCA.{png,pdf}；

未标示样品名称的带聚类圈的PCA图见 : result/05.Diversity/eggNOG/PCA_group1/*/PCA_circle.{png,pdf}

标示样品名称的带聚类圈的PCA图见 : result/05.Diversity/eggNOG/PCA_group1/*/PCA_circleLable.{png,pdf}

各个主成分分析结果见 : result/05.Diversity/eggNOG/PCA_group1/*/PCA.xls

4.5.3.4 CAZy

level1 level2 ec

图4.31 基于 CAZy 水平的 PCA 结果展示

结果目录：

标注样品名的PCA图见 : result/05.Diversity/CAZy/PCA_group1/*/PCA_lable.{png,pdf}

未标注样品名的PCA图见 : result/05.Diversity/CAZy/PCA_group1/*/PCA.{png,pdf}

未标示样品名称的带聚类圈的PCA图见 : result/05.Diversity/CAZy/PCA_group1/*/PCA_circle.{png,pdf}

标示样品名称的带聚类圈的PCA图见 : result/05.Diversity/CAZy/PCA_group1/*/PCA_circleLable.{png,pdf}

各个主成分分析结果见 : result/05.Diversity/CAZy/PCA_group1/*/PCA.xls

4.5.3.5 VFDB

level1 level2

图4.32 基于 VFDB 水平的 PCA 结果展示

结果目录：

标注样品名的PCA图见 : result/05.Diversity/VFDB/PCA_group1/*/PCA_lable.{png,pdf}

未标注样品名的PCA图见 : result/05.Diversity/VFDB/PCA_group1/*/PCA.{png,pdf}

未标示样品名称的带聚类圈的PCA图见 : result/05.Diversity/VFDB/PCA_group1/*/PCA_circle.{png,pdf}

标示样品名称的带聚类圈的PCA图见 : result/05.Diversity/VFDB/PCA_group1/*/PCA_circleLable.{png,pdf}

各个主成分分析结果见 : result/05.Diversity/VFDB/PCA_group1/*/PCA.xls

4.5.3.6 PHI

level1 level2 level3

图4.33 基于 PHI 水平的 PCA 结果展示

结果目录：

标注样品名的PCA图见 : result/05.Diversity/PHI/PCA_group1/*/PCA_lable.{png,pdf}

未标注样品名的PCA图见 : result/05.Diversity/PHI/PCA_group1/*/PCA.{png,pdf}

未标示样品名称的带聚类圈的PCA图见 : result/05.Diversity/PHI/PCA_group1/*/PCA_circle.{png,pdf}

标示样品名称的带聚类圈的PCA图见 : result/05.Diversity/PHI/PCA_group1/*/PCA_circleLable.{png,pdf}

各个主成分分析结果见 : result/05.Diversity/PHI/PCA_group1/*/PCA.xls

4.5.4 主坐标（PCoA）分析

主坐标分析(PCoA，Principal Coordinates Analysis)，是通过一系列的特征值和特征向量排序从多维数据中提取出最主要的元素和结构。我们基于Bray-Curtis 距离来进行PCoA分析，并选取贡献率最大的主坐标组合进行作图展示。如果样品距离越接近，表示物种或功能组成结构越相似，因此群落结构相似度高的样品倾向于聚集在一起，群落差异很大的样品则会远远分开。基于不同分类层级的物种或功能丰度表得到Bray-Curtis 距离矩阵，我们进行了 PCoA分析。

4.5.4.1 Micro_NR

Phylum Class Order Family Genus Species

图4.34 基于 Micro_NR 水平的 PCoA 结果展示

说明：PCoA分析，横坐标表示一个主坐标，纵坐标表示另一个主坐标，百分比表示主坐标对样本差异的贡献值；图中的每个点表示一个样本，同一个组的样本使用同一种颜色表示

结果目录：

标注样品名的PCoA图见 : result/05.Diversity/MicroNR/PCoA_group1/*/PCoA_lable.{png,pdf}

未标注样品名的PCoA图见 : result/05.Diversity/MicroNR/PCoA_group1/*/PCoA.{png,pdf}

未标示样品名称的带聚类圈的PCoA图见 : result/05.Diversity/MicroNR/PCoA_group1/*/PCoA_circleLable.{png,pdf}

标示样品名称的带聚类圈的PCoA图见 : result/05.Diversity/MicroNR/PCoA_group1/*/PCoA_circle.{png,pdf}

各个主坐标分析结果见 : result/05.Diversity/MicroNR/PCoA_group1/*/PCoA.xls

4.5.4.2 KEGG

level1 level2 level3 KO EC module

图4.35 基于 KEGG 水平的 PCoA 结果展示

说明：功能水平PCoA分析，横坐标表示一个主坐标，纵坐标表示另一个主坐标，百分比表示主坐标对样本差异的贡献值；图中的每个点表示一个样本，同一个组的样本使用同一种颜色表示

结果目录：

标注样品名的PCoA图见 : result/05.Diversity/KEGG/PCoA_group1/*/PCoA_lable.{png,pdf}

未标注样品名的PCoA图见 : result/05.Diversity/KEGG/PCoA_group1/*/PCoA.{png,pdf}

未标示样品名称的带聚类圈的PCoA图见 : result/05.Diversity/KEGG/PCoA_group1/*/PCoA_circleLable.{png,pdf}

标示样品名称的带聚类圈的PCoA图见 : result/05.Diversity/KEGG/PCoA_group1/*/PCoA_circle.{png,pdf}

各个主坐标分析结果见 : result/05.Diversity/KEGG/PCoA_group1/*/PCoA.xls

4.5.4.3 eggNOG

level1 level2 og

图4.36 基于 eggNOG 水平的 PCoA 结果展示

结果目录：

标注样品名的PCoA图见 : result/05.Diversity/eggNOG/PCoA_group1/*/PCoA_lable.{png,pdf}

未标注样品名的PCoA图见 : result/05.Diversity/eggNOG/PCoA_group1/*/PCoA.{png,pdf}

未标示样品名称的带聚类圈的PCoA图见 : result/05.Diversity/eggNOG/PCoA_group1/*/PCoA_circleLable.{png,pdf}

标示样品名称的带聚类圈的PCoA图见 : result/05.Diversity/eggNOG/PCoA_group1/*/PCoA_circle.{png,pdf}

各个主坐标分析结果见 : result/05.Diversity/eggNOG/PCoA_group1/*/PCoA.xls

4.5.4.4 CAZy

level1 level2 ec

图4.37 基于 CAZy 水平的 PCoA 结果展示

结果目录：

标注样品名的PCoA图见 : result/05.Diversity/CAZy/PCoA_group1/*/PCoA_lable.{png,pdf}

未标注样品名的PCoA图见 : result/05.Diversity/CAZy/PCoA_group1/*/PCoA.{png,pdf}

未标示样品名称的带聚类圈的PCoA图见 : result/05.Diversity/CAZy/PCoA_group1/*/PCoA_circleLable.{png,pdf}

标示样品名称的带聚类圈的PCoA图见 : result/05.Diversity/CAZy/PCoA_group1/*/PCoA_circle.{png,pdf}

各个主坐标分析结果见 : result/05.Diversity/CAZy/PCoA_group1/*/PCoA.xls

4.5.4.5 VFDB

level1 level2

图4.38 基于 VFDB 水平的 PCoA 结果展示

结果目录：

标注样品名的PCoA图见 : result/05.Diversity/VFDB/PCoA_group1/*/PCoA_lable.{png,pdf}

未标注样品名的PCoA图见 : result/05.Diversity/VFDB/PCoA_group1/*/PCoA.{png,pdf}

未标示样品名称的带聚类圈的PCoA图见 : result/05.Diversity/VFDB/PCoA_group1/*/PCoA_circleLable.{png,pdf}

标示样品名称的带聚类圈的PCoA图见 : result/05.Diversity/VFDB/PCoA_group1/*/PCoA_circle.{png,pdf}

各个主坐标分析结果见 : result/05.Diversity/VFDB/PCoA_group1/*/PCoA.xls

4.5.4.6 PHI

level1 level2 level3

图4.39 基于 PHI 水平的 PCoA 结果展示

结果目录：

标注样品名的PCoA图见 : result/05.Diversity/PHI/PCoA_group1/*/PCoA_lable.{png,pdf}

未标注样品名的PCoA图见 : result/05.Diversity/PHI/PCoA_group1/*/PCoA.{png,pdf}

未标示样品名称的带聚类圈的PCoA图见 : result/05.Diversity/PHI/PCoA_group1/*/PCoA_circleLable.{png,pdf}

标示样品名称的带聚类圈的PCoA图见 : result/05.Diversity/PHI/PCoA_group1/*/PCoA_circle.{png,pdf}

各个主坐标分析结果见 : result/05.Diversity/PHI/PCoA_group1/*/PCoA.xls

4.5.5 非度量多维尺度（NMDS）分析

NMDS是非线性模型，其目的是为了克服线性模型的缺点，更好地反映生态学数据的非线性结构(Legendre, 1998)，应用NMDS分析，根据样本中包含的物种或功能信息，以点的形式反映在多维空间上，而不同样本间的差异程度则是通过点与点间的距离体现，能够反映样本的组间或组内差异。基于不同分类层级的物种或功能丰度表得到Bray-Curtis 距离矩阵，我们进行了 NMDS分析。基于物种和功能的NMDS分析结果展示如下：

4.5.5.1 Micro_NR

Phylum Class Order Family Genus Species

图4.40 基于Micro_NR水平的NMDS结果展示

说明：图中的每个点表示一个样本，点与点之间的距离表示差异程度，同一个组的样本使用同一种颜色表示。Stress小于0.2时，说明NMDS可以准确反映样本间的差异程度

结果目录：

标注样品名的NMDS图见 : result/05.Diversity/MicroNR/NMDS_group1/*/NMDS_lable.{png,pdf}

未标注样品名的NMDS图见 : result/05.Diversity/MicroNR/NMDS_group1/*/NMDS.{png,pdf}

未标示样品名称的带聚类圈的NMDS图见 : result/05.Diversity/MicroNR/NMDS_group1/*/NMDS_circle.{png,pdf}

标示样品名称的带聚类圈的NMDS图见 : result/05.Diversity/MicroNR/NMDS_group1/*/NMDS_circleLable.{png,pdf}

Stress 值分析结果见 : result/05.Diversity/MicroNR/NMDS_group1/*/NMDS_scores.xls

4.5.5.2 KEGG

level1 level2 level3 KO ec module

图4.41 基于 KEGG 水平的 NMDS 结果展示

结果目录：

标注样品名的NMDS图见 : result/05.Diversity/KEGG/NMDS_group1/*/NMDS_lable.{png,pdf}

未标注样品名的NMDS图见 : result/05.Diversity/KEGG/NMDS_group1/*/NMDS.{png,pdf}

未标示样品名称的带聚类圈的NMDS图见 : result/05.Diversity/KEGG/NMDS_group1/*/NMDS_circle.{png,pdf}

标示样品名称的带聚类圈的NMDS图见 : result/05.Diversity/KEGG/NMDS_group1/*/NMDS_circleLable.{png,pdf}

Stress 值分析结果见 : result/05.Diversity/KEGG/NMDS_group1/*/NMDS_scores.xls

4.5.5.3 eggNOG

level1 level2 og

图4.42 基于 eggNOG 水平的 NMDS 结果展示

结果目录：

标注样品名的NMDS图见 : result/05.Diversity/eggNOG/NMDS_group1/*/NMDS_lable.{png,pdf}

未标注样品名的NMDS图见 : result/05.Diversity/eggNOG/NMDS_group1/*/NMDS.{png,pdf}

未标示样品名称的带聚类圈的NMDS图见 : result/05.Diversity/eggNOG/NMDS_group1/*/NMDS_circle.{png,pdf}

标示样品名称的带聚类圈的NMDS图见 : result/05.Diversity/eggNOG/NMDS_group1/*/NMDS_circleLable.{png,pdf}

Stress 值分析结果见 : result/05.Diversity/eggNOG/NMDS_group1/*/NMDS_scores.xls

4.5.5.4 CAZy

level1 level2 ec

图4.43 基于 CAZy 水平的 NMDS 结果展示

结果目录：

标注样品名的NMDS图见 : result/05.Diversity/CAZy/NMDS_group1/*/NMDS_lable.{png,pdf}

未标注样品名的NMDS图见 : result/05.Diversity/CAZy/NMDS_group1/*/NMDS.{png,pdf}

未标示样品名称的带聚类圈的NMDS图见 : result/05.Diversity/CAZy/NMDS_group1/*/NMDS_circle.{png,pdf}

标示样品名称的带聚类圈的NMDS图见 : result/05.Diversity/CAZy/NMDS_group1/*/NMDS_circleLable.{png,pdf}

Stress 值分析结果见 : result/05.Diversity/CAZy/NMDS_group1/*/NMDS_scores.xls

4.5.5.5 VFDB

level1 level2

图4.44 基于 VFDB 水平的 NMDS 结果展示

结果目录：

标注样品名的NMDS图见 : result/05.Diversity/VFDB/NMDS_group1/*/NMDS_lable.{png,pdf}

未标注样品名的NMDS图见 : result/05.Diversity/VFDB/NMDS_group1/*/NMDS.{png,pdf}

未标示样品名称的带聚类圈的NMDS图见 : result/05.Diversity/VFDB/NMDS_group1/*/NMDS_circle.{png,pdf}

标示样品名称的带聚类圈的NMDS图见 : result/05.Diversity/VFDB/NMDS_group1/*/NMDS_circleLable.{png,pdf}

Stress 值分析结果见 : result/05.Diversity/VFDB/NMDS_group1/*/NMDS_scores.xls

4.5.5.6 PHI

level1 level2 level3

图4.45 基于 PHI 水平的 NMDS 结果展示

结果目录：

标注样品名的NMDS图见 : result/05.Diversity/PHI/NMDS_group1/*/NMDS_lable.{png,pdf}

未标注样品名的NMDS图见 : result/05.Diversity/PHI/NMDS_group1/*/NMDS.{png,pdf}

未标示样品名称的带聚类圈的NMDS图见 : result/05.Diversity/PHI/NMDS_group1/*/NMDS_circle.{png,pdf}

标示样品名称的带聚类圈的NMDS图见 : result/05.Diversity/PHI/NMDS_group1/*/NMDS_circleLable.{png,pdf}

Stress 值分析结果见 : result/05.Diversity/PHI/NMDS_group1/*/NMDS_scores.xls

4.6 组间物种与功能差异统计检验分析

4.6.1 Anosim 分析

Anosim分析是一种非参数检验，用来检验组间的差异是否显著大于组内差异，从而判断分组是否有意义，详细计算过程可查看Anosim(https://www.rdocumentation.org/packages/vegan/versions/2.3-5/topics/anosim)。基于物种和功能水平的Anosim分析结果如下：

4.6.1.1 Micro_NR

Kingdom Phylum Class Order Family Genus Species

图4.46 基于 Micro_NR 水平的 Anosim 分析

说明：横向为分组信息，纵向为距离信息。Between为两组合并信息，between中位线高于另外两组中位线为分组信息较好。R-value介于（-1，1）之间，R-value大于0，说明组间差异大于组内差异。R-value小于0，说明组内差异大于组间差异，统计分析的可信度用 P-value 表示，P< 0.05 表示统计具有显著性。

结果目录：

Anosim分析结果见 : result/06.StatisticalTest/MicroNR/Anosim_group1/*/*.{pdf,png}

4.6.1.2 KEGG

level1 level2 level3 KO ec module

图4.47 基于 KEGG 水平的 Anosim 分析

结果目录：

Anosim分析结果见 : result/06.StatisticalTest/KEGG/Anosim_group1/*/*.{pdf,png}

4.6.1.3 eggNOG

level1 level2 og

图4.48 基于 eggNOG 水平的 Anosim 分析

结果目录：

Anosim分析结果见 : result/06.StatisticalTest/eggNOG/Anosim_group1/*/*.{pdf,png}

4.6.1.4 CAZy

level1 level2 ec

图4.49 基于 CAZy 水平的 Anosim 分析

结果目录：

Anosim分析结果见 : result/06.StatisticalTest/CAZy/Anosim_group1/*/*.{pdf,png}

4.6.1.5 VFDB

level1 level2

图4.50 基于 VFDB 水平的 Anosim 分析

结果目录：

Anosim分析结果见 : result/06.StatisticalTest/VFDB/Anosim_group1/*/*.{pdf,png}

4.6.1.6 PHI

level1 level2 level3

图4.51 基于 PHI 水平的 Anosim 分析

结果目录：

Anosim分析结果见 : result/06.StatisticalTest/PHI/Anosim_group1/*/*.{pdf,png}

4.6.2 MetaGenomeSeq 分析

为了研究组间具有显著性差异的物种或功能，从不同层级的物种或功能丰度表出发，利用 MetaGenomeSeq方法对组间的物种或功能丰度数据进行假设检验得到 p 值，通过对 p 值的校正，得到 q 值；最后根据 q 值筛选具有显著性差异的物种或功能，并绘制差异物种或功能在组间的丰度分布箱图。

4.6.2.1 Micro_NR

Phylum Class Order Family Genus Species

图4.52 基于 Micro_NR 水平的 MetaGenomeSeq 分析

图中，横向为样品分组；纵向为对应物种的相对丰度。横线代表具有显著性差异的两个分组，没有则表示此物种在两个分组间不存在差异。“＊”表示两组间差异显著(q value < 0.05)，“＊＊”表示两组间差异极显著(q value < 0.01)。

根据组间具有差异的物种进行主成分 PCA 分析和丰度聚类热图分析，展示结果如下::

Phylum Class Order Family Genus Species

图4.53 基于显著性差异物种的丰度聚类热图和 PCA 分析

a) 为显著性差异物种的丰度聚类热图：横向为样品信息；纵向为物种注释信息；图中左侧的聚类树为物种聚类树；中间热图对应的值为每一行物种相对丰度经过标准化处理后得到的 Z 值；即一个样品在某个分类上的 Z 值为样品在该分类上的相对丰度和所有样品在该分类的平均相对丰度的差除以所有样品在该分类上的标准差所得到的值；b) 为显著性差异物种的 PCA 图：横坐标表示第一主成分，百分比则表示第一主成分对样品差异的贡献值；纵坐标表示第二主成分，百分比表示第二主成分对样品差异的贡献值；图中的每个点表示一个样品，同一个组的样品使用同一种颜色表示。

结果目录 :

各分类层级的 MetaGenomeSeq 分析结果见：result/06.StatisticalTest/MicroNR/MetaGenomeSeq_group1/*

以门水平为例，MetaGenomeSeq 分析结果见 : result/06.StatisticalTest/MicroNR/MetaGenomeSeq_group1/phylum/*.all.xls

从 MetaGenomeSeq 分析结果中，筛选出的 P value<=0.05的信息见 : result/06.StatisticalTest/MicroNR/MetaGenomeSeq_group1/phylum/*.psig.xls

从 MetaGenomeSeq 分析结果中，筛选出的 Q value<=0.05的信息见 : result/06.StatisticalTest/MicroNR/MetaGenomeSeq_group1/phylum/*.qsig.xls

4.6.2.2 KEGG

level1 level2 level3 ec KO module

图4.54 基于 KEGG 水平的 MetaGenomeSeq 分析

图中，横向为样品分组；纵向为对应功能的相对丰度。横线代表具有显著性差异的两个分组，没有则表示此功能在两个分组间不存在差异。“＊”表示两组间差异显著(q value < 0.05)，“＊＊”表示两组间差异极显著(q value < 0.01)。

根据组间具有差异的功能进行主成分 PCA 分析和丰度聚类热图分析，展示结果如下:

level1 level2 level3 ec KO module

图4.55 基于显著性差异功能的丰度聚类热图和 PCA 分析

a) 为显著性差异功能的丰度聚类热图：横向为样品信息；纵向为功能注释信息；图中左侧的聚类树为功能聚类树；中间热图对应的值为每一行功能相对丰度经过标准化处理后得到的 Z 值；即一个样品在某个分类上的 Z 值为样品在该分类上的相对丰度和所有样品在该分类的平均相对丰度的差除以所有样品在该分类上的标准差所得到的值；b) 为显著性差异功能的 PCA 图：横坐标表示第一主成分，百分比则表示第一主成分对样品差异的贡献值；纵坐标表示第二主成分，百分比表示第二主成分对样品差异的贡献值；图中的每个点表示一个样品，同一个组的样品使用同一种颜色表示。

结果目录 :

各分类层级的 MetaGenomeSeq 分析结果见 : result/06.StatisticalTest/KEGG/MetaGenomeSeq_group1/*

以 ko 水平为例，MetaGenomeSeq 分析结果见 : result/06.StatisticalTest/KEGG/MetaGenomeSeq_group1/ko/*.all.xls

从 MetaGenomeSeq 分析结果中，筛选出的 P value<=0.05的信息见 : result/06.StatisticalTest/KEGG/MetaGenomeSeq_group1/ko/*.psig.xls

从 MetaGenomeSeq 分析结果中，筛选出的 Q value<=0.05的信息见 : result/06.StatisticalTest/KEGG/MetaGenomeSeq_group1/ko/*.qsig.xls

4.6.2.3 eggNOG

level1 level2

图4.56 基于 eggNOG 水平的 MetaGenomeSeq 分析

根据组间具有差异的功能进行主成分 PCA 分析和丰度聚类热图分析，展示结果如下:

level1 level2

图4.57 基于显著性差异功能的丰度聚类热图和 PCA 分析

结果目录 :

各分类层级的 MetaGenomeSeq 分析结果见 : result/06.StatisticalTest/eggNOG/MetaGenomeSeq_group1/*

以 level2 水平为例，MetaGenomeSeq 分析结果见 : result/06.StatisticalTest/eggNOG/MetaGenomeSeq_group1/level2/*.all.xls

从 MetaGenomeSeq 分析结果中，筛选出的 P value<=0.05的信息见 : result/06.StatisticalTest/eggNOG/MetaGenomeSeq_group1/level2/*.psig.xls

从 MetaGenomeSeq 分析结果中，筛选出的 Q value<=0.05的信息见 : result/06.StatisticalTest/eggNOG/MetaGenomeSeq_group1/level2/*.qsig.xls

4.6.2.4 CAZy

level1 level2 ec

图4.58 基于 CAZy 水平的 MetaGenomeSeq 分析

根据组间具有差异的功能进行主成分 PCA 分析和丰度聚类热图分析，展示结果如下:

level1 level2 ec

图4.59 基于显著性差异功能的丰度聚类热图和 PCA 分析

结果目录 :

各分类层级的 MetaGenomeSeq 分析结果见 : result/06.StatisticalTest/CAZy/MetaGenomeSeq_group1/*

以 level2 水平为例，MetaGenomeSeq 分析结果见 : result/06.StatisticalTest/CAZy/MetaGenomeSeq_group1/level2/*.all.xls

从 MetaGenomeSeq 分析结果中，筛选出的 P value<=0.05的信息见 : result/06.StatisticalTest/CAZy/MetaGenomeSeq_group1/level2/*.psig.xls

从 MetaGenomeSeq 分析结果中，筛选出的 Q value<=0.05的信息见 : result/06.StatisticalTest/CAZy/MetaGenomeSeq_group1/level2/*.qsig.xls

4.6.2.5 VFDB

level1 level2

图4.60 基于 VFDB 水平的 MetaGenomeSeq 分析

根据组间具有差异的功能进行主成分 PCA 分析和丰度聚类热图分析，展示结果如下:

level1 level2

图4.61 基于显著性差异功能的丰度聚类热图和 PCA 分析

结果目录 :

各分类层级的 MetaGenomeSeq 分析结果见 : result/06.StatisticalTest/VFDB/MetaGenomeSeq_group1/*

以 level2 水平为例，MetaGenomeSeq 分析结果见 : result/06.StatisticalTest/VFDB/MetaGenomeSeq_group1/level2/*.all.xls

从 MetaGenomeSeq 分析结果中，筛选出的 P value<=0.05的信息见 : result/06.StatisticalTest/VFDB/MetaGenomeSeq_group1/level2/*.psig.xls

从 MetaGenomeSeq 分析结果中，筛选出的 Q value<=0.05的信息见 : result/06.StatisticalTest/VFDB/MetaGenomeSeq_group1/level2/*.qsig.xls

4.6.2.6 PHI

level1 level2 level3

图4.62 基于 PHI 水平的 MetaGenomeSeq 分析

根据组间具有差异的功能进行主成分 PCA 分析和丰度聚类热图分析，展示结果如下:

level1 level2 levle3

图4.63 基于显著性差异功能的丰度聚类热图和 PCA 分析

结果目录 :

各分类层级的 MetaGenomeSeq 分析结果见 : result/06.StatisticalTest/PHI/MetaGenomeSeq_group1/*

以 level1 水平为例，MetaGenomeSeq 分析结果见 : result/06.StatisticalTest/PHI/MetaGenomeSeq_group1/level1/*.all.xls

从 MetaGenomeSeq 分析结果中，筛选出的 P value<=0.05的信息见 : result/06.StatisticalTest/PHI/MetaGenomeSeq_group1/level1/*.psig.xls

从 MetaGenomeSeq 分析结果中，筛选出的 Q value<=0.05的信息见 : result/06.StatisticalTest/PHI/MetaGenomeSeq_group1/level1/*.qsig.xls

4.6.3 LEfSe 分析

为了筛选组间具有显著差异的Biomarker，首先通过秩和检验的方法检测不同分组间的差异物种或功能并通过LDA(线性判别分析)实现降维并评估差异物种或功能的影响大小，即得到LDA score ；组间差异的LEfSe分析结果包括三部分，分别是LDA值分布柱状图，进化分支图(物种独有的系统发育分布)和组间具有统计学差异的Biomarker在不同组中丰度比较图。差异物种或功能的LDA值分布图如下：

4.6.3.1 Micro_NR

图4.64 差异物种的LDA值分布图

说明 :左图为差异物种的LDA值分布图，LDA值分布柱状图中展示了LDA Score大于设定值（默认设置为4）的物种，即组间具有统计学差异的Biomarker，柱状图的长度代表差异物种的影响大小（即为 LDA Score）。右图为差异物种的进化分支图，由内至外辐射的圆圈代表了由门至属（或种）的分类级别。在不同分类级别上的每一个小圆圈代表该水平下的一个分类，小圆圈直径大小与相对丰度大小呈正比。着色原则：无显著差异的物种统一着色为黄色，差异物种Biomarker跟随组进行着色，红色节点表示在红色组别中起到重要作用的微生物类群，绿色节点表示在绿色组别中起到重要作用的微生物类群。图中英文字母表示的物种名称在右侧图例中进行展示。

结果目录 :

LEfSe分析结果见 : result/06.StatisticalTest/MicroNR/LEfSe_group1/*/*.{pdf,png}

4.6.3.2 KEGG

level1 level2 level3 ec KO module

图4.65 差异功能的LDA值分布图

说明 :差异功能的LDA值分布图，LDA值分布柱状图中展示了LDA Score大于设定值（默认设置为3）的功能，即组间具有统计学差异的Biomarker，柱状图的长度代表差异功能的影响大小（即为 LDA Score）。

结果目录 :

LEfSe分析结果见 : result/06.StatisticalTest/KEGG/LEfSe_group1/*/*.{pdf,png}

4.6.3.3 eggNOG

level1 level2

图4.66 差异功能的LDA值分布图

结果目录 :

LEfSe分析结果见 : result/06.StatisticalTest/eggNOG/LEfSe_group1/*/*.{pdf,png}

4.6.3.4 CAZy

level1 level2 ec

图4.67 差异功能的LDA值分布图

结果目录 :

LEfSe分析结果见 : result/06.StatisticalTest/CAZy/LEfSe_group1/*/*.{pdf,png}

4.6.3.5 VFDB

level1 level2

图4.68 差异功能的LDA值分布图

结果目录 :

LEfSe分析结果见 : result/06.StatisticalTest/VFDB/LEfSe_group1/*/*.{pdf,png}

4.6.3.6 PHI

level1 level2 level3

图4.69 差异功能的LDA值分布图

结果目录 :

LEfSe分析结果见 : result/06.StatisticalTest/PHI/LEfSe_group1/*/*.{pdf,png}

4.6.4 iPATH 分析

为了研究不同分组（不同样品）在代谢通路图中的差异，绘制了代谢通路网页版结果展示，整体网页版报告分为两部分：

第一部分为 KEGG 9 大 pathway overview 图: 图中，展示了两个分组（或两个样品）共有及特有的代谢通路信息，在代谢通路图中，节点代表各种化合物，边代表一系列的酶类反应，例如AvsB，红色代表两个分组（或两个样品）共有的酶类反应，蓝色代表分组 A（或样品 A）独有的酶类反应，绿色代表分组 B（或样品 B）独有的酶类反应；

第二部分为注释到的 pathway 代谢通路图: 在代谢通路图中，节点代表各种化合物, 方框代表酶类信息（默认边框为黑色，背景为白色），不同颜色的方框代表注释为该酶类的不同 Unigenes 数目。

展示结果请点击。

图4.70 多样品代谢通路比较分析示例图

结果目录 :

多样品代谢通路比较分析结果见 : result/06.StatisticalTest/KEGG/iPATH/Pathway_group1

4.7 抗性基因注释与分析

不管是人肠道微生物还是其他环境微生物中，抗性基因是普遍存在的。抗生素的滥用导致人体和环境中微生物群落发生不可逆的变化，对人体健康和生态环境造成风险，因此抗性基因的相关研究受到了研究者的广泛关注(Martínez et al., 2014)。

4.7.1 功能注释

4.7.1.1 CARD抗性基因注释

The Comprehensive Antibiotic Resistance Database是近年来新出现的抗性基因数据库，它具有信息全面，对用户友好，更新维护及时等优势。该数据库的核心构成是Antibiotic Resistance Ontology（ARO），它整合了序列、抗生素抗性、作用机制、ARO之间的关联等信息，并在线提供ARO与PDB、NCBI等数据库的接口(Jia et al., 2017)。

4.7.1.1.1 注释基本步骤

抗性基因的注释，使用CARD数据库(v2.0.1)提供的Resistance Gene Identifier (RGI)软件将 Unigenes 与CARD数据库进行比对（RGI内置blastp，采用bitscore值对比对结果进行评分）(Mcarthur et al., 2013);根据RGI的比对结果，结合Unigenes的丰度信息，统计出各ARO的相对丰度。从ARO的丰度出发，进行丰度柱形图展示，丰度聚类热图展示，丰度分布圈图展示，组间ARO差异分析，抗性基因（注释到ARO的unigenes）物种归属分析等（对部分名称较长的ARO，用其前三个单词与下划线缩写的形式展示）。

4.7.1.1.2 功能相对丰度概况

从抗性基因的相对丰度表出发，计算各个样品中ARO的含量，筛选出最大丰度排名前20的ARO结果展示如下：

ppm relative

图4.71 不同ARO在各样本中的丰度柱形图

说明：ARO在各个样品中所有基因的相对丰度。ppm，表示单位为ppm，即将原始相对丰度数据放大10e6倍的结果；relative，表示top20 ARO在所有 ARO中的相对丰度，others为非top 20 ARO相对丰度总和。

结果目录：

top20 的 ARO 在各样品的相对丰度见：result/07.ResistantGene/CARD/Anno/Bar/ARO/Unigenes.ARO.ppm.{png,svg}

top20 的 ARO 在各样品的相对百分含量见：result/07.ResistantGene/CARD/Anno/Bar/ARO/Unigenes.ARO.RelativePercent.{png,svg}

4.7.1.2 MGEs转移元件注释

可移动遗传元件mobile genetic elements (MGEs)，是指能在基因组内转移的一类DNA，包含整合子、插入序列、质粒等。其中，整合子（integrons）能够捕获和整合外源性基因，使之转变为功能性基因的表达单位，增强细菌生存的适应性，并导致多重耐药基因在细菌中的水平传播；插入序列（Insertion Sequence，IS）是最简单的转座元件,可以通过转座作用在不同位置插入到基因组中，从而可能引起基因突变、基因表达改变等，对生物体的遗传特性和表型产生影响；质粒（plasmid）能够自主复制，大部分质粒是环状构型，存在于许多细菌以及酵母菌等生物中，乃至于植物的线粒体中。

4.7.1.2.1 注释基本步骤

使用blastn软件将Unigenes与插入序列（isfinder，https://isfinder.biotoul.fr/）、整合子（integrall，http://integrall.bio.ua.pt/）和质粒（PLSDB，https://ccb-microbe.cs.uni-saarland.de/plsdb/）数据库进行比对，对于每一条序列的比对结果，选取score最高的比对结果（one HSP > 60 bits）。

4.7.1.2.2 功能相对丰度概况

从抗性基因的相对丰度表出发，计算各个样品中MGEs的含量和百分比，筛选出最大丰度排名前20的MGEs结果展示如下：

integrall isfinder plasmid

图4.72 不同MGEs在各样本中的丰度柱形图

说明：表示top20 MGEs在所有MGEs中的相对丰度，Others为非top 20 MGEs相对丰度总和（NonARO除外)。

结果目录：

top20 的 MGEs 在各样品的相对丰度见：result/07.ResistantGene/MGES/*/Anno/Bar/*/Unigenes.*.ppm.{png,svg}

top20 的 MGEs 在各样品的相对百分含量见：result/07.ResistantGene/MGES/*/Anno/Bar/*/Unigenes.*.RelativePercent.{png,svg}

4.7.2 功能多样性分析

4.7.2.1 Alpha多样性分析

4.7.2.1.1 CARD

从抗性基因注释 Absolute 表出发，计算得到每个样本内物种的丰富度以及多样性。该表展示 CARD 结果。

表4.10 Alpha多样性分析统计结果

Sample	ACE	chao1	shannon	simpson	observed_species	goods_coverage
A1	43.4293228139382	42.25	0.0108799927823185	0.00213200249121237	42	1
A2	42	42	0.0108125588490909	0.00205967057114076	42	1
A3	47.6708382526564	49	0.0102213839331502	0.00194342009360282	46	1
A4	36.3895184341492	36	0.0102539067824851	0.00201037859773734	36	1
A5	48.2867741935484	50	0.0114341090936032	0.0022065765958339	47	1
A6	48.5463059313215	47.3333333333333	0.010932664138539	0.00205451641063437	47	1
B1	63.3033204569738	63	0.0150913616056208	0.00284167796574919	63	1
B2	59	59	0.0152080666931286	0.00301811527226215	59	1
B3	59.3798638730575	59	0.0143670337710835	0.00281104427513068	59	1
B4	62.471360039362	62	0.0148030807153351	0.00279805836584013	62	1
B5	57.1100242199074	56	0.0160782550731268	0.0032536383384687	54	1
B6	63.256372325899	63	0.0159735301416334	0.00307908127553369	63	1
C1	51.037037037037	50	0.0123106958597068	0.00234614892723195	49	1
C2	52	52	0.0131942103245942	0.0025078619319544	52	1
C3	52	52	0.0143076301804716	0.00273236245309016	52	1
C4	49.4855586046236	49	0.0111012746113426	0.00212270389053248	49	1
C5	54.3632	54	0.0141608344719529	0.00270314480666356	54	1
C6	53.0677551020408	53	0.014489028117648	0.00278805913838731	52	1

显示注释

（1）ACE：估计群落中功能数目。

（2）chao1：估计群落样品中包含的功能总数，群落中低丰度功能越多，chao1指数越大。

（3）shannon：样品中的分类总数及其占比。群落多样性越高，功能分布越均匀，shannon指数越大。

（4）simpson：表征群落内功能分布的多样性和均匀度，功能均匀度越好，Simpson指数越大。

（5）observed_species：直观观测到的功能数目，指数越大观测到的功能越多。

（6）goods_coverage：覆盖度，测序覆盖度越高，指数越大。

结果目录：

CARD Alpha多样性指数汇总表见：result/07.ResistantGene/CARD/Diversity/AlphaDiversity/Alpha_index_table/*.xls

4.7.2.1.2 MGEs

从抗性基因注释 Absolute 表出发，计算得到每个样本内物种的丰富度以及多样性。该表展示 Integrall 结果。

表4.11 Integrall 多样性分析统计结果

Sample	ACE	chao1	shannon	simpson	observed_species	goods_coverage
A1	253.709411148522	254.5	3.94261174483602	0.961561709975321	251	1
A2	258.944668303247	258.5	3.81769277128211	0.95262997851552	258	1
A3	273.667203072505	277	3.92077733899562	0.958484400852559	266	1
A4	240.606307234303	241.2	3.67639178067444	0.944648198754464	237	1
A5	260.284893617021	261.142857142857	4.07272978948873	0.967730262426443	256	1
A6	266.599948373989	270	3.70138572558111	0.941327752171184	263	1
B1	312.140416396996	313	4.04029826613588	0.965865120097148	310	1
B2	282.923252978464	283.5	3.64546810254977	0.949093532827869	279	1
B3	290.614629644684	290.076923076923	3.70616253015464	0.952434746680321	285	1
B4	304.838701702928	304.428571428571	4.05330763499738	0.967275816998184	304	1
B5	273.155567986051	277.272727272727	3.47350642962142	0.93978629078754	260	1
B6	295.200402138209	294.75	3.85156085530933	0.957985152596157	294	1
C1	273.172961838221	274.142857142857	3.95012014275983	0.964234266177722	269	1
C2	275.245611907886	275	3.9431808248913	0.963283717044341	272	1
C3	285.001328107919	283.625	4.08839536849014	0.969327640017278	281	1
C4	271.535993981054	269.111111111111	3.83644337281334	0.960256883389439	263	1
C5	273.129500818331	274.2	4.02848344354065	0.967376132376368	270	1
C6	279.926779836336	289	4.09889366718822	0.969974783074737	274	1

显示注释

（1）ACE：估计群落中功能数目。

（2）chao1：估计群落样品中包含的功能总数，群落中低丰度功能越多，chao1指数越大。

（3）shannon：样品中的分类总数及其占比。群落多样性越高，功能分布越均匀，shannon指数越大。

（4）simpson：表征群落内功能分布的多样性和均匀度，功能均匀度越好，Simpson指数越大。

（5）observed_species：直观观测到的功能数目，指数越大观测到的功能越多。

（6）goods_coverage：覆盖度，测序覆盖度越高，指数越大。

结果目录：

MGEs-integrall Alpha多样性指数汇总表见：result/07.ResistantGene/MGES/integrall/Diversity/AlphaDiversity/Alpha_index_table/*.xls

从抗性基因注释 Absolute 表出发，计算得到每个样本内物种的丰富度以及多样性。该表展示 Isfinder 结果。

表4.12 Isfinder 多样性分析统计结果

Sample	ACE	chao1	shannon	simpson	observed_species	goods_coverage
A1	41.1948951325683	46	2.21809121135371	0.847318863773997	36	1
A2	45.2024979303891	45	2.27945145940268	0.843845173973907	45	1
A3	46.2274436090226	45.25	2.59160492321184	0.890220685818359	45	1
A4	42.4237034663248	42.5	1.96332334762071	0.793209662826052	41	1
A5	49.3565750882759	49	2.46233490700998	0.857841391591495	49	1
A6	44.5208124065953	44	2.32037044329062	0.831581542475161	43	1
B1	89.2641101809344	92	3.32244133235588	0.944073134737333	85	1
B2	80.1805989728704	79.5	3.13138754341404	0.917693731796936	79	1
B3	74.2762390670554	74	3.02243566918527	0.919285662842829	74	1
B4	85.252254798325	85	3.45114302584521	0.953661552781257	84	1
B5	70.3033307058211	69.4285714285714	2.88728534841578	0.901008106318343	69	1
B6	80.4743500958875	79.75	3.32171669965773	0.940187766581334	79	1
C1	65.7386377808263	63.5	2.72534161535579	0.883339848244223	61	1
C2	71.3790555555556	71	2.8276204616678	0.893843497317979	71	1
C3	64.3314675351109	64	2.86092409916657	0.89072669149166	64	1
C4	61.6484375	61	2.79289058563099	0.906213802803415	61	1
C5	64	64	2.79532166041778	0.888639077149691	64	1
C6	64.354071963272	64	2.74192039440485	0.878250820258648	64	1

显示注释

（1）ACE：估计群落中功能数目。

（2）chao1：估计群落样品中包含的功能总数，群落中低丰度功能越多，chao1指数越大。

（3）shannon：样品中的分类总数及其占比。群落多样性越高，功能分布越均匀，shannon指数越大。

（4）simpson：表征群落内功能分布的多样性和均匀度，功能均匀度越好，Simpson指数越大。

（5）observed_species：直观观测到的功能数目，指数越大观测到的功能越多。

（6）goods_coverage：覆盖度，测序覆盖度越高，指数越大。

结果目录：

MGEs-isfinder Alpha多样性指数汇总表见：result/07.ResistantGene/MGES/isfinder/Diversity/AlphaDiversity/Alpha_index_table/*.xls

从抗性基因注释 Absolute 表出发，计算得到每个样本内物种的丰富度以及多样性。该表展示 Plasmid 结果。

表4.13 Plasmid 多样性分析统计结果

Sample	ACE	chao1	shannon	simpson	observed_species	goods_coverage
A1	1052.91759097362	1083.56	4.58480391144521	0.967182793041138	998	1
A2	1144.50221130055	1161.62222222222	4.85613872474593	0.981143680101542	1111	1
A3	1182.06990673271	1201.42	4.80865645311165	0.977773150563363	1135	1
A4	948.479933794371	954.448275862069	4.54251592898836	0.97264929558409	904	1
A5	1134.56531063942	1143.59649122807	4.66961284670357	0.973095638978488	1100	1
A6	1209.90212956472	1221.875	4.74157743395307	0.977725113715331	1185	1
B1	1617.30104555384	1645.96226415094	4.84812107017735	0.969697979730342	1577	1
B2	1451.51252779942	1469.11428571429	4.63036547618701	0.975371616879388	1408	1
B3	1419.81688067635	1441.33823529412	4.85926271522677	0.98097149464482	1370	1
B4	1590.55312254093	1596.51666666667	4.78222670369474	0.966610320883688	1565	1
B5	1277.35783322903	1293.84375	4.60412223606863	0.975943227752389	1227	1
B6	1513.61193568103	1524.6	4.85114709003732	0.974663215617233	1488	1
C1	1310.81171788802	1335.05172413793	4.86447804451848	0.974340015257395	1266	1
C2	1371.60921797556	1394.46808510638	4.83697773114787	0.973513742561464	1337	1
C3	1393.97589641123	1441.375	4.70304205564494	0.959330617751046	1350	1
C4	1337.28261734878	1377.10909090909	4.89927459134063	0.981487928371699	1274	1
C5	1324.31976123196	1341.875	4.67588232789292	0.958257490544209	1293	1
C6	1372.59878128302	1404.26315789474	4.5824911567591	0.946232923724435	1337	1

显示注释

（1）ACE：估计群落中功能数目。

（2）chao1：估计群落样品中包含的功能总数，群落中低丰度功能越多，chao1指数越大。

（3）shannon：样品中的分类总数及其占比。群落多样性越高，功能分布越均匀，shannon指数越大。

（4）simpson：表征群落内功能分布的多样性和均匀度，功能均匀度越好，Simpson指数越大。

（5）observed_species：直观观测到的功能数目，指数越大观测到的功能越多。

（6）goods_coverage：覆盖度，测序覆盖度越高，指数越大。

结果目录：

MGEs-plasmid Alpha多样性指数汇总表见：result/07.ResistantGene/MGES/plasmid/Diversity/AlphaDiversity/Alpha_index_table/*.xls

4.7.2.2 基于相对丰度的样品聚类分析

4.7.2.2.1 CARD

根据所有样品在CARD数据库中的功能注释及丰度信息，选取丰度排名前 35 的功能及它们在每个样品中的丰度信息绘制热图，并从功能差异层面进行聚类。

图4.73 CARD 功能丰度聚类热图

说明：横向为样品信息；纵向为CARD 注释信息；图中左侧的聚类树为功能聚类树；中间热图对应的值为每一行功能相对丰度经过标准化处理后得到的 Z 值；即一个样品在某个分类上的 Z 值为样品在该分类上的相对丰度和所有样品在该分类的平均相对丰度的差除以所有样品在该分类上的标准差所得到的值

结果目录：

CARD丰度聚类热图见 : result/07.ResistantGene/CARD/Anno/Heatmap_sample/ARO/ARO_heat/heat.{pdf,png}

4.7.2.2.2 MGEs

根据所有样品在MGEs 数据库中的功能注释及丰度信息，选取丰度排名前 35 的功能及它们在每个样品中的丰度信息绘制热图，并从功能差异层面进行聚类。

integrall isfinder plasmid

图4.74 MGEs 功能丰度聚类热图

说明：横向为样品信息；纵向为MGEs 注释信息；图中左侧的聚类树为功能聚类树；中间热图对应的值为每一行功能相对丰度经过标准化处理后得到的 Z 值；即一个样品在某个分类上的 Z 值为样品在该分类上的相对丰度和所有样品在该分类的平均相对丰度的差除以所有样品在该分类上的标准差所得到的值

结果目录：

MGEs 丰度聚类热图见 : result/07.ResistantGene/MGES/*/Anno/Heatmap_sample/*/*_heat/heat.{pdf,png}

4.7.2.3 主成分（PCA）分析

主成分分析 (PCA，Principal Component Analysis)是基于线型模型的一种降维分析，它应用方差分解的方法对多维数据进行降维，从而提取出数据中最主要的元素和结构(Rao et al., 2002)；PCA 能够提取出最大程度反映样品间差异的两个坐标轴，从而将多维数据的差异反映在二维坐标图上，进而揭示复杂数据背景下的简单规律。

4.7.2.3.1 CARD

图4.75 基于 CARD 水平的 PCA 结果展示

结果目录：

标注样品名的PCA图见 : result/07.ResistantGene/CARD/Diversity/PCA_group1/ARO/PCA_lable.{png,pdf}

未标注样品名的PCA图见 : result/07.ResistantGene/CARD/Diversity/PCA_group1/ARO/PCA.{png,pdf}

未标示样品名称的带聚类圈的PCA图见 : result/07.ResistantGene/CARD/Diversity/PCA_group1/ARO/PCA_circle.{png,pdf}

标示样品名称的带聚类圈的PCA图见 : result/07.ResistantGene/CARD/Diversity/PCA_group1/ARO/PCA_circleLable.{png,pdf}

4.7.2.3.2 MGEs

integrall isfinder plasmid

图4.76 基于 MGEs 水平的 PCA 结果展示

结果目录：

标注样品名的PCA图见 : result/07.ResistantGene/MGES/*/Diversity/PCA_group1/*/PCA_lable.{png,pdf}

未标注样品名的PCA图见 : result/07.ResistantGene/MGES/*/Diversity/PCA_group1/*/PCA.{png,pdf}

未标示样品名称的带聚类圈的PCA图见 : result/07.ResistantGene/MGES/*/Diversity/PCA_group1/*/PCA_circle.{png,pdf}

标示样品名称的带聚类圈的PCA图见 : result/07.ResistantGene/MGES/*/Diversity/PCA_group1/*/PCA_circleLable.{png,pdf}

4.7.2.4 主坐标（PCoA）分析

主坐标分析（PCoA，Principal Co-ordinates Analysis），是通过一系列的特征值和特征向量排序从多维数据中提取出最主要的元素和结构。我们基于Bray-Curtis 距离来进行PCoA分析，并选取贡献率最大的主坐标组合进行作图展示。如果样品距离越接近，表示功能组成结构越相似，因此群落结构相似度高的样品倾向于聚集在一起，群落差异很大的样品则会远远分开。基于不同分类层级的功能丰度表得到Bray-Curtis 距离矩阵，我们进行了 PCoA分析。

4.7.2.4.1 CARD

图4.77 基于 CARD 水平的 PCoA 结果展示

结果目录：

标注样品名的PCoA图见 : result/07.ResistantGene/CARD/Diversity/PCoA_group1/ARO/PCoA_lable.{png,pdf}

未标注样品名的PCoA图见 : result/07.ResistantGene/CARD/Diversity/PCoA_group1/ARO/PCoA.{png,pdf}

未标示样品名称的带聚类圈的PCoA图见 : result/07.ResistantGene/CARD/Diversity/PCoA_group1/ARO/PCoA_circle.{png,pdf}

标示样品名称的带聚类圈的PCoA图见 : result/07.ResistantGene/CARD/Diversity/PCoA_group1/ARO/PCoA_circleLable.{png,pdf}

4.7.2.4.2 MGEs

integrall isfinder plasmid

图4.78 基于 MGEs 水平的 PCoA 结果展示

结果目录：

标注样品名的PCoA图见 : result/07.ResistantGene/MGES/*/Diversity/PCoA_group1/*/PCoA_lable.{png,pdf}

未标注样品名的PCoA图见 : result/07.ResistantGene/MGES/*/Diversity/PCoA_group1/*/PCoA.{png,pdf}

未标示样品名称的带聚类圈的PCoA图见 : result/07.ResistantGene/MGES/*/Diversity/PCoA_group1/*/PCoA_circle.{png,pdf}

标示样品名称的带聚类圈的PCoA图见 : result/07.ResistantGene/MGES/*/Diversity/PCoA_group1/*/PCoA_circleLable.{png,pdf}

4.7.2.5 非度量多维尺度（NMDS）分析

NMDS是非线性模型，其目的是为了克服线性模型的缺点，更好地反映生态学数据的非线性结构(Legendre, 1998)，应用NMDS分析，根据样本中包含的功能信息，以点的形式反映在多维空间上，而不同样本间的差异程度则是通过点与点间的距离体现，能够反映样本的组间或组内差异。基于不同分类层级的功能丰度表得到Bray-Curtis 距离矩阵，我们进行了 NMDS分析。

4.7.2.5.1 CARD

图4.79 基于 CARD 水平的 NMDS 结果展示

结果目录：

标注样品名的NMDS图见 : result/07.ResistantGene/CARD/Diversity/NMDS_group1/ARO/NMDS_lable.{png,pdf}

未标注样品名的NMDS图见 : result/07.ResistantGene/CARD/Diversity/NMDSgroup1/ARO/NMDS.{png,pdf}

未标示样品名称的带聚类圈的NMDS图见 : result/07.ResistantGene/CARD/Diversity/NMDS_group1/ARO/NMDS_circle.{png,pdf}

标示样品名称的带聚类圈的NMDS图见 : result/07.ResistantGene/CARD/Diversity/NMDS_group1/ARO/NMDS_circleLable.{png,pdf}

4.7.2.5.2 MGEs

integrall isfinder plasmid

图4.80 基于 MGEs 水平的 NMDS 结果展示

结果目录：

标注样品名的NMDS图见 : result/07.ResistantGene/MGEs/*/Diversity/PCA_group1/*/NMDS_lable.{png,pdf}

未标注样品名的NMDS图见 : result/07.ResistantGene/MGEs/*/Diversity/PCA_group1/*/NMDS.{png,pdf}

未标示样品名称的带聚类圈的NMDS图见 : result/07.ResistantGene/MGES/*/Diversity/PCA_group1/*/NMDS_circle.{png,pdf}

标示样品名称的带聚类圈的NMDS图见 : result/07.ResistantGene/MGES/*/Diversity/PCA_group1/*/NMDS_circleLable.{png,pdf}

4.7.3 抗性基因组间差异统计检验分析

4.7.3.1 Anosim 分析

Anosim分析是一种非参数检验，用来检验组间的差异是否显著大于组内差异，从而判断分组是否有意义，详细计算过程可查看Anosim(https://www.rdocumentation.org/packages/vegan/versions/2.3-5/topics/anosim)。

4.7.3.1.1 CARD

图4.81 基于CARD 水平的 Anosim 分析

结果目录：

Anosim分析结果见 : result/07.ResistantGene/CARD/StatisticalTest/Anosim_group1

4.7.3.1.2 MGEs

integrall isfinder plasmid

图4.82 基于 MGEs 水平的 Anosim 分析

结果目录：

Anosim分析结果见 : result/07.ResistantGene/MGES/*/StatisticalTest/Anosim_group1

4.7.3.2 MetaGenomeSeq 分析

为了研究组间具有显著性差异的功能，从不同层级的功能丰度表出发，利用 MetaGenomeSeq 方法对组间的功能丰度数据进行假设检验得到 p 值，通过对 p 值的校正，得到 q 值；最后根据 q 值筛选具有显著性差异的功能，并绘制差异功能在组间的丰度分布箱图。

4.7.3.2.1 CARD

图4.83 基于CARD 水平的 MetaGenomeSeq 分析

图中，横向为样品分组；纵向为对应功能的相对丰度。横线代表具有显著性差异的两个分组，没有则表示此功能在两个分组间不存在差异。“＊”表示两组间差异显著（q value < 0.05），“＊＊”表示两组间差异极显著（q value < 0.01）。

根据组间具有差异的功能进行主成分 PCA 分析和丰度聚类热图分析，展示结果如下:

图4.84 基于显著性差异功能的丰度聚类热图和 PCA 分析

结果目录 :

MetaGenomeSeq 分析结果见 : result/07.ResistantGene/CARD/StatisticalTest/MetaGenomeSeq_group1/ARO

从 MetaGenomeSeq 分析结果中，筛选出的 P value<=0.05的信息见 : result/07.ResistantGene/CARD/StatisticalTest/MetaGenomeSeq_group1/ARO/*.psig.xls

从 MetaGenomeSeq 分析结果中，筛选出的 Q value<=0.05的信息见 : result/07.ResistantGene/CARD/StatisticalTest/MetaGenomeSeq_group1/ARO/*.qsig.xls

4.7.3.2.2 MGEs

integrall isfinder plasmid

图4.85 基于MGEs 水平的 MetaGenomeSeq 分析

根据组间具有差异的功能进行主成分 PCA 分析和丰度聚类热图分析，展示结果如下:

integrall isfinder plasmid

图4.86 基于显著性差异功能的丰度聚类热图和 PCA 分析

结果目录 :

MetaGenomeSeq 分析结果见 : result/07.ResistantGene/MGES/*/StatisticalTest/MetaGenomeSeq_group1/*

从 MetaGenomeSeq 分析结果中，筛选出的 P value<=0.05的信息见 : result/07.ResistantGene/MGES/*/StatisticalTest/MetaGenomeSeq_group1/*/*.psig.xls

从 MetaGenomeSeq 分析结果中，筛选出的 Q value<=0.05的信息见 : result/07.ResistantGene/MGES/*/StatisticalTest/MetaGenomeSeq_group1/*/*.qsig.xls

4.7.3.3 LEfSe分析

为了筛选组间具有显著差异的Biomarker，首先通过秩和检验的方法检测不同分组间的差异功能并通过LDA（线性判别分析）实现降维并评估差异功能的影响大小，即得到LDA score ；组间差异功能的LEfSe分析LDA值分布柱状图如下：

4.7.3.3.1 CARD

图4.87 CARD 的LDA值分布图

说明：图为差异功能的LDA值分布图，LDA值分布柱状图中展示了LDA Score大于设定值（默认设置为3）的功能，即组间具有统计学差异的Biomarker，柱状图的长度代表差异功能的影响大小（即为 LDA Score）。

结果目录 :

LEfSe分析结果见 : result/07.ResistantGene/CARD/StatisticalTest/LEfSe_group1/ARO

4.7.3.3.2 MGEs

integrall isfinder plasmid

图4.88 MGEs 的LDA值分布图

结果目录 :

LEfSe分析结果见 : result/07.ResistantGene/MGES/*/StatisticalTest/LEfSe_group1/*

5 附录

5.1 分析软件列表

表5.1 分析软件列表

分析内容	软件	版本	参数	备注
数据质控	fastp	0.23.1	-g -q 5 -u 50 -n 15 -l 150 --overlap_diff_limit 1 --overlap_diff_percent_limit 10
过滤宿主	bowtie2	2.5.4	--end-to-end --sensitive --no-hd --no-sq -I 200 -X 400 --threads 8
组装	megahit	1.2.9	--presets meta-large -m 180000000000 -t 2
基因预测	GeneMark.hmm	2.1	-a -d -f G -p 1
基因去冗余	CD-HIT	4.5.8	-T 6 -G 0 -aS 0.9 -g 1 -d 0 -c 0.95 -n 5 -M 8000
reads mapping	bowtie2	2.2.4	--end-to-end --sensitive --no-hd --no-sq -I 200 -X 400 --threads 8
相关性热图	R软件	2.15.3	R package = corrplot
corepan	R软件	2.15.3	R package = ggplot2
venn图、花瓣图	R软件	v3.0.3	R package = VennDiagram
基因数目差异分析	R软件	2.15.3	R package = ggplot2
基于基因数目的样品间相关性分析	R软件	2.15.3	R package = corrplot
Micro_NR比对注释	diamond	2.1.9	-p 4 -e 1e-5 -k 50	Micro_NR(Version: 2024.03)
KEGG比对注释	diamond	2.1.9	-p 4 -e 1e-5 -k 50 --id 30 --sensitive	KEGG(Version: 2024.03)
eggNOG比对注释	diamond	2.1.9	-p 4 -e 1e-5 -k 50 --id 30 --sensitive	eggNOG(Version: 5.0)
CAZy比对注释	diamond	2.1.9	-p 4 -e 1e-5 -k 50 --id 30 --sensitive	CAZy(Version: 2024.03)
VFDB比对注释	diamond	2.1.9	-p 4 -e 1e-5 -k 50 --id 30 --sensitive	VFDB(Version: 2024.06)
PHI比对注释	diamond	2.1.9	-p 4 -e 1e-5 -k 50 --id 30 --sensitive	PHI(Version: 2023.03)
CARD比对注释	RGI	6.0.2	-d wgs --clean	CARD(Version:3.2.6)
MGEs比对注释	blastn	2.12.0	-num_threads 6 -outfmt 6 -evalue 1e-5	Integrall(Version: 2021.09),Isfinder(Version: 2023.10),Plasmid(Version: 2021.06)
Alpha指数分析	R软件	2.15.3	R package = vegan
PCA分析	R软件	3.0.3	R package = FactoMineR， ggplot2，grid
NMDS	R软件	2.15.3	R package = vegan,permute,lattice
Anosim	R软件	2.15.3	R package = vegan,permute,lattice
PCoA	R软件	2.15.3	R package = extrafont,ggplot2,grid
聚类热图	R软件	3.1.0	R package = pheatmap
MetaGenomeSeq	R软件	2.15.3	q value (Benjamini and Hochberg FDR) < 0.05
MetaGenomeSeq热图	R软件	3.1.0	R package = pheatmap
MetaGenomeSeq combined	R软件	2.15.3	R package = ggplot2
LEfSe	LEfSe软件	1.0	物种LDA Score>4，功能LDA Score>3
Krona	perl	5.18.2	use KronaTools
相对丰度柱形图	perl	5.18.2	use SVG
聚类树	perl	5.18.2	use SVG
circos单圈图	circos	v0.64
功能相对丰度柱形图	perl	5.18.2	use SVG
代谢通路比较分析	perl	5.18.2	use SVG

5.2 Methods

中文版method

英文版method

5.3 结果文件解压方法及结果文件格式说明

表5.2 常见文件格式打开方法

文件格式	操作系统	描述
*.gz 格式	Unix/Linux/Mac	使用gzip -d *.gz命令打开
*.gz 格式	Windows	使用WinRAR、7-Zip等解压缩软件打开
*.zip 格式	Unix/Linux/Mac	使用unzip*.zip命令打开
*.zip 格式	Windows	使用WinRAR、7-Zip等解压缩软件打开
*.tar 格式	Unix/Linux/Mac	使用tar -xvf *.tar命令打开
*.tar 格式	Windows	使用WinRAR、7-Zip等解压缩软件打开

结果文件建议使用Excel或者EditPlus等专业文本编辑器打开。推荐使用火狐浏览器进行网页版结题报告浏览，下载地址：http://www.firefox.com.cn/download/

6 参考文献

Bäckhed F, Roswall J, Peng Y, et al. Dynamics and Stabilization of the Human Gut Microbiome during the First Year of Life. Cell Host Microbe. 2015;17(6):852. doi:10.1016/j.chom.2015.05.012

Breiman L. Random Forests. Machine Learning. 2001;45(1):5-32.

Buchfink B, Xie C, Huson DH. Fast and sensitive protein alignment using DIAMOND. Nat Methods. 2015;12(1):59-60. doi:10.1038/nmeth.3176

Cantarel BL, Coutinho PM, Rancurel C, Bernard T, Lombard V, Henrissat B. The Carbohydrate-Active EnZymes database (CAZy): an expert resource for Glycogenomics. Nucleic Acids Res. 2009;37(Database issue):D233-D238. doi:10.1093/nar/gkn663

Chen K, Pachter L. Bioinformatics for whole-genome shotgun sequencing of microbial communities. PLoS Comput Biol. 2005;1(2):106-112. doi:10.1371/journal.pcbi.0010024

Cotillard A, Kennedy SP, Kong LC, et al. Dietary intervention impact on gut microbial gene richness [published correction appears in Nature. 2013 Oct 24;502(7472)580]. Nature. 2013;500(7464):585-588. doi:10.1038/nature12480

Feng Q, Liang S, Jia H, et al. Gut microbiome development along the colorectal adenoma-carcinoma sequence. Nat Commun. 2015;6:6528. Published 2015 Mar 11. doi:10.1038/ncomms7528

Fu L, Niu B, Zhu Z, Wu S, Li W. CD-HIT: accelerated for clustering the next-generation sequencing data. Bioinformatics. 2012;28(23):3150-3152. doi:10.1093/bioinformatics/bts565

Handelsman J, Rondon MR, Brady SF, Clardy J, Goodman RM. Molecular biological access to the chemistry of unknown soil microbes: a new frontier for natural products. Chem Biol. 1998;5(10):R245-R249. doi:10.1016/s1074-5521(98)90108-9

Huson DH, Mitra S, Ruscheweyh HJ, Weber N, Schuster SC. Integrative analysis of environmental sequences using MEGAN4. Genome Res. 2011;21(9):1552-1560. doi:10.1101/gr.120618.111

Jaime Huerta-Cepas, Damian Szklarczyk, Kristoffer Forslund, Helen Cook, Davide Heller, Mathias C. Walter, Thomas Rattei, Daniel R. Mende, Shinichi Sunagawa, Michael Kuhn, Lars Juhl Jensen, Christian von Mering, Peer Bork; eggNOG 4.5: a hierarchical orthology framework with improved functional annotations for eukaryotic, prokaryotic and viral sequences, Nucleic Acids Research, Volume 44, Issue D1, 4 January 2016, Pages D286–D293

Jia B, Raphenya AR, Alcock B, et al. CARD 2017: expansion and model-centric curation of the comprehensive antibiotic resistance database. Nucleic Acids Res. 2017;45(D1):D566-D573. doi:10.1093/nar/gkw1004

Karlsson FH, Fåk F, Nookaew I, et al. Symptomatic atherosclerosis is associated with an altered gut metagenome. Nat Commun. 2012;3:1245. doi:10.1038/ncomms2266

Karlsson FH, Tremaroli V, Nookaew I, et al. Gut metagenome in European women with normal, impaired and diabetic glucose control. Nature. 2013;498(7452):99-103. doi:10.1038/nature12198

Kanehisa M, Furumichi M, Tanabe M, Sato Y, Morishima K. KEGG: new perspectives on genomes, pathways, diseases and drugs. Nucleic Acids Res. 2017;45(D1):D353-D361. doi:10.1093/nar/gkw1092

Kanehisa M, Goto S, Hattori M, et al. From genomics to chemical genomics: new developments in KEGG. Nucleic Acids Res. 2006;34(Database issue):D354-D357. doi:10.1093/nar/gkj102

Klipper-Aurbach Y, Wasserman M, Braunspiegel-Weintrob N, et al. Mathematical formulae for the prediction of the residual beta cell function during the first two years of disease in children and adolescents with insulin-dependent diabetes mellitus. Med Hypotheses. 1995;45(5):486-490. doi:10.1016/0306-9877(95)90228-7

Le Chatelier E, Nielsen T, Qin J, et al. Richness of human gut microbiome correlates with metabolic markers. Nature. 2013;500(7464):541-546. doi:10.1038/nature12506

Legendre P, Legendre L. Numerical ecology, 2nd edition[J].1998.

Li D, Liu CM, Luo R, Sadakane K, Lam TW. MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph. Bioinformatics. 2015;31(10):1674-1676. doi:10.1093/bioinformatics/btv033

Li J, Jia H, Cai X, et al. An integrated catalog of reference genes in the human gut microbiome. Nat Biotechnol. 2014;32(8):834-841. doi:10.1038/nbt.2942

Li W, Godzik A. Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics. 2006;22(13):1658-1659. doi:10.1093/bioinformatics/btl158

Martínez JL, Coque TM, Baquero F. What is a resistance gene? Ranking risk in resistomes. Nat Rev Microbiol. 2015;13(2):116-123. doi:10.1038/nrmicro3399

McArthur AG, Waglechner N, Nizam F, et al. The comprehensive antibiotic resistance database. Antimicrob Agents Chemother. 2013;57(7):3348-3357. doi:10.1128/AAC.00419-13

Mende DR, Waller AS, Sunagawa S, et al. Assessment of metagenomic assembly using simulated next generation sequencing data [published correction appears in PLoS One. 2014;9(11):e114063]. PLoS One. 2012;7(2):e31386. doi:10.1371/journal.pone.0031386

Nielsen HB, Almeida M, Juncker AS, et al. Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes. Nat Biotechnol. 2014;32(8):822-828. doi:10.1038/nbt.2939

Rao C R. The Use and Interpretation of Principal Component Analysis in Applied Research[J]. Sankhyā: The Indian Journal of Statistics, Series A (1961-2002), 1964, 26(4):329-358.

Oh J, Byrd AL, Deming C, et al. Biogeography and individuality shape function in the human skin metagenome. Nature. 2014;514(7520):59-64. doi:10.1038/nature13786

Ondov BD, Bergman NH, Phillippy AM. Interactive metagenomic visualization in a Web browser. BMC Bioinformatics. 2011;12:385. Published 2011 Sep 30. doi:10.1186/1471-2105-12-385

Raes J, Foerstner KU, Bork P. Get the most out of your metagenome: computational analysis of environmental sequence data. Curr Opin Microbiol. 2007;10(5):490-498. doi:10.1016/j.mib.2007.09.001

Qin J, Li R, Raes J, et al. A human gut microbial gene catalogue established by metagenomic sequencing. Nature. 2010;464(7285):59-65. doi:10.1038/nature08821

Qin J, Li Y, Cai Z, et al. A metagenome-wide association study of gut microbiota in type 2 diabetes. Nature. 2012;490(7418):55-60. doi:10.1038/nature11450

Qin N, Yang F, Li A, et al. Alterations of the human gut microbiome in liver cirrhosis. Nature. 2014;513(7516):59-64. doi:10.1038/nature13568

Scher JU, Sczesnak A, Longman RS, et al. Expansion of intestinal Prevotella copri correlates with enhanced susceptibility to arthritis. Elife. 2013;2:e01202. Published 2013 Nov 5. doi:10.7554/eLife.01202

Segata N, Izard J, Waldron L, et al. Metagenomic biomarker discovery and explanation. Genome Biol. 2011;12(6):R60. Published 2011 Jun 24. doi:10.1186/gb-2011-12-6-r60

Sunagawa S, Coelho LP, Chaffron S, et al. Ocean plankton. Structure and function of the global ocean microbiome. Science. 2015;348(6237):1261359. doi:10.1126/science.1261359

Tringe SG, Rubin EM. Metagenomics: DNA sequencing of environmental samples. Nat Rev Genet. 2005;6(11):805-814. doi:10.1038/nrg1709

Tringe SG, von Mering C, Kobayashi A, et al. Comparative metagenomics of microbial communities. Science. 2005;308(5721):554-557. doi:10.1126/science.1107851

Villar E, Farrant GK, Follows M, et al. Ocean plankton. Environmental characteristics of Agulhas rings affect interocean plankton transport. Science. 2015;348(6237):1261447. doi:10.1126/science.1261447

Zeller G, Tap J, Voigt AY, et al. Potential of fecal microbiota for early-stage detection of colorectal cancer. Mol Syst Biol. 2014;10(11):766. Published 2014 Nov 28. doi:10.15252/msb.20145645

Zhu W, Lomsadze A, Borodovsky M. Ab initio gene identification in metagenomic sequences. Nucleic Acids Res. 2010;38(12):e132. doi:10.1093/nar/gkq275