附图说明" src="/d/file/p/2020/11-23/eff3f981c578950bb142f271ef316c80.gif" />
一种检测细菌16S rDNA全长的建库测序方法
技术领域
本发明属于细菌分子生物学技术领域,具体涉及一种检测细菌16S rDNA全长的建库测序方法。
背景技术
16S rRNA基因是原核生物所特有的基因,并且在原核生物中具有极高的拷贝数。全长1542nt的DNA序列包含9个间隔的高变区,兼具特异性和保守性的16S rRNA基因序列作为微生物标记被广泛应用于研究中。之前再对16S人DNA进行研究时,通常使用的是Sanger测序结合克隆的方法,或者芯片杂交方法,但是传统方法存在着通量低的缺陷。很多研究者已经用16S rDNA来对环境中的微生物,粪便微生物,皮肤中的微生物进行分类研究。目前,第二代测序技术已经成为微生物研究的主流手段,但是由于读长的限制,一般基于16SrDNA全长9个可变区中的一个或者几个(V6区、V3-V4区等),而且只能分析到属级别,无法分析到菌种。例如公开号为CN108070643A的中国发明专利公开了一种微生物16S rDNA单分子水平测序文库的构建方法,包括采集样本,提取DNA;扩增;纯化;定量;测序,生物信息学分析。但是仍采用是16S rDNAV3-V4区测序方法。该类方法作为市场上最为成熟的细菌检测方法,仍存在某些缺陷。例如不能够完全对细菌的菌种级别进行检测,不能够准确的确定环境微生物的生态结构,以及在用于样本特定细菌菌种的检测,比如:病原菌,益生菌的检测。对于深入研究领域而言是远远不够的。
因此需要开发一种建库方法,能够检测样本中细菌的16S全长序列,以便分析样本中的菌种组成,确定样本菌群生态结构。
发明内容
针对以上存在的技术问题,本发明提供一种检测细菌16S rDNA全长的建库测序方法,能够分析样本中的菌种组成,确定样本菌群生态结构。
本发明的技术方案为:一种检测细菌16S rDNA全长的建库测序方法,包括以下步骤:
(1)定量提取样本中菌群的总DNA,标记为样本A;
(2)以步骤(1)样本A的DNA为模板,通过两端带有特异分子标签UMI的引物组PCR扩增16S rDNA全长,并为每一个原始扩增的16S rDNA全长加上特异的分子标签UMI,得到扩增产物;
(3)将步骤(2)所得扩增产物用Tn5酶片段化并构建测序用拼接文库,并标记为A-P;
(4)将步骤(2)所得扩增产物的环化连接并构建测序用连接文库,并标记为A-L;
(5)将所述拼接文库A-P和连接文库A-L使用illumina测序仪测序,得到拼接文库A-P和连接文库A-L的测序结果;
(6)将步骤(5)的测序结果进行生物信息技术处理分析,通过识别UMI组合的方式,在拼接文库A-P和连接文库A-L中提取数据,并组装出16S rDNA全长序列,进而比对数据库确定菌种种类。
进一步地,步骤(2)进一步包括:
(2.1)采用带有UMI标签的第一组引物序列对所述样本A的DNA进行第一轮PCR扩增,并进行第一次纯化步骤;
(2.2)采用第二组引物序列对第一次纯化产物进行第二轮PCR扩增,并进行第二次纯化步骤。
更进一步地,所述第一组引物序列如SED IQ NO:1-2所示。
更进一步地,所述第二组引物序列如SED IQ NO:3-4所示。
更进一步地,所述第二组引物序列的5‘端进行了磷酸化。
进一步地,步骤(3)进一步包括:
(3.1)将步骤(2)所得扩增产物用Tn5酶片段化;
(3.2)片段化后第一轮PCR扩增并纯化,扩增引物序列如SED IQ NO:5-7所示;
(3.3)对第一轮PCR扩增产物进行第二轮PCR扩增并纯化,拼接文库完成,标记为A-P,扩增引物序列如SED IQ NO:8-9所示。
进一步地,步骤(4)进一步包括:
(4.1)采用T4 DNA连接酶完成步骤(3)最终扩增产物的环化连接,得到连接产物;
(4.2)对所述连接产物进行第一轮PCR扩增并纯化,扩增引物如SED IQ NO:10-11所示;
(4.2)对第一轮PCR扩增产物进行第二轮PCR扩增,扩增引物如SED IQ NO:12-13所示。
进一步地,步骤(5)中使用illumina测序仪对所述A-P和A-L分别进行双端测序,测序长度为150bp。
进一步地,步骤(6)进一步包括:
(6.1)连接文库A-L分析:使用cutadaptor在连接文库测序结果中识别成对的UMI组合,用于在拼接文库A-L中提取数据;
(6.2)拼接文库A-P分析:根据步骤(6.1)得到的成对的UMI组合,在拼接文库中提取每对UMI组合所包含的reads;
(6.3)序列组装:对于每对UMI组合所包含的reads使用SPAdes组装,得到一条全长的16S rDNA序列;
(6.4)序列注释:使用bowtie2将步骤(6.3)得到的16s rDNA全长序列与Silva数据库进行比对,进而统计样本的菌种丰度信息。
本发明的有益效果为:
1)通用性:本发明的建库方法适合所有类型样本的菌群结构检测。
2)准确性:本发明将传统的菌群结构鉴定从“属”级别提升到“种”级别,与属水平相比较,种水平的优势,可以更准确的确定环境微生物的生态结构,便于深入研究,由此可对样本进行特定细菌菌种的检测。
3)高通量:基于高通量测序技术,通过在每个样品上加上不同的标签序列,可以一次地对大量样品进行分析。
4)保真性:使用本发明检测的菌群丰度保真性好。
附图说明
图1是本发明的样本A基因组DNA的凝胶电泳图;
图2是本发明的样本A 16S全长扩增结果的凝胶电泳图;
图3是本发明样本A的拼接文库A-P的凝胶电泳图;
图4是本发明样本A的连接文库A-L的凝胶电泳图;
图5是本发明样本A的菌群丰度图;
图6是本发明实施例2中的模拟样本的菌群丰度检测结果图;
图7是本发明实施例3中排名前20的属两种方法丰度情况对比图。
具体实施方式
为对本发明的技术内容、特点与功效有更具体的了解,现结合具体实施例,对本发明的技术方案做进一步详细的说明。
实施例中未注明具体条件的实验方法,通常按照常规条件,或按照制造厂商所建议的调剂操作。
实施例1
(一)样本DNA的提取
1.1本发明采用Qiagen的DNeasy PowerSoil Kit对一例粪便样本进行提取总DNA的操作,标记为样本A。
具体操作步骤:
a.震荡装有3ml保护剂粪便样本的收集管,平分到2个1.5ml离心管中,2500g10min去上清,用1ml广口枪头转移沉淀到Power Beads Tube中,轻轻涡旋混匀。
b.加入60μl C1,涡旋振荡10min。
c.10000g离心30s。
d.转移上清到2ml收集管中。
e.向收集管中加250μl C2,震荡5s,4℃孵育5min。
f.10000g离心1min。
g.转移600μl上清到2ml收集管中。
h.加200μl C3,振荡混匀,4℃孵育5min。
i.10000g离心1min。
j.转移750μl上清到新的2ml收集管中。
k.摇匀C4,加1200μl到上清中,震荡5s。
l.加675μl到MB Spin柱中,10000g离心1min,弃滤过液体。
m.重复步骤12两次,直到所有的液体都滤过。
n.加500μl C5.10000g离心30s。
o.弃滤过液,10000g离心1min
p.将MB spin柱转移到新的2ml收集管中。
q.在白色膜中央加100μl C6溶液或者无核酶的水。
r.室温孵育30s,10000g离心。
凝胶电泳结果见图1。从胶图1结果可知:提取DNA条带单一无降解,可用于后续实验。
(二)PCR扩增16S rDNA全长,并为每一个原始扩增的16S全长加上特异的分子标签UMI
2.1第一轮PCR
本实施例采用带有UMI标签的第一组引物序列对所述样本A的DNA进行第一轮PCR扩增,扩增试剂来自诺维赞公司。其中,第一组引物序列为:
16S-1-F:CTCCACCCAGACTCATCCATNNNNNNNNNNNNNNGCGATCTAAGAGTTTGATCMTGGCTCAG(SED IQ NO:1)
16S-1-R:AGGGGGGCAAAGATGAAGATNNNNNNNNNNNNNNCGTACTAGTACGGYTACCTTGTTACGACTT(SED IQ NO:2)
第一轮PCR扩增的反应体系包括:2×Phanta Max Master Mix 25μl,DNA 10ng,16S-1-F 1μl,16S-1-R 1μl,H2O至50μl。
第一轮PCR扩增的反应程序为:95℃预变性3min,循环1次;95℃变性30sec,循环3次;58℃复性30sec,循环3次;72℃延伸30sec,循环3次;72℃后延伸5min,循环1次;4℃保持。
采用0.9倍诺维赞磁珠对第一轮PCR扩增的产物进行第一次纯化,包括以下步骤:
a.向PCR产物中加入45μl诺维赞磁珠,振荡混匀,室温放置5min.
b.将PCR管短暂离心并至于磁力架中分离磁珠和液体,待溶液澄清后(约5min),小心移除上清。
c.保持PCR管始终置于磁力架中,加入200μl新鲜配制的80%乙醇漂洗磁珠,室温孵育30sec,小心移除上清。
d.重复步骤c,总计漂洗两次。
e.保持PCR管始终置于磁力架中,开盖空气干燥磁珠5-10min至无乙醇残留。
f.将PCR管从磁力架中取出,加入21μl TE,涡旋振荡,于室温放置2min,将PCR管短暂离心并置于磁力架中静置,待溶液澄清后,小心移取20μl上清至新PCR管中,切勿触碰磁珠。
2.2第二轮PCR
采用第二组引物序列对第一次纯化产物进行第二轮PCR扩增,其中,第二组引物序列为:
16S-2-F:CTCCACCCAGACTCATCCAT(SED IQ NO:3)
16S-2-R:AGGGGGGCAAAGATGAAGAT(SED IQ NO:4)
引物的5‘端进行了磷酸化,为后续连接实验做准备。
第二轮PCR扩增的反应体系包括:2×Phanta Max Master Mix 25μl,DNA 1μl,16S-2-F 1μl,16S-2-R 1μl,H2O至22μl。
第二轮PCR扩增的反应程序为:95℃预变性3min,循环1次;95℃变性30sec,循环25次;58℃复性30sec,循环25次;72℃延伸30sec,循环25次;72℃后延伸5min,循环1次;4℃保持。
第二次扩增产物用0.9倍磁珠进行纯化,20μl TE溶液溶解。文库跑胶结果见图2,由胶图2结果可知:16S全长产物条带在1600bp左右,条带大小正确且条带单一。
(三)扩增产物用Tn5酶片段化
3.1配制Tn5酶片段化体系,包括DNA 10μl,TAGMENT DNA buffer 5μl,TAGMENTDNA enzyme 0.5μL,H2O 4.5μL。试剂来自illumina
3.2采用第三组引物序列对片段化后产物进行第一轮PCR扩增,其中,扩增试剂来自诺维赞公司。其中,第三组引物序列为:
16S-3-F1:GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCTCCACCCAGACTCATCCAT(SEDIQ NO:5)
16S-3-F2:GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGGGGGGCAAAGATGAAGAT(SEDIQ NO:6)
16S-3-R:TCGTCGGCAGCGTCAG(SED IQ NO:7)
第一轮PCR扩增反应体系包括:2×Phanta Max Master Mix 25μl,DNA 10μl,16S-3-R 1μl,16S-3-F 1μl,16S-3-F 2μl,H2O至12μl。
第一轮PCR扩增的反应程序为:95℃预变性5min,循环1次;95℃变性30sec,循环8次;58℃复性30sec,循环8次;72℃延伸1min,循环8次;72℃后延伸5min,循环1次;4℃保持。
第一轮扩增的产物采用0.9倍诺维赞磁珠进行纯化,20ul TE溶解。
3.3采用第四组引物序列对第一轮PCR扩增产物进行第二轮PCR扩增,其中,第四组引物序列为:
16S-P7-01:CAAGCAGAAGACGGCATACGAGATAGCAGGAAGTGACTGGAGTTCAGACGTG(SED IQNO:8)
16S-I5-01:AATGATACGGCGACCACCGAGATCTACACGAGCTGAATCGTCGGCAGCGTCAGAT(SEDIQ NO:9)
其中,上述引物序列中的下划线为index,不同的样本可以采用不同的index进行区分。
第二轮PCR扩增反应体系包括:2×Phanta Max Master Mix 25μl,DNA 2μl,16S-P7-01μl,16S-I5-01μl,1H2O至21μl。
第二轮PCR扩增的反应程序为:95℃预变性5min,循环1次;95℃变性30sec,循环8次;58℃复性30sec,循环8次;72℃延伸1min,循环8次;72℃后延伸5min,循环1次;4℃保持。
第二轮PCR扩增产物用0.9倍诺维赞磁珠纯化,20ul TE溶液溶解。拼接文库完成。标记为A-P,文库跑胶结果见图3。由胶图3结果可知,拼接文库在100-1500左右呈弥散状态,说明片段化比较均匀,符合预期。
(四)将步骤2.2中的最后扩增产物环化并构建连接文库(Link-tag library)
4.1采用T4 DNA连接酶(Thermo)完成步骤2.2中的最后扩增产物的环化连接。具体体系包括:T4 DNA连接酶1μl,T4 DNA连接酶buffer 2μl,DNA 2μl,H2O 15μL。将上述反应体系至于PCR仪上,16℃孵育1h,得到连接产物。
4.2采用第五组引物序列对上述连接产物进行第一轮PCR扩增,其中,第五组引物序列为:
16S-4-F:TCTACACTCTTTCCCTACACGACGCTCTTCCGATCTCTGAGCCAKGATCAAACTCTTAGATCGC(SED IQ NO:10)
16S-4-R:GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAAGTCGTAACAAGGTARCCGTACTAGTACG(SED IQ NO:11)
第一轮PCR扩增反应体系包括:2×Phanta Max Master Mix 25μl,连接产物10μl,16S-4-R 1μl,16S-4-F 1μl,H2O至13μl。
第一轮PCR扩增的反应程序为:95℃预变性3min,循环1次;95℃变性30sec,循环8次;58℃复性30sec,循环8次;72℃延伸1min,循环8次;72℃后延伸3min,循环1次;4℃保持。
第一轮扩增的产物采用0.9倍诺维赞磁珠进行纯化,20ul TE溶解。
4.3采用第六组引物序列对上步的第一轮PCR扩增产物进行第二轮PCR扩增,其中,第六组引物序列为:
16S-P7-01:CAAGCAGAAGACGGCATACGAGATAGCAGGAAGTGACTGGAGTTCAGACGTG(SED IQNO:12)
16S-P5-01:AATGATACGGCGACCACCGAGATCTACACAAACATCGACACTCTTTCCCTACACGAC(SED IQ NO:13)
下划线为index,不同的样本可以采用不同的index进行区分。
第二轮PCR扩增反应体系包括:2×Phanta Max Master Mix 25μl,DNA 1μl,16S-P7-01μl,16S-P5-01μl,1H2O至22μl。
第二轮PCR扩增的反应程序为:95℃预变性5min,循环1次;95℃变性30sec,循环8次;58℃复性30sec,循环8次;72℃延伸1min,循环8次;72℃后延伸5min,循环1次;4℃保持。
第二轮PCR扩增产物用0.9倍诺维赞磁珠纯化,20ul TE溶液溶解。连接文库完成,标记为A-L,文库跑胶结果见图4。由胶图4结果可知,连接文库在260bp左右且条带单一,符合预期。
(五)使用illumina测序仪测序
5.1采用illumina测序仪对连接文库A-L和拼接文库A-P进行双端测序,测序长度150bp,得到连接文库A-L和拼接文库A-P测序结果。
(六)测序结果生物信息技术处理分析
6.1连接文库A-L分析:使用cutadaptor在连接文库测序结果中识别成对的UMI组合,用于在拼接文库A-L中提取数据;
6.2拼接文库A-P分析:根据步骤6.1得到的成对的UMI组合,在拼接文库中提取每对UMI组合所包含的reads;
6.3序列组装:对于每对UMI组合所包含的reads使用SPAdes组装,得到一条全长的16S rDNA序列;
6.4序列注释:使用bowtie2将步骤(6.3)得到的16s rDNA全长序列与Silva数据库进行比对,进而统计样本的菌种丰度信息,结果见表1和图5。
表1样本A确定的细菌种类
实施例2
将四种已知菌种(Streptococcus_pneumoniae,Enterococcus_faecalis,Streptococcus_pyogenes,Streptococcus_agalactiae)的DNA样本按照1:1:1:1的菌群丰度混合,组成模拟样本(mock community),用本发明的16S-FAST技术检测样本菌群丰度保真性情况。结果如图6所示,从图6中结果可知:本发明的技术确定的菌群丰度的保真性很好,基本接近真实的比例。
实施例3
采用本发明的方法对样本的16S全长检测作为实验组,采用现有技术中V3V4区段测序检测方法作为对照组,比对二者的检测结果,如表2所示:
表2排名前20的属两种方法丰度情况
从表2和图7可知:两种方法确定的属的丰度相关性系数R2为:0.998,说明两种方法确定的属类别基本一致。但是16S-FAST全长技术能够将准确度从属提高到种,所以该方法优于传统的区段测序。
序列表
序列表
<110> 北京群峰纳源健康科技有限公司
<120> 一种检测细菌16S rDNA全长的建库测序方法
<130> 无
<170> PatentIn version 3.5
<210> 1
<211> 62
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(62)
<221> misc_feature
<222> (21)..(34)
<223> 根据实验要求而设计,作为扩增引物16S-1-F
<400> 1
ctccacccag actcatccat nnnnnnnnnn nnnngcgatc taagagtttg atcmtggctc 60
ag 62
<210> 2
<211> 64
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(64)
<221> misc_feature
<222> (21)..(34)
<223> 根据实验要求而设计,作为扩增引物16S-1-R
<400> 2
aggggggcaa agatgaagat nnnnnnnnnn nnnncgtact agtacggyta ccttgttacg 60
actt 64
<210> 3
<211> 20
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(20)
<223> 根据实验要求而设计,作为扩增引物16S-2-F
<400> 3
ctccacccag actcatccat 20
<210> 4
<211> 20
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(20)
<223> 根据实验要求而设计,作为扩增引物16S-2-R
<400> 4
aggggggcaa agatgaagat 20
<210> 5
<211> 54
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(54)
<223> 根据实验要求而设计,作为扩增引物16S-3-F1
<400> 5
gtgactggag ttcagacgtg tgctcttccg atctctccac ccagactcat ccat 54
<210> 6
<211> 54
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(54)
<223> 根据实验要求而设计,作为扩增引物16S-3-F2
<400> 6
gtgactggag ttcagacgtg tgctcttccg atctaggggg gcaaagatga agat 54
<210> 7
<211> 16
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(16)
<223> 根据实验要求而设计,作为扩增引物16S-3-R
<400> 7
tcgtcggcag cgtcag 16
<210> 8
<211> 52
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(52)
<223> 根据实验要求而设计,作为扩增引物16S-P7-01
<400> 8
caagcagaag acggcatacg agatagcagg aagtgactgg agttcagacg tg 52
<210> 9
<211> 55
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(55)
<223> 根据实验要求而设计,作为扩增引物16S-I5-01
<400> 9
aatgatacgg cgaccaccga gatctacacg agctgaatcg tcggcagcgt cagat 55
<210> 10
<211> 64
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(64)
<223> 根据实验要求而设计,作为扩增引物16S-4-F
<400> 10
tctacactct ttccctacac gacgctcttc cgatctctga gccakgatca aactcttaga 60
tcgc 64
<210> 11
<211> 64
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(64)
<223> 根据实验要求而设计,作为扩增引物16S-4-R
<400> 11
gtgactggag ttcagacgtg tgctcttccg atctaagtcg taacaaggta rccgtactag 60
tacg 64
<210> 12
<211> 52
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(52)
<223> 根据实验要求而设计,作为扩增引物16S-P7-01
<400> 12
caagcagaag acggcatacg agatagcagg aagtgactgg agttcagacg tg 52
<210> 13
<211> 57
<212> DNA
<213> 人工序列
<221> misc_feature
<222> (1)..(57)
<223> 根据实验要求而设计,作为扩增引物16S-P5-01
<400> 13
aatgatacgg cgaccaccga gatctacaca aacatcgaca ctctttccct acacgac 57