当前位置：首页 > 化学技术 > 组合技术> 一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法独创技术16326字

一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法

2021-03-09 03:52:04

一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法

　　技术领域：

　　本发明涉及遗传学和生物信息学技术领域，特别涉及一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法。

　　背景技术：

　　随着测序技术的发展和计算机技术在生物领域的广泛应用，各个物种DNA的全基因组测序也在扁平化进行，在生物医药领域和人类发展进化等方面带来了很大的帮助。Sanger测序方法能检测常见的三种细菌表观遗传学标记4-mC，5-mC和6-mA。第二代测序被广泛用于检测5-mC的丰度和动态调控。在第三代测序中，研究者发现聚合酶的动力学会受到DNA模板中修饰碱基的影响，将天然DNA与无修饰的对照模板进行比较，以聚合酶活性部位保持核苷酸结合的时间(脉冲宽度，PW)和核苷酸成功结合状态间的时间间隔(脉冲间隔时间，IPD)作为主要指标，可以检测含碱基修饰的模板是否改变了聚合酶的动力学特征。IPD可能受到两种因素的影响：新结合核苷酸的亲和力改变或者标记核苷酸编入引起的DNA移位速度改变。新结合核苷酸的亲和力改变对酶构象改变率的影响，和标记核苷酸编入引起的DNA移位速度改变对核苷酸编入循环的催化率的影响都会导致PW的改变，模板中的碱基修饰会扭曲活性位点的构象。由于SMRT测序实时监测每个核苷酸的编入情况，上述影响都能被该技术捕捉到。SMRT测序能对天然未扩增的DNA进行测序，可以直接检测DNA碱基修饰。由于SMRT测序的标准模板制备会形成一个闭合环状DNA分子，能对同一个碱基修饰进行多次研究，增加了检测的统计学效力。该技术还能在同一测序读段中对DNA分子的两条链进行测序，直接分析指定位点的正反义链修饰间可能存在的关系。因此，第三代测序可以直接检测出包括但不限于m4C、m6A、m5C、hm5C等多种碱基修饰。

　　表观遗传学(epigenetics)是研究基因的核苷酸序列不发生改变的情况下，基因表达的可遗传的变化的一门遗传学分支学科，通过碱基修饰的改变，导致基因表达水平的变化，这在肿瘤形成过程中越来越受到重视。在表观遗传学中，一个重要机制便是DNA甲基化，甲基化是最常见的一种DNA修饰，甲基化与转录抑制有关，甲基化基因处于转录抑制状态，非甲基化基因处于转录活跃状态。DNA甲基化为正常发育所必需，正常细胞中DNA甲基化的功能包括转座因子的沉默、病毒序列的失活、染色体完整性的维持、X染色体失活、基因组印记及大量基因的转录调节等。一些研究还发现随着个体年龄的不同，DNA甲基化水平存在差异，提示个体的发育和衰老过程与DNA甲基化相关。甲基化在胚胎发育、基因组印记、细胞分化与衰老及肿瘤形成等过程中有重要作用。甲基化DNA的分子结构、分布及CpG岛DNA甲基化通常是指胞嘧啶(C)5位碳原子的甲基化(m5C)，虽然也存在m6A、m7G、m4C等，但它们的生物学意义不是很清楚，是一种DNA复制后的酶促反应过程。在DNA序列的A、T、G、C中有些核酸中含有修饰碱基(或稀有碱基)，这些碱基大多是在上述嘌呤或嘧啶碱的不同部位甲基化(methylation)或进行其它的化学修饰而形成的衍生物。例如有些DNA分子中含有5-甲基胞嘧啶(m5C)、5-羟甲基胞嘧啶(hm5C)、4-甲基胞嘧啶(m4A)和6-甲基腺嘌呤(m6A)等，其中一些碱基修饰已经成为最常见的表观遗传标志。

　　肠道微生物菌群是机体最复杂、最庞大的微生态系统，其在药物代谢、营养及能量代谢、免疫系统、屏障保护、应激调节等方面有重要影响。大肠杆菌λ噬菌体基因组是长约49kb的线性双链DNA分子。λ噬菌体感染时，通过尾管将基因组DNA注入大肠杆菌，而将其蛋白质外壳留在菌外。鉴定出λ噬菌体基因组中的碱基修饰情况，可以在构建λ噬菌体载体中研究限制性酶切割λDNA中的效果，以及外源DNA连接在λDNA序列中的效率，在λ噬菌体基因组中有部分基因的表达与大肠杆菌密切相关，为此，研究这些基因的碱基修饰情况是十分必要的。

　　发明内容：

　　本发明的目的旨在提供一种利用SMRT测序技术检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法。

　　为达到上述目的，本发明采取以下技术方案：

　　一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法，该方法是先利用SMRT Portal数据分析平台，将大肠杆菌λ噬菌体基因组测序数据选择相应的Protocol协议进行数据分析，然后通过获得的包含大量碱基修饰信息的文件，利用perl语言编写代码找出经化学修饰的碱基完整信息，即包括m4C、m6A和其他碱基修饰的具体位点信息。

　　上述检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法，具体包括如下步骤：

　　1)准备培养大肠杆菌λ噬菌体所需的试剂，先进行λ噬菌体平板培养，然后进行λ噬菌体液体培养；

　　2)待λ噬菌体液体培养到一定丰度，进行λ噬菌体全基因组DNA的提取，再将提取的λ噬菌体全基因组DNA溶于TE缓冲液中，于-20℃条件下保存，备用；

　　3)将备用的λ噬菌体全基因组DNA进行建库后，使用1个SMRT Cell，PacBio RS II进行碱基修饰测序，得到大肠杆菌λ噬菌体基因组测序数据；

　　4)将上测序数据上传到SMRT Portal测序平台，并上传参考的λ噬菌体全基因组序列，选择相应的Protocol协议进行数据分析后，下载GFF和CSV文件获得每个碱基的分析数据，即GFF文件中包括所有409个被检测出来的碱基修饰信息；CSV文件中包括大肠杆菌λ噬菌体整个基因组的全部碱基48502bp的序列位置、碱基所在的链、碱基类型等信息；

　　5)将GFF和CSV文件中的碱基修饰信息进行整合，并利用perl语言编写代码找出文件里面的m4C、m6A和Modified_base的具体信息。

　　上述利用perl语言编写代码的具体过程是利用putty和ssh(Secure Shell)进行服务器登录和上传下载数据，利用Linux和vim命令管理自己在服务器中的数据，在Linux中安装perl语言执行包，完成编写perl语言代码。

　　上述将GFF和CSV文件中的碱基修饰信息进行整合的过程包括：

　　1)将GFF文件中有用的信息包括：碱基修饰的类型和未知的类型、碱基的序列位置、碱基所在的链、测序的覆盖度、所在的测序序列文本、碱基测序时的脉冲信息、碱基类型的可信度以及质量值，利用编写perl语言代码的过程将这些信息提取出来，然后把其余不需要的信息弃掉；

　　2)通过CSV文件中列出的碱基修饰信息，利用perl语言编写代码的过程根据GFF文件的碱基修饰在CSV文件中找出这种修饰的具体碱基类型，以及验证两个文件中描述同一位置的信息是否一致，将两个文件中描述同一碱基修饰的详细信息输出到同一个文件中，并将碱基修饰分类成m4C、m6A和Modified_base。

　　本发明的方法利用SMRT测序技术对大肠杆菌λ噬菌体全基因组的测序数据进行数据分析，获得含有大量碱基修饰信息的文件，通过利用perl语言编写代码的过程将含有大量碱基修饰信息的文件，利用生物信息学知识进行整合处理，最终找出m4C、m6A和其他碱基修饰的具体位点信息。因此，通过该方法鉴定出的大肠杆菌λ噬菌体基因组中的碱基修饰情况，能够为在构建λ噬菌体载体中研究限制性酶切割λDNA中的效果，外源DNA连接在λDNA序列中的效率，以及在λ噬菌体基因组中有部分基因的表达与大肠杆菌密切相关等方面进一步的研究，提供更多的实用信息，提高工作效率，具有很大的应用价值。

　　附图说明：

　　图1是本发明实施例1中在SMRT Portal数据分析平台中运行完测序数据之后的结果显示图；

　　图2是本发明实施例1中在SMRT Portal数据分析平台中Protocol协议运行之后碱基修饰的聚合酶动力学检测图。

　　具体实施方式：

　　下面结合附图对本发明一种检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法做进一步详细描述。本发明的实施例是为了更清楚的说明本发明的技术方案，以使公众对发明内容从整体上得到充分的理解，而非对本发明的保护范围的限定。

　　实施例1

　　本发明检测大肠杆菌λ噬菌体全基因组碱基修饰单倍型的方法，具体操作步骤如下：

　　1.准备培养大肠杆菌λ噬菌体所需的试剂：

　　1)制备细菌培养的LB液体培养基：用ddH2O将10g胰化蛋白胨、5g酵母提取物和10gNaCl完全溶解至1000ml，分装小瓶，并且15lbf/in2高压灭菌20min；

　　2)制备1.5％琼脂LB固体培养基：在300ml锥形瓶中放入1.5g琼脂粉，再加入100mlLB，并且进行15lbf/in2高压灭菌20min，等待稍冷却之后制备平皿；

　　3)制备20％麦芽糖：用ddH2O溶解20g麦芽糖至100ml，再用0.22μm滤膜进行过滤；

　　4)制备SM液：用ddH2O将5.8gNaCl、2gMgSO4·7H2O、50ml1M Tris·CL(PH7.5)和5ml2％明胶稀释至1000ml，再进行15lbf/in2高压灭菌20min；

　　5)RNase A 10mg/ml，TE配制，沸水浴15min，分装后贮存于-20℃；

　　6)DNase I 10mg/ml，TE配制，分装后贮存于-20℃；

　　7)其他的一些试剂：PEG(聚乙二醇)8000，10％SDS(十二烷基硫酸钠),0.5M EDTA pH8.0，苯酚/氯仿/异戊醇(25：24：1)，异丙醇，无水乙醇、70％乙醇。

　　2.λ噬菌体平板培养：

　　1)用SM液10倍梯度稀释λ噬菌体原种；

　　2)取0.1ml各梯度稀释离心到一消毒微量离心管中，加0.2ml新鲜培养的宿主菌，加麦芽糖(0.2％)，MgSO4(10mm)，37℃温育20min，使噬菌体颗粒吸附于细菌；

　　3)取熔化(47℃)3ml0.7％琼脂LB固体培养基与上述管混匀，立即倒入预备(2-4天)的含凝固1.5％琼脂LB固体培养基的平板内，轻轻晃动平板使均匀分布；

　　4)37℃培养6-8hr后，观察噬斑形成；

　　5)用剪去部分头部的吸头挖取单个噬斑到0.5ml的SM液中，加0.05ml氯仿，震荡。37℃温育10min；

　　6)重复步骤1)至4)，获得单个噬斑滴度。

　　3.λ噬菌体液体培养：

　　1)取2ml新鲜培养的宿主菌，离心，0.4ml LB培养基重悬，加λ噬菌体0.1ml(新鲜获得的单个噬斑，依滴度使之与宿主菌比约1/500-1000)；

　　2)加麦芽糖(0.2％)，MgSO4(10mM)，37℃温育20min，使噬菌体颗粒吸附于细菌；

　　3)加到100ml LB液体培养基中，加麦芽糖(0.2％)，MgSO4(10mM)，37℃摇震培养9-12hr后可见裂解发生；

　　4)加0.1ml氯仿，37℃继续摇震培养10-20min。

　　4.提取λ噬菌体全基因组DNA：

　　1)将上述裂解液转移至离心管，离心8000g×10min，去细菌碎片，取上清液；

　　2)加RNase A、DNaseI至1μg/ml，37℃温育30min；

　　3)加9.3g PEG 8000，5.8g NaCl，摇匀至溶解，冰浴1hr或4℃过夜；

　　4)4℃离心10000g×20min，去上清液；

　　5)加2ml SM液，充分洗溶管壁及沉淀，移到新微量离心管，加20μl10％SDS，20μl 0.5M EDTA，68℃15min；

　　6)加等体积苯酚/氯仿/异戊醇(25：24：1)，混匀，离心12000g×5min，取上层液到一新微量离心管，加等体积氯仿/异戊醇(24：1)，混匀，离心12000g×5min；

　　7)取上层液到一新微量离心管，加等体积异丙醇，混匀，-20℃1hr，4℃离心12000g×10min，去上清液；

　　8)1ml预冷的70％乙醇洗涤沉淀1-2次，4℃离心8000g×7min，弃上清，将沉淀室温下晾干；

　　9)沉淀溶于20μl TE，-20℃保存备用。

　　5.将备用的λ噬菌体全基因组DNA(未进行加工过的)使用Pacific Biosciences公司的Procedure and Checklist-20 kb Template Preparation Using BluePippinTM Size-Selection System进行建库，使用1个SMRT Cell，PacBio RS II进行碱基修饰测序，得到大肠杆菌λ噬菌体基因组测序数据。

　　如图1所示，SMRT Portal测序平台运行完测序数据之后的结果显示：在BASE MODIFICATION中下载碱基修饰的GFF和CSV文件，Number of Bases是指总共测了4622389个碱基，Number of Reads是指总共测了1640条序列，Mean Read Length是指每个序列的平均碱基个数是2818个，在可以看出Average Reference Consensus是100％，λ噬菌体基因组是有48502bp组成。

　　6.将测序数据上传到SMRT Portal测序平台，并上传参考的λ噬菌体全基因组序列，创建新的工作Greate New，在Protocol中选择“RS_Modification_and_Motif_Analysis.1”，在Reference栏中选择“lambda_NEB3011”，在Groups栏里面选择“all”，然后选择所上传的数据，进行保存“save”和开始“start”数据分析；

　　在SMRT Portal测序平台中的MONITOR JOBS中查看所要进行数据分析工作的详细进程，分析时间较长，不要“Stop”等待“Complete”；

　　在SMRT Portal测序平台中VIEW DATA中查看数据分析之后的文件和图表，在里面可以看到Modifications图表，是碱基合成的动力学检测图；可以在BASE MODIFICATIONS中下载GFF和CSV文件查看每个碱基的详细分析数据。

　　如图2所示，在SMRT Portal数据分析平台中“RS_Modification_and_Motif_Analysis.1”协议运行之后碱基修饰的聚合酶动力学检测图，每个经化学修饰的碱基质量值和所在文本序列的覆盖度。

　　7.将GFF和CSV文件中的碱基修饰信息进行整合，具体过程为：

　　具体地，GFF和CSV文件整合的代码如下：

　　8.利用perl语言编写代码，即利用putty和ssh(Secure Shell)进行服务器登录和上传下载数据，利用Linux和vim命令管理自己在服务器中的数据，在Linux中安装perl语言执行包，完成编写perl语言代码，最终找出文件里面的m4C、m6A和Modified_base的具体信息，如下：

　　1)找出来的大肠杆菌λ噬菌体全基因组中4-甲基胞嘧啶(m4C)的具体信息：

　　2)找出来的大肠杆菌λ噬菌体全基因组中6-甲基腺嘌呤(m6A)的具体信息：

　　3)找出来的大肠杆菌λ噬菌体全基因组中其他的一些碱基修饰的具体信息：

　　上述找出的具体信息中：

　　modification是指何种碱基修饰；

　　position是指这个碱基修饰在整个基因组48502bp的具体位置；

　　strand是指具体在DNA双链中的“-(1)”和“+(0)”中的哪条链；

　　coverage是指测序的覆盖度；

　　context是指这个碱基修饰具体所在的DNA序列文本；

　　IPDRatio是指在测序过程中这个碱基的脉冲间隔时间的大小；

　　frac是指这个位置的读长有m4C或m6A的可信度值；

　　fracLow是指95％置信区间的最低可信度值；