欢迎光临小豌豆知识网!
当前位置:首页 > 化学技术 > 组合技术> 一种长片段DNA文库长配对末端测序方法独创技术79644字

一种长片段DNA文库长配对末端测序方法

2021-02-06 23:02:41

一种长片段DNA文库长配对末端测序方法

  技术领域

  本发明属于全基因组测序技术领域,具体涉及一种长片段DNA文库长配对末端(paired-end)的测序方法,用来进行全基因组序列的组装、验证、多基因组比较以及结构变异位点鉴定等。

  背景技术

  DNA测序技术的发展有着丰富的历史,在短短的40多年中有着众多飞跃式的发展。从Sanger的电泳法测序技术,以高成本、低通量、长读长、高精度等特点打开生物测序的大门,到下一代测序技术(NGS,Next generation sequencing)大规模平行测序,以低成本、高通量、短读长、高精度等特点成为生物测序的中流砥柱,再到目前正引领新潮流的单分子实时合成测序,以高通量、超长读长、低精度等特点开创生物测序的新时代。

  在DNA测序技术发展的前25年,其主要目的是对部分或完整的基因组进行测序。事实上,1977年兴起的Sanger测序,包括第一个基因组(phiX174;5.4kb),基本上是手动组装的。如果DNA测序是随机的,那么任何大型基因组都可以通过片段间的重叠区组装。相反,如果不是随机的,混合的重复序列和技术的偏好性使得科学家们不可能单从kb大小级别的reads中获得高组装质量的大型基因组,还需要额外的“邻近信息”。

  对于人类基因组计划,这些额外的邻近信息包括:(1)遗传图谱:基于遗传多态性的系谱分离,在染色体范围内提供部分序列顺序的正交信息;(2)物理图谱:用限制性内切酶对大片段克隆进行“指纹图谱”识别重叠区,对跨越基因组的“平铺路径”进行排序;对每个克隆进行单独的鸟枪法(shotgun)测序和组装,从中分离出不同的重复拷贝,然后进行更深一步的排序和组装;(3)双端测序(Paired-end):Ansorge于1990年推出对一定长度的DNA片段进行双端测序的DNA测序方法,能有效连接两端序列。基于克隆的方法,跨越长度的范围可以从几个kb到几百个kb;序列覆盖度为8-10倍,结合邻近信息的资源,不仅可以进行基因组组装,而且能提高绝大多数基因组的质量,使碱基错误率仅为十万分之一。

  伴随着2005年NGS的到来,从头组装(de novo)组装的序列数量大大增加。看似灾难性的短序列和重复基因组也可以被基于de Brujin图谱(如,EULER和Velvet)的新组装算法所克服。尽管如此,当应用到大型基因组时或将其与人类基因组计划的基因组进行比较时,它们的平均质量仍然极低。除了NGS产生的序列读长较短之外,其质量低的主要原因应归咎于缺乏邻近的方法来补足NGS。虽然双端测序技术对NGS组装质量理论上有着出众的辅助作用,但其体外建库的方法还是更多地受到跨越距离的限制。最近几年新的补充测序技术的不断开发与完善,使短序列的利用越来越多。首先,如层级鸟枪法测序,在体外从子样品中获得高分子量的基因组片段。其次,如Hi-C(全基因组染色体构象捕获)和光学物理图谱,提供了可扩展的、有成本效益的染色体组装工具。最后,PacBio和ONT测序的读长已经上升至数百kb,现在其读长更受限于高分子量DNA的制备而不是测序本身。

  基因组文库是将某个物种的基因组DNA通过生物、化学或物理打断等不同的方式破碎成特定的大小,然后以载体为媒介导入到宿主中形成的集合,是进行分子克隆和基因组结构与功能特点研究的重要工具和材料。其中大片段基因组文库以其较大的外源DNA片段长度容纳能力而被广泛运用,如Fosmid文库(平均插入片段约40Kb)和BAC文库(平均插入片段约100Kb)等等,在图位克隆、物理图谱的构建、全基因组测序、比较基因组研究以及珍稀物种的基因组资源保护等用途中都发挥着重要的作用。

  如今,基因组文库与不同DNA测序技术结合应用的方法在生物测序领域已占据重要的一席之地。如利用BAC文库结合Sanger测序技术构建物理图谱、利用噬菌体(Fosmid)文库结合NGS测序技术辅助全基因组组装等。而其中尤以Paired-end末端测序技术应用最为广泛,Paired-end末端测序法的出现使基于NGS的全基因组测序序列组装质量及效率得到大大提升,利用长片段文库成对末端序列不仅使NGS测序得到的短读长序列得以更好地组装,还可以针对重复序列组装时,成对末端之间较长的间距可以跨过许多重复序列,从而使散在的、难以辨别顺序关系的Contigs之间得以正确排列,提升基因组的完整度。

  Paired-end末端测序技术其实一直伴随着测序技术的提升而不断改进。在Sanger测序技术上的Paired-end末端测序技术体现在依靠BAC文库末端序列构建的比较物理图谱制作和序列校正上。在这个策略中,利用BAC克隆的末端序列定位参考基因组的位置及序列信息,使散在的Contigs按原本基因组的顺序排列,从而提升基因组的组装完整度,验证基因组组装错误以及进行比较基因组研究。这种方法适用于所有测序平台的全基因组组装,且准确度最高。但是,这种传统的BAC末端测序方法也是最耗时耗力的,工序复杂、工作量大、通量太低且耗资不菲。为了降低成本以及随着NGS技术的普及,基于Fosmid文库的Paired-end技术应用也越来越广泛,甚至成为全基因组装中不可缺少的重要辅助工具,并且在鉴定结构变异位点上占有举足轻重的地位。虽然基于Fosmid文库的Paired-end技术以其低成本、技术简单及高通量等优点而被广泛应用,但是,其缺点也非常明显,NGS测序平台较短的读长使序列组装过程的计算量加大,完成序列组装仍面临不小困难,组装后的序列可能包含很多缺口并且难以填补,在没有参考序列的情况下很难将得到的scaffold定位到染色体上并确定它们之间的相对位置,特别是当基因组含有大量的重复序列或含有很大的基因家族以及大片段的重复时,这些缺点就更加突出,因此其精确性远远不如BAC末端序列。目前随着PacBio及Nanopore新测序平台的出现,其测序读长(平均读长约10kb,最高可达1Mb)远远高于Sanger测序平台和NGS测序平台所能达到的读长,正逐渐被广大生物科学家们认识和应用,并且其趋势越来越好,带领了一个新的测序时代的发展。

  发明内容

  本发明的目的在于克服现有技术的缺陷,主要是为改进传统Paired-end技术方法以适应新一代的测序潮流。本发明利用单分子测序平台的较长读长和较高的通量,再结合Fosmid及BAC文库的较长插入片段,改进传统Paired-end技术短读长的缺点以及传统BAC末端测序的耗时耗力的缺点,以简便高效的方法得到大量的、成对的、长读长的末端序列,利用这些末端序列不仅可以使基因组组装质量得到较大的提升,还可以纠正已有的参考基因组的错误组装以及鉴别物种基因组中的变异等等。

  本发明的技术方案如下所述:

  本发明公开了一种长片段DNA文库长配对末端测序方法,发明的步骤为,提取全基因组DNA构建大片段文库;通过大片段文库克隆混合池DNA构建长末端paired-end测序文库及克隆混合池,并提取长末端paired-end测序文库克隆混合池的DNA,去载体后进行测序,利用提取到的paired-end双末端序列经过去冗余后得到无歧义的长paired-end序列,用以辅助全基因组的拼装、评估已有基因组拼装的质量、鉴定结构变异位点等等。

  本发明的具体步骤包括:

  1、载体改造及制备;

  2、提取全基因组DNA,构建大片段文库及克隆混合池;

  3、提取大片段文库克隆混合池的DNA;

  4、对步骤3)中的大片段文库克隆混合池DNA构建长末端paired-end测序文库及克隆混合池;

  5、提取长末端paired-end测序文库克隆混合池的DNA,去载体后测序;

  6、提取paired-end末端序列并去冗余得到无歧义的长paired-end序列;

  7、辅助全基因组序列的组装,利用得到的无歧义的成对的长双末端序列信息连接全基因组组装后得到的序列重叠群,确定它们的方向和它们之间的相对位置,从而将这些重叠群的序列连接成整条染色体的序列,得到全基因组序列。

  其中,关于载体改造的具体步骤如下:

  针对pHZAUFOS4载体,将购自于Epicentre公司的pCC2FOS载体的LacZ移动到氯霉素抗性基因和复制起始点之间,并用稀有酶切位点如I-Scel代替Notl,且在载体骨架中另插入两个稀有酶切位点如I-Scel酶切位点,载体制备后,用于构建Fosmid/BAC文库,并且可以用稀有酶I-Scel酶切检测插入片段,同时使载体片段化,以利于后续测序文库的构建。

  具体流程为:

  (1)设计引物以SEQ ID NO:1所示的序列的起始载体pCC2FOS为模板进行聚合酶链式反应(PCR,Polymerase Chain Reaction)扩增获得包含登录号为EU140752的LacZ片段,并在两端引入I-Scel酶切位点,得到如SEQ ID NO:2所示的A片段;

  (2)用NotI完全酶切pCC2FOS回收pCC2FOS骨架;

  (3)pCC2FOS骨架自连,转化EPI300.-T1R E.coli;

  (4)挑选pCC2FOS骨架自连的转化子,提取转化子质粒;

  (5)以转化子质粒为模板,从登录号为EU140752的氯霉素和高拷贝复制起始点中间选择一个位置,设计引物,通过PCR扩增获得新的pCC2FOS骨架片段,该骨架片段的序列如SEQ ID NO:3所示的B片段所示;

  (6)将A片段和B片段连接,转化大肠杆菌;

  (7)对A片段和B片段重组子进行筛选;

  (8)对筛选的阳性重组子经测序确认,命名为pHZAUFOS2,其核苷酸序列如SEQ IDNO:4所示;

  (9)再次设计引物,以上步所得的阳性重组子pHZAUFOS2为模板,在载体功能元件之间分别引入两个I-Scel酶切位点,并使之间隔2kb左右;

  (10)再次设计引物进行四碱基核酸酶切酶如BfaI酶切位点的沉默;

  (11)对载体进行测序验证,命名为pHZAUFOS4,其核苷酸序列如SEQ ID NO:4所示。

  构建长末端paired-end测序文库,具体操作流程如下:

  1、大片段DNA文库混合池质粒DNA的打断:

  (1)采用物理剪切法如G-tube破碎法,具体步骤如下:

  1)提取大片段DNA文库混合池质粒DNA并测量浓度(约100ng/μl),按推荐体系150μl(约15μgDNA)进行G-tube物理剪切;

  2)利用5417R高速冷冻离心机(Eppendorf)离心,5000g,1min,正反各一次记为打断一次;

  3)以0、1、3、5、7、9次为梯度进行DNA随机片段化的条件摸索;

  4)各取20μl样品进行脉冲场电泳,并以Lambda DNA-Mono Cut Mix作为Marker标记进行筛选,0.5×TBE,14℃,0.5s~1.5s,120°,9V/cm,16h;

  5)选取片段集中在10kb-17Kb的条件进行大量打断。

  (2)采用四碱基酶如BfaI部分酶切的方法,具体步骤如下:

  1)取出几块保存于TE的plug,用无菌ddH2O冰上震荡洗涤1h;

  2)配制适宜的酶切Mixture体系(45μL),然后分装于1.5mL的离心管(每管45μL)中。每个酶切Mixture体系的配制如下:H2O(25μL);10×buffer(10μL);40mmol/L亚精胺(10μL);

  3)用刀片把plug平均切成2份,半块plug切碎后轻柔地转进装有Mixture的1.5mL离心管中,每1/2个plug体积约为50μL。浸泡着plug的体系置于冰上40min,其间不时轻弹;

  4)每个体系中加入5μL不同浓度的酶。BfaI酶的原始浓度为10U/μL,用1×BfaIbuffer来进行酶浓度梯度稀释。,采用未稀释的酶原液(浓度为10U/μL)作为完全酶切的对照和不加酶的体系作为空白对照。酶浓度梯度的设置可依情况而做调整;

  5)加入梯度酶之后,迅速混匀,然后将各个体系放置在冰上90min,然后转移到37℃水浴锅中,酶切适宜时间;

  6)酶切完成后,加入10μL 0.5mol/LEDTA(pH8.0),轻弹后冰上放置10min以终止酶切;

  7)脉冲场凝胶电泳检测酶切结果,电泳条件为:0.5×TBE,14℃,1s~50s,120°,6V/cm,18h;

  9)选择片段集中在10kb-17kb所对应的合适的酶浓度接和适宜的酶反应时间进行大量打断。

  2、电洗脱回收胶条中的混合池目的DNA,检测吸出液体中大片段DNA的浓度(若吸出体积太大,则用Amicon Ultra-0.5centrifugal filter devices进行浓缩);

  3、向50μL gDNA中加25U碱性磷酸酶(CIP,NEB),混匀后置于37℃恒温水浴锅内反应1h,然后向体系中再加25U CIP酶,混匀后置于55℃恒温水浴锅内反应1h。反应完成后用酚:氯仿法去除碱性磷酸酶纯化DNA。末端使用T4DNA Polymerase和klenow fragment进行修复,37℃反应60分钟,然后70℃高温10分钟,使酶变性失活。修复完成后用酚:氯仿法纯化浓缩DNA,并检测DNA的浓度;

  4、载体与插入片段摩尔数之比例为10:1是最佳的连接比例,其中Amp标签相当于载体0.5μg,相当于0.72pmol,15kb左右的插入片段0.75μg,相当于0.072pmol。考虑到是平端连接,采用10μL体系进行连接。16℃过夜,然后70℃10分钟,灭活连接酶。

  5、将连接产物电转化到TransforMaxTM EPI300TM Electrocompetent E.coli(Epicentre)商业感受态细胞中,并涂布100μL在固体培养基(含12.5μg/mL Cm,25μg/mLAmp,80μg/mL X-gal,100μg/mL IPTG)上,37℃过夜培养16h左右,统计蓝白斑的数量。挑取一定数量的白斑,接入2mL LB培养基(含12.5μg/mL Cm,25μg/mL Amp,1000×Copy ControlFosmid Auto Induction Solution),37℃摇床过夜培养16h左右。碱裂解法提取质粒,最后溶于50μL无菌水中。I-SceI酶切以检测插入片段大小,37℃酶切3-5h,65℃处理10min普通直流电泳检测。

  6、根据上一步检测的平均插入片段大小,空载率以及预转化的白斑数量来决定是否进行大量转化。若预转化的结果符合要求,将剩余的连接产物进行电转化并涂布,37℃培养。步骤与预转化一样。在超净工作台中,用烧热的镊子烫死蓝色的克隆,再用适量冰冻培养基(含有12.5μg/mL Cm,25μg/mL Amp,0.4mmol/L的MgCl2)刮取培养皿上的约5000克隆至50ml离心管中,-20℃保存。

  7、利用I-SceI酶切以去除载体,切胶电洗脱回收,并使用Amicon Ultra-0.5centrifugal filter devices浓缩补平加接头后上机测序。

  其中,关于paired-end末端测序数据的分析具体步骤如下:

  I原始数据经CCS(circular consensus sequencing)校正

  II CCS数据提取PESs(paired-end sequences)

  含有PESs的质粒经I-SceI酶切后得到的DNA片段左右两端含有载体带的一部分,完整的含有PESs的CCS序列应具有三个特征,其中VES1(Vector end sequence 1)为348bp,VES2为300bp,Amp-tag为1218bp。使用blastn(v2.7.1+)默认参数将CCS序列比对到上述三个特征上。blastn其输出格式为“-outfmt'6qseqid qlen sseqid slen qstart qendpident sstrand'”。应注意CCS比对到VES1和VES2时应同为正链比对,或者负链比对,并且当为正链比对时,VES1在CCS的左端,VES2在CCS的右端;同理,当为负链比对时,VES2在CCS的左端,VES1在CCS的右端。将满足上述特征的CCS序列提取出,得到PES序列。

  只保留双末端序列均大于50bp的PES,然后PES数据统计。

  III PESs比对到参考基因组

  IV sam文件分析

  sam文件中除去头部信息,第一列为序列号,第二列为二进制的FLAG标签,其二进制数第七位代表双端比对的第一段序列,第八位代表双端比对的第二段序列,第三位若为1则代表序列未比对到参考基因组。所以只需判断二进制数对应位上的数字是0或者1即可,其公式为”(N>>(B-1))&1”,其中N为二进制数,B为欲知的位。

  FLAG标签第十二位若为1则为嵌合比对(Chimeric alignment)。

  FLAG标签第九位若为1则为比对到了多个位点(Multiple mapping)。

  sam文件去除头部信息,第五列为比对质量得分(MAPQ),对于bwa软件而言,其MAPQ值在[0,60]之间,MAPQ值较低有可能是由于序列比对到了多个位点或者嵌合比对以及错配插入缺失过多导致。所以只保留MAPQ等于60的比对,使用samtools(v1.3.1)软件,参数为“samtools view-h-q 60”。

  双端的比对质量得分(MAPQ)均为60,并且原始sam文件(未经过MAPQ等于60过滤)FLAG标签第十二位均为0(不为嵌合比对),则视为无歧义的双端比对(Unambiguouslyplaced pairs)。

  对无歧义的双端比对结果分析,sam文件第九列为双端比对中另一端比对到的参考基因组染色体id,若为“=”则双端比对到了同一条染色体。

  对于PESs比对到参考基因组,PES1与PES2应同为正链比对或者负链比对,若比对到正链则PES1比对上的位置在PES2比对上的位置的左边,同理若比对到负链则PES2比对上的位置在PES1比对上的位置的左边。

  若PES1与PES2其中一个比对到正链,另一个比对到负链,则为倒转方向嵌合;若PES1与PES2满足比对到同一条链,但比对上的位置顺序不对,则为串联方向嵌合;若PES1与PES2比对到了不同的染色体,则为嵌合;若PES1与PES2满足比对到了同一条链,且比对上的位置顺序正确,但位置间隔大于100kb,则为嵌合。

  FLAG标签第五位若为1则为比对到了负链。

  sam文件第四列为序列比对到参考基因组位置的最左端坐标,并且参考基因组的第一个碱基坐标为1。PES1和PES2若同为正链比对,且位置顺序正确,那么片段长度为(pos2-pos1+length(PES2));若同为负链比对,且位置顺序正确,那么片段长度为(pos1-pos2+length(PES1))。所以满足上述条件,并且片段长度在20kb-50kb之间,即为正确的双末端PESs。

  V组装scaffolds序列。

  本发明的有益效果在于:

  (1)本发明对载体的改造使之可应用于Fosmid和BAC文库,利用机械打断或四碱基酶如BfaI(CTAG)部分酶切的方法可以构建不同长度的paired-end文库;

  (2)稀有酶切位点如I-SceI的引入不仅使大片段文库插入片段的检测相比于NotI更加直观有效,并且在后续paired-end测序样品的准备中能更有效的去除载体的污染;

  (3)本发明可以直接得到成对的间隔长距离的长末端,测序后可以得到单末端平均长度大于2.5kb且最长可达15kb的双末端,远远大于目前基于NGS所得到的平均长度小于200bp且最长不超过800bpd的paired-end末端,高达10倍;

  (4)本发明通过抗性基因如Amp基因来区分paired-end的左右两端序列,既可以避免因传统PCR扩增方法扩增长片段而引入碱基错误,也可以通过转化克隆利用氯霉素和氨苄青霉素双抗筛选阳性目标克隆;同时,这个标签还可以通过增加随机序列进行混样测序或分级测序等;

  (5)本发明可以一次性得到大量的长的成对的末端,大大节省了人力和物力,同时,在应用方面具有较大的优势。双末端之间的长跨度可以有效的跨过长的重复序列区域,有效的连接小的重叠群以及纠正错误拼装;而长末端也可以有效覆盖一些小的重复序列,在定位重叠群、鉴定小的结构变异位点上以及序列容错率上有更大的优势;不仅如此,末端序列越长,所需的测序深度越低,所需的成本越低。

  附图说明

  图1:本发明的技术流程图。

  图2:本发明中载体改造流程图。

  图3:本发明中改造后的载体质粒图谱。

  图4:本发明中双末端提取示意图。图中红色箭头表示载体带Eco72I到两端I-SceI酶切位点的序列;蓝色箭头为作为标签的氨苄青霉素基因序列。

  图5:本发明中左右末端长度分布图。

  图6:本发明中利用双端序列将contigs组装成scaffolds。A图中未出现交叉连接的contigs,每个contig在连接图中出度入度均为1(边界处除外),这种情况很容易判断contigs之间顺序;B图即为交叉连接的contigs,某些contigs的出度入度不等于1,这种情况通常是由短序列的contig引起,很难判断contigs之间顺序。

  具体实施方式

  对序列表的说明

  序列表SEQ ID NO:1是获得的起始载体pCC2FOS的核苷酸序列。序列长度为8181bp.。

  序列表SEQ ID NO:2是A片段核苷酸序列。序列长度为637bp。

  序列表SEQ ID NO:3是B片段核苷酸序列。序列长度为7544bp。

  序列表SEQ ID NO:4是中间质粒pHZAUFOS2的核苷酸序列。序列长度为8176bp。

  序列表SEQ ID NO:5是本发明实施例中构建的最终载体pHZAUFOS4的核苷酸序列。序列长度为8220bp。其中:在该序列的134-792位碱基为氯霉素基因;1727-2056位碱基是LacZ基因;2428-3042位碱基是oriV;1601,2253,4524,7593位是本发明的新增的四个I-SceI酶切位点;此载体上无BfaI酶切位点。

  为了更好地解释本发明,以下结合具体实施例进一步阐明本发明的主要内容,但本发明的内容不仅仅局限于以下实施例。

  实施例1

  现以酵母为例,说明本发明的实施方式。

  本实施例对酵母(Sccharomyces cerevisiae S288C)进行全基因组及长末端测序,该物种共16条染色体,全基因组序列约12Mb(注意,该实施例中的数据仅用于本发明实施过程的说明,不用作其它途径)。

  改造载体

  (1)设计引物以SEQ ID NO:1所示的序列的起始载体pCC2FOS为模板利用引物P1

  (lacZ-F):attaccctgttatccctaGTCGGGGCTGGCTTAACTAT,在pCC2FOS载体的位置41-59和P2

  (lacZ-R):attaccctgttatccctaTTCGCGTTGGCCGATTCATT,在pCC2FOS载体的位置658-677

  扩增获得包含登录号为EU140752的LacZ片段,并在两端引入I-Scel酶切位点,得到如SEQ ID NO:2所示的A片段,为637bp;

  (2)用NotI完全酶切pCC2FOS回收pCC2FOS骨架;

  (3)pCC2FOS骨架自连,转化EPI300.-T1R E.coli;

  (4)挑选pCC2FOS骨架自连的转化子,提取转化子质粒;

  (5)重新设计引物P3(bone-F):ATTCAAATCGTTTTCGTTACCGC,在pCC2FOS载体的位置2251-2273和P4(bone-R):ATGCCTTCAGGAACAATAGAAATCT,在pCC2FOS载体的位置2274-2298,以转化子质粒为模板,从登录号为EU140752的氯霉素和高拷贝复制起始点中间选择一个位置,设计引物,通过PCR扩增获得新的pCC2FOS骨架片段,得到如SEQ ID NO:3所示的B片段,为7544bp;

  (6)将A片段和B片段连接、转化大肠杆菌;

  (7)对A片段和B片段重组子进行筛选;

  (8)对筛选的阳性重组子进行测序确认,命名为pHZAUFOS2,其核苷酸序列如SEQID NO:4所示,长度为8176bp;

  (9)再次设计引物P3tagggataacagggtaatGCGCTGAGCGTAAGAGCTA和P4

  tagggataacagggtaatCACACCGAGGTTACTCCGTT,以阳性重组子pHZAUFOS2为模板,在载体功能元件之间分别引入两个I-Scel酶切位点,并使之间隔2kb左右;

  (10)再次设计引物进行四碱基核酸内切酶BfaI(四碱基序列为CTAG)在1064,1941,1956,1981,3224,4599,6754bp这7个位点的沉默;

  (11)对该载体进行测序验证,命名为pHZAUFOS4,其核苷酸序列如SEQ ID NO:4所示,长度为8220bp。

  构建噬菌体(Fosmid)文库及混合池

  利用冻融法对全基因组DNA进行物理打断,构建约15倍全基因组覆盖度的Fosmid文库,文库保存在12块384孔块中,共4608个Fosmid克隆;Fosmid克隆的平均插入片段大小为38kb,片段长度在20-50kb之间。

  将所有克隆混合构建成一个混合池。

  混合池DNA提取

  将挑取、保存于384孔板的Fosmid文库克隆按5000个克隆混合于一个混合池为标准进行混合池的构建。将每个混合池中的菌液按1:500体积比例接菌入200ml的LB培养基(Cm:12.5μg/ml)中,并以1000×Copy Control Fosmid Auto Induction Solution进行诱导,37℃,250rpm,震荡培养16-20h。质粒提取方法参照QIAGEN Large-constract Kit提取手册,质粒DNA浓度要求≥150ng/μl,总量要求≥100ug。

  构建Paired-end末端测序文库

  Ⅰ大片段DNA文库混合池质粒DNA的打断

  1、采用G-tube物理剪切法,具体步骤如下:

  1)将之前提取的质粒DNA测量浓度(约100ng/μl);

  2)按推荐体系150μl(约15μgDNA)进行G-tube物理剪切;

  3)5417R高速冷冻离心机(Eppendorf),5000g,1min,正反各一次记为打断一次;

  4)以0、1、3、5、7、9次为梯度进行DNA随机片段化得条件摸索;

  5)各取20μl样品进行脉冲场电泳,并以Lambda DNA-Mono Cut Mix作为Marker标记进行筛选,0.5×TBE,14℃,0.5s-1.5s,120°,9V/cm,16h;

  6)选取片段集中在10kb-17Kb的条件进行大量打断。

  II大片段DNA文库克隆混合池质粒DNA的大量打断和二次筛选

  1)根据部分打断的结果选取合适的方法(物理打断或部分酶切)、合适的条件进行大量破碎,并通过脉冲场电泳分离不同大小片段的DNA;

  2)选取含有适宜大小范围在10kb-17kb之间DNA片段的胶条,切下后再次进行脉冲场电泳,去除夹杂在其中的小片段以降低之后连接产生的嵌合体率。

  III电洗脱回收目的条带DNA

  1)在凝胶成像系统下观察10Kb-17Kb DNA片段的位置,胶块的旁边放一把尺子,根据尺子刻度读出目的片段所在的位置,切取该位置的中间凝胶,浸泡在1×TAE缓冲液中;

  2)剪取2段15cm长的透析袋,用灭菌的双蒸水和1×TAE将透析袋冲洗各3次,浸泡在1×TAE缓冲液中;

  3)将胶块平均分成两半,分别装入两个透析袋中,加入200μL灭菌的1×TAE,轻轻挤出气泡,透析袋的两头分别用夹子夹紧,放入电泳槽中,在4℃层析柜,电压125V,电泳3h,倒转电泳仪电极,反向电泳2min;

  4)取出透析膜管,取出透析袋,将透析袋外面周围的buffer吸干,打开一端的膜夹,用剪过的枪头分别吸出透析袋的液体;

  5)检测吸出液体中大片段DNA的浓度(若吸出体积太大,则用Amicon Ultra-0.5centrifugal filter devices进行浓缩)。

  IV目的DNA的脱磷

  向50μgDNA中加25U碱性磷酸酶(CIP,NEB),混匀后置于37℃恒温水浴锅内反应1h,然后向体系中再加25U CIP酶,混匀后置于55℃恒温水浴锅内反应1h。反应完成后用酚:氯仿法去除碱性磷酸酶纯化DNA。

  V目的DNA的末端修复

  末端修复使用T4DNA Polymerase和klenow fragment进行修复,整个体系只能修复≤5μg的DNA,若DNA总量>5μg,可以分多体系修复,37℃反应60分钟,然后70℃高温10分钟,使酶变性失活。修复完成后用酚:氯仿法纯化浓缩DNA,并检测DNA的浓度。

  VI目的DNA与Amp标签的连接

  1)磷酸化Amp标签的制备

  设计磷酸化引物以登录号为U03991的puc19载体为模板扩增Amp基因,使用高保真Taq酶进行平端扩增;或使用带有BfaI酶切位点的引物扩增1218bp的Amp基因并酶切产生BfaI末端的标签。PCR产物回收方法为胶回收方法,一为电洗脱DNA回收法,具体方法参照常规的因组DNA电洗脱回收法;二为常规的胶回收试剂盒DNA回收法。

  2)目的DNA与Amp标签的连接

  载体与插入片段摩尔数之比例为10:1是最佳的连接比例,其中Amp标签相当于载体0.5μg,相当于0.72pmol,15kb左右的插入片段0.75μg,相当于0.072pmol。平端连接,采用10μL体系进行连接;若为BfaI粘性末端连接,则可采用100μL大体系进行连接。16℃过夜,然后70℃10分钟,灭活连接酶。

  VII预转化、检测

  1)用剪去尖端的枪头吸取5μL连接产物加入到20μL TransforMaxTM EPI300TMElectrocompetent E.coli(Epicentre)商业感受态细胞中,混匀后加入转化杯中,尽量不要产生气泡。以325V电击后立即加入到500μL的SOC培养基中,37℃复苏1h后涂布100μL在固体培养基(含12.5μg/mL Cm,25μg/mL Amp,80μg/mL X-gal,100μg/mL IPTG)上,37℃过夜培养16h左右;

  2)统计蓝白斑的数量。如果蓝斑数不多,白斑数目可以达到2000/500μL,就在不同片段的平皿中挑取一定数量的白斑,接入2mL LB培养基(含12.5μg/mL Cm,25μg/mL Amp,1000×Copy Control Fosmid Auto Induction Solution),37℃摇床过夜培养16h左右;3)利用常规的碱裂解法提取质粒,最后溶于50μL无菌水中;

  4)I-SceI酶切以检测插入片段大小,I-SceI酶切体系(15μl)为:DNA(使用前稀释5倍,5μL);H2O(8.4μL);10×Buffer Tango(1.5μL);I-SceI(1U)。混匀体系,37℃酶切3-5h,65℃处理10min;

  5)普通直流电泳检测。

  VIII大量转化及混合池制备

  1)根据上一步检测的平均插入片段大小,空载率以及预转化的白斑数量来决定是否进行大量转化。若预转化的结果符合要求,将剩余的连接产物进行电转化并涂布,37℃培养。步骤与预转化一样。

  2)在超净工作台上,用烧热的镊子烫死蓝色的克隆,再用适量冰冻培养基(含有12.5μg/mL Cm,25μg/mL Amp,0.4mmol/L的MgCl2)刮取培养皿上的克隆至50ml离心管中,-20℃保存。

  Paired-end末端测序文库测序样品制备

  1、Paired-end末端测序文库质粒提取

  将Paired-end末端测序文库混合池接菌于200ml培养基(含12.5μg/mL Cm,25μg/mL Amp中,并以1000×Copy Control Fosmid Auto Induction Solution进行诱导。用碱裂解法提取质粒。

  2、Paired-end末端测序文库制备

  1)I-SceI酶切以去除载体,I-SceI酶切体系(150μl)为:DNA(5μg);H2O;10×Buffer Tango;I-SceI(10U)。混匀体系,37℃酶切3-5h,

  2)凝胶电泳分离

  3)切胶电洗脱回收

  4)使用Amicon Ultra-0.5centrifugal filter devices浓缩洗脱液,用超微量紫外分光光度计测量DNA浓度。

  混合池DNA测序

  利用PacBio Sequel平台对paired-end末端测序文库样品进行测序。最后得到8Gb的平均subread读长为5kb的测序数据,约667倍的基因组覆盖度。

  Paired-end末端测序数据分析

  对酿酒酵母(Saccharomyces cerevisiae)S288c文库的原始数据Subreads进行统计。使用SMRT Link Software(v5.1.0)中的ccs(v3.0.0)软件处理Subreads,参数为“ccs--polish--richQVs--numThreads 16--minPasses 2”。其中--minPasses设置为2意味着至少使用了两个全长Subreads产生CCS(Circular consensus sequencing)序列。然后进行CCS数据统计。

  完整的含有FESs(Fosmid end sequences)的CCS序列应具有三个特征,其中VES1(Vector end sequence 1)为348bp,VES2为300bp,Amp-tag为1218bp。使用blastn(v2.7.1+)默认参数将CCS序列比对到上述三个特征上。只保留双末端序列均大于50bp的FES,然后统计FES数据。

  实施例中共得到35510对FES,其左末端序列N50为3066bp,最短读长50bp,最长11925bp;右末端序列N50为3112bp,最短读长50bp,最长15528bp。

  模拟构建全基因组测序重叠群

  模拟得到测序深度分别为10×、20×、30×、40×、50×的酿酒酵母S288C菌株三代PacBio RS平台测序数据,利用软件PBSIM(v1.0.3)模拟数据生成。使用软件Canu(v1.7)对(1)中数据进行从头组装。调整组装得到的contigs排列顺序和方向,使用blastn(v2.7.1+)将contigs比对到酿酒酵母参考基因组序列上,提取每个contigs比对得分最高的比对结果,根据正负链比对与比对坐标起始位置进行排序。使用软件DNAdiff(v1.3)对组装得到的contigs与参考基因组比较进行验证评估,统计基因组覆盖度以及错误组装位点数,其中错误组装位点数是Relocations、Translocations、Inversions数目之和。使用NUCmer(v3.1)将调整排序后的contigs与参考基因组序列比对,然后使用mummerplot(v3.5)绘制dotplot图。使用软件SeqKit(v0.10.0)统计contigs组装结果各项指标。

  重叠群定位并序列组装

  将之前提取得到的FES序列比对到contigs上,利用minimap2(v2.11)软件进行比对,然后使用samtools(v1.3)去除掉低质量比对结果以及嵌合比对结果,保留双末端序列比对质量值均为60且无嵌合比对的结果,视为无歧义的比对。使用软件bamToBed(v2.27.0)将sam格式文件转为bed格式文件,得到比对坐标信息。分析sam格式文件提取正负链比对信息,sam文件第二列为二进制的FLAG标签,其二进制数第七位若为1代表双端比对的第一段序列,第八位若为1代表双端比对的第二段序列,第五位若为1代表序列比对到负链,判断二进制数某一位是否为1的公式如下:

  (N>>(B-1))&1

  式中:N为二进制数,B为欲知的位,>>为位运算符中右移动运算符,&为按位与运算符;

  根据正负链比对与比对坐标提取双端比对方向相同且双端比对坐标(5’端至5’端,3’端至3’端)间隔小于20bp的序列,考虑到测序不区分正负链,提取比对方向相反(FF与RR)且双端比对坐标(5’端至3’端,3’端至5’端)间隔小于20bp的序列,提取比对方向相同(FR与FR)且比对坐标(5’端至3’端,3’端至5’端)间隔小于20bp的序列,提取比对方向相同(RF与RF)且比对坐标(5’端至3’端,3’端至5’端)间隔小于20bp的序列,视为来自于一个克隆的多个双端序列。通过比对坐标计算来自于一个克隆的多个双端序列各自的总长,保留总长度最长的双端序列作为该克隆的双末端序列,即去除了同一个克隆的重复比对结果。将去重复后的比对结果转为TAB格式,使用软件SSPACE(v3.0)结合前述contigs利用TAB格式文件组装scaffolds,双端序列相对方向设置为FF,插入片段长度平均值设置为38000,插入片段长度最小允许错误比例为0.3。调整组装得到的scaffolds排列顺序和方向,使用blastn(v2.7.1+)将scaffolds比对到酿酒酵母参考基因组序列上,根据正负链比对与比对坐标进行排序。使用软件DNAdiff(v1.3)对组装得到的scaffolds与参考基因组比较进行验证评估,统计基因组覆盖度以及错误组装位点数,其中错误组装位点数是Relocations、Translocations、Inversions数目之和。

  使用PacBio测序深度20×,Fosmid文库物理深度10×双端序列的组装结果与酿酒酵母参考基因组做全基因组比对。发现除了7号染色体没有组装完整,由3个scaffolds组成,其余染色体组装完整,均由1个scaffold覆盖。使用三代测序深度30×,Fosmid文库物理深度20×双端序列的组装结果与参考基因组做全基因组比对,可见酿酒酵母16条染色体及线粒体基因组均被组装完整。实施例中使用真实10倍物理覆盖度的Fosmid文库克隆末端于30倍PacBio测序深度组装出来的全基因组scaffolds为29个,scaffold N50为802。

  序列表

  <110>华中农业大学

  <120>一种长片段DNA文库长配对末端测序方法

  <141>2019-06-18

  <160>5

  <170>SIPOSequenceListing 1.0

  <210>1

  <211>8181

  <212>DNA

  <213>大肠杆菌(Escherichia coli)

  <220>

  <221>gene

  <222>(1)..(8181)

  <400>1

  gcggccgcaa ggggttcgcg tcagcgggtg ttggcgggtg tcggggctgg cttaactatg60

  cggcatcaga gcagattgta ctgagagtgc accatatgcg gtgtgaaata ccgcacagat 120

  gcgtaaggag aaaataccgc atcaggcgcc attcgccatt cagctgcgca actgttggga 180

  agggcgatcg gtgcgggcct cttcgctatt acgccagctg gcgaaagggg gatgtgctgc 240

  aaggcgatta agttgggtaa cgccagggtt ttcccagtca cgacgttgta aaacgacggc 300

  cagtgaattg taatacgact cactataggg cgaattcgag ctcggtaccc ggggatccca 360

  cgtacaacga cacctagacc acgtgttcct aggctgtttc ctggtgggat cctctagagt 420

  cgacctgcag gcatgcaagc ttgagtattc tatagtctca cctaaatagc ttggcgtaat 480

  catggtcata gctgtttcct gtgtgaaatt gttatccgct cacaattcca cacaacatac 540

  gagccggaag cataaagtgt aaagcctggg gtgcctaatg agtgagctaa ctcacattaa 600

  ttgcgttgcg ctcactgccc gctttccagt cgggaaacct gtcgtgccag ctgcattaat 660

  gaatcggcca acgcgaaccc cttgcggccg cccgggccgt cgaccaattc tcatgtttga 720

  cagcttatca tcgaatttct gccattcatc cgcttattat cacttattca ggcgtagcaa 780

  ccaggcgttt aagggcacca ataactgcct taaaaaaatt acgccccgcc ctgccactca 840

  tcgcagtact gttgtaattc attaagcatt ctgccgacat ggaagccatc acaaacggca 900

  tgatgaacct gaatcgccag cggcatcagc accttgtcgc cttgcgtata atatttgccc 960

  atggtgaaaa cgggggcgaa gaagttgtcc atattggcca cgtttaaatc aaaactggtg1020

  aaactcaccc agggattggc tgagacgaaa aacatattct caataaaccc tttagggaaa1080

  taggccaggt tttcaccgta acacgccaca tcttgcgaat atatgtgtag aaactgccgg1140

  aaatcgtcgt ggtattcact ccagagcgat gaaaacgttt cagtttgctc atggaaaacg1200

  gtgtaacaag ggtgaacact atcccatatc accagctcac cgtctttcat tgccatacga1260

  aattccggat gagcattcat caggcgggca agaatgtgaa taaaggccgg ataaaacttg1320

  tgcttatttt tctttacggt ctttaaaaag gccgtaatat ccagctgaac ggtctggtta1380

  taggtacatt gagcaactga ctgaaatgcc tcaaaatgtt ctttacgatg ccattgggat1440

  atatcaacgg tggtatatcc agtgattttt ttctccattt tagcttcctt agctcctgaa1500

  aatctcgata actcaaaaaa tacgcccggt agtgatctta tttcattatg gtgaaagttg1560

  gaacctctta cgtgccgatc aacgtctcat tttcgccaaa agttggccca gggcttcccg1620

  gtatcaacag ggacaccagg atttatttat tctgcgaagt gatcttccgt cacaggtatt1680

  tattcgcgat aagctcatgg agcggcgtaa ccgtcgcaca ggaaggacag agaaagcgcg1740

  gatctgggaa gtgacggaca gaacggtcag gacctggatt ggggaggcgg ttgccgccgc1800

  tgctgctgac ggtgtgacgt tctctgttcc ggtcacacca catacgttcc gccattccta1860

  tgcgatgcac atgctgtatg ccggtatacc gctgaaagtt ctgcaaagcc tgatgggaca1920

  taagtccatc agttcaacgg aagtctacac gaaggttttt gcgctggatg tggctgcccg1980

  gcaccgggtg cagtttgcga tgccggagtc tgatgcggtt gcgatgctga aacaattatc2040

  ctgagaataa atgccttggc ctttatatgg aaatgtggaa ctgagtggat atgctgtttt2100

  tgtctgttaa acagagaagc tggctgttat ccactgagaa gcgaacgaaa cagtcgggaa2160

  aatctcccat tatcgtagag atccgcatta ttaatctcag gagcctgtgt agcgtttata2220

  ggaagtagtg ttctgtcatg atgcctgcaa gcggtaacga aaacgatttg aatatgcctt2280

  caggaacaat agaaatcttc gtgcggtgtt acgttgaagt ggagcggatt atgtcagcaa2340

  tggacagaac aacctaatga acacagaacc atgatgtggt ctgtcctttt acagccagta2400

  gtgctcgccg cagtcgagcg acagggcgaa gccctcggct ggttgccctc gccgctgggc2460

  tggcggccgt ctatggccct gcaaacgcgc cagaaacgcc gtcgaagccg tgtgcgagac2520

  accgcggccg gccgccggcg ttgtggatac ctcgcggaaa acttggccct cactgacaga2580

  tgaggggcgg acgttgacac ttgaggggcc gactcacccg gcgcggcgtt gacagatgag2640

  gggcaggctc gatttcggcc ggcgacgtgg agctggccag cctcgcaaat cggcgaaaac2700

  gcctgatttt acgcgagttt cccacagatg atgtggacaa gcctggggat aagtgccctg2760

  cggtattgac acttgagggg cgcgactact gacagatgag gggcgcgatc cttgacactt2820

  gaggggcaga gtgctgacag atgaggggcg cacctattga catttgaggg gctgtccaca2880

  ggcagaaaat ccagcatttg caagggtttc cgcccgtttt tcggccaccg ctaacctgtc2940

  ttttaacctg cttttaaacc aatatttata aaccttgttt ttaaccaggg ctgcgccctg3000

  tgcgcgtgac cgcgcacgcc gaaggggggt gccccccctt ctcgaaccct cccggtcgag3060

  tgagcgagga agcaccaggg aacagcactt atatattctg cttacacacg atgcctgaaa3120

  aaacttccct tggggttatc cacttatcca cggggatatt tttataatta ttttttttat3180

  agtttttaga tcttcttttt tagagcgcct tgtaggcctt tatccatgct ggttctagag3240

  aaggtgttgt gacaaattgc cctttcagtg tgacaaatca ccctcaaatg acagtcctgt3300

  ctgtgacaaa ttgcccttaa ccctgtgaca aattgccctc agaagaagct gttttttcac3360

  aaagttatcc ctgcttattg actctttttt atttagtgtg acaatctaaa aacttgtcac3420

  acttcacatg gatctgtcat ggcggaaaca gcggttatca atcacaagaa acgtaaaaat3480

  agcccgcgaa tcgtccagtc aaacgacctc actgaggcgg catatagtct ctcccgggat3540

  caaaaacgta tgctgtatct gttcgttgac cagatcagaa aatctgatgg caccctacag3600

  gaacatgacg gtatctgcga gatccatgtt gctaaatatg ctgaaatatt cggattgacc3660

  tctgcggaag ccagtaagga tatacggcag gcattgaaga gtttcgcggg gaaggaagtg3720

  gttttttatc gccctgaaga ggatgccggc gatgaaaaag gctatgaatc ttttccttgg3780

  tttatcaaac gtgcgcacag tccatccaga gggctttaca gtgtacatat caacccatat3840

  ctcattccct tctttatcgg gttacagaac cggtttacgc agtttcggct tagtgaaaca3900

  aaagaaatca ccaatccgta tgccatgcgt ttatacgaat ccctgtgtca gtatcgtaag3960

  ccggatggct caggcatcgt ctctctgaaa atcgactgga tcatagagcg ttaccagctg4020

  cctcaaagtt accagcgtat gcctgacttc cgccgccgct tcctgcaggt ctgtgttaat4080

  gagatcaaca gcagaactcc aatgcgcctc tcatacattg agaaaaagaa aggccgccag4140

  acgactcata tcgtattttc cttccgcgat atcacttcca tgacgacagg atagtctgag4200

  ggttatctgt cacagatttg agggtggttc gtcacatttg ttctgaccta ctgagggtaa4260

  tttgtcacag ttttgctgtt tccttcagcc tgcatggatt ttctcatact ttttgaactg4320

  taatttttaa ggaagccaaa tttgagggca gtttgtcaca gttgatttcc ttctctttcc4380

  cttcgtcatg tgacctgata tcgggggtta gttcgtcatc attgatgagg gttgattatc4440

  acagtttatt actctgaatt ggctatccgc gtgtgtacct ctacctggag tttttcccac4500

  ggtggatatt tcttcttgcg ctgagcgtaa gagctatctg acagaacagt tcttctttgc4560

  ttcctcgcca gttcgctcgc tatgctcggt tacacggctg cggcgagcgc tagtgataat4620

  aagtgactga ggtatgtgct cttcttatct ccttttgtag tgttgctctt attttaaaca4680

  actttgcggt tttttgatga ctttgcgatt ttgttgttgc tttgcagtaa attgcaagat4740

  ttaataaaaa aacgcaaagc aatgattaaa ggatgttcag aatgaaactc atggaaacac4800

  ttaaccagtg cataaacgct ggtcatgaaa tgacgaaggc tatcgccatt gcacagttta4860

  atgatgacag cccggaagcg aggaaaataa cccggcgctg gagaataggt gaagcagcgg4920

  atttagttgg ggtttcttct caggctatca gagatgccga gaaagcaggg cgactaccgc4980

  acccggatat ggaaattcga ggacgggttg agcaacgtgt tggttataca attgaacaaa5040

  ttaatcatat gcgtgatgtg tttggtacgc gattgcgacg tgctgaagac gtatttccac5100

  cggtgatcgg ggttgctgcc cataaaggtg gcgtttacaa aacctcagtt tctgttcatc5160

  ttgctcagga tctggctctg aaggggctac gtgttttgct cgtggaaggt aacgaccccc5220

  agggaacagc ctcaatgtat cacggatggg taccagatct tcatattcat gcagaagaca5280

  ctctcctgcc tttctatctt ggggaaaagg acgatgtcac ttatgcaata aagcccactt5340

  gctggccggg gcttgacatt attccttcct gtctggctct gcaccgtatt gaaactgagt5400

  taatgggcaa atttgatgaa ggtaaactgc ccaccgatcc acacctgatg ctccgactgg5460

  ccattgaaac tgttgctcat gactatgatg tcatagttat tgacagcgcg cctaacctgg5520

  gtatcggcac gattaatgtc gtatgtgctg ctgatgtgct gattgttccc acgcctgctg5580

  agttgtttga ctacacctcc gcactgcagt ttttcgatat gcttcgtgat ctgctcaaga5640

  acgttgatct taaagggttc gagcctgatg tacgtatttt gcttaccaaa tacagcaata5700

  gtaatggctc tcagtccccg tggatggagg agcaaattcg ggatgcctgg ggaagcatgg5760

  ttctaaaaaa tgttgtacgt gaaacggatg aagttggtaa aggtcagatc cggatgagaa5820

  ctgtttttga acaggccatt gatcaacgct cttcaactgg tgcctggaga aatgctcttt5880

  ctatttggga acctgtctgc aatgaaattt tcgatcgtct gattaaacca cgctgggaga5940

  ttagataatg aagcgtgcgc ctgttattcc aaaacatacg ctcaatactc aaccggttga6000

  agatacttcg ttatcgacac cagctgcccc gatggtggat tcgttaattg cgcgcgtagg6060

  agtaatggct cgcggtaatg ccattacttt gcctgtatgt ggtcgggatg tgaagtttac6120

  tcttgaagtg ctccggggtg atagtgttga gaagacctct cgggtatggt caggtaatga6180

  acgtgaccag gagctgctta ctgaggacgc actggatgat ctcatccctt cttttctact6240

  gactggtcaa cagacaccgg cgttcggtcg aagagtatct ggtgtcatag aaattgccga6300

  tgggagtcgc cgtcgtaaag ctgctgcact taccgaaagt gattatcgtg ttctggttgg6360

  cgagctggat gatgagcaga tggctgcatt atccagattg ggtaacgatt atcgcccaac6420

  aagtgcttat gaacgtggtc agcgttatgc aagccgattg cagaatgaat ttgctggaaa6480

  tatttctgcg ctggctgatg cggaaaatat ttcacgtaag attattaccc gctgtatcaa6540

  caccgccaaa ttgcctaaat cagttgttgc tcttttttct caccccggtg aactatctgc6600

  ccggtcaggt gatgcacttc aaaaagcctt tacagataaa gaggaattac ttaagcagca6660

  ggcatctaac cttcatgagc agaaaaaagc tggggtgata tttgaagctg aagaagttat6720

  cactctttta acttctgtgc ttaaaacgtc atctgcatca agaactagtt taagctcacg6780

  acatcagttt gctcctggag cgacagtatt gtataagggc gataaaatgg tgcttaacct6840

  ggacaggtct cgtgttccaa ctgagtgtat agagaaaatt gaggccattc ttaaggaact6900

  tgaaaagcca gcaccctgat gcgaccacgt tttagtctac gtttatctgt ctttacttaa6960

  tgtcctttgt tacaggccag aaagcataac tggcctgaat attctctctg ggcccactgt7020

  tccacttgta tcgtcggtct gataatcaga ctgggaccac ggtcccactc gtatcgtcgg7080

  tctgattatt agtctgggac cacggtccca ctcgtatcgt cggtctgatt attagtctgg7140

  gaccacggtc ccactcgtat cgtcggtctg ataatcagac tgggaccacg gtcccactcg7200

  tatcgtcggt ctgattatta gtctgggacc atggtcccac tcgtatcgtc ggtctgatta7260

  ttagtctggg accacggtcc cactcgtatc gtcggtctga ttattagtct ggaaccacgg7320

  tcccactcgt atcgtcggtc tgattattag tctgggacca cggtcccact cgtatcgtcg7380

  gtctgattat tagtctggga ccacgatccc actcgtgttg tcggtctgat tatcggtctg7440

  ggaccacggt cccacttgta ttgtcgatca gactatcagc gtgagactac gattccatca7500

  atgcctgtca agggcaagta ttgacatgtc gtcgtaacct gtagaacgga gtaacctcgg7560

  tgtgcggttg tatgcctgct gtggattgct gctgtgtcct gcttatccac aacattttgc7620

  gcacggttat gtggacaaaa tacctggtta cccaggccgt gccggcacgt taaccgggct7680

  gcatccgatg caagtgtgtc gctgtcgacg agctcgcgag ctcggacatg aggttgcccc7740

  gtattcagtg tcgctgattt gtattgtctg aagttgtttt tacgttaagt tgatgcagat7800

  caattaatac gatacctgcg tcataattga ttatttgacg tggtttgatg gcctccacgc7860

  acgttgtgat atgtagatga taatcattat cactttacgg gtcctttccg gtgatccgac7920

  aggttacggg gcggcgacct cgcgggtttt cgctatttat gaaaattttc cggtttaagg7980

  cgtttccgtt cttcttcgtc ataacttaat gtttttattt aaaataccct ctgaaaagaa8040

  aggaaacgac aggtgctgaa agcgagcttt ttggcctctg tcgtttcctt tctctgtttt8100

  tgtccgtgga atgaacaatg gaagtccgag ctcatcgcta ataacttcgt atagcataca8160

  ttatacgaag ttatattcga t8181

  <210>2

  <211>637

  <212>DNA

  <213>β一半乳糖苷酶(Beta-half lactosinase)

  <220>

  <221>gene

  <222>(1)..(637)

  <400>2

  gtcggggctg gcttaactat gcggcatcag agcagattgt actgagagtg caccatatgc60

  ggtgtgaaat accgcacaga tgcgtaagga gaaaataccg catcaggcgc cattcgccat 120

  tcagctgcgc aactgttggg aagggcgatc ggtgcgggcc tcttcgctat tacgccagct 180

  ggcgaaaggg ggatgtgctg caaggcgatt aagttgggta acgccagggt tttcccagtc 240

  acgacgttgt aaaacgacgg ccagtgaatt gtaatacgac tcactatagg gcgaattcga 300

  gctcggtacc cggggatccc acgtacaacg acacctagac cacgtgttcc taggctgttt 360

  cctggtggga tcctctagag tcgacctgca ggcatgcaag cttgagtatt ctatagtctc 420

  acctaaatag cttggcgtaa tcatggtcat agctgtttcc tgtgtgaaat tgttatccgc 480

  tcacaattcc acacaacata cgagccggaa gcataaagtg taaagcctgg ggtgcctaat 540

  gagtgagcta actcacatta attgcgttgc gctcactgcc cgctttccag tcgggaaacc 600

  tgtcgtgcca gctgcattaa tgaatcggcc aacgcga637

  <210>3

  <211>7554

  <212>DNA

  <213>大肠杆菌(Escherichia coli)

  <220>

  <221>gene

  <222>(1)..(7554)

  <400>3

  atgccttcag gaacaataga aatcttcgtg cggtgttacg ttgaagtgga gcggattatg60

  tcagcaatgg acagaacaac ctaatgaaca cagaaccatg atgtggtctg tccttttaca 120

  gccagtagtg ctcgccgcag tcgagcgaca gggcgaagcc ctcggctggt tgccctcgcc 180

  gctgggctgg cggccgtcta tggccctgca aacgcgccag aaacgccgtc gaagccgtgt 240

  gcgagacacc gcggccggcc gccggcgttg tggatacctc gcggaaaact tggccctcac 300

  tgacagatga ggggcggacg ttgacacttg aggggccgac tcacccggcg cggcgttgac 360

  agatgagggg caggctcgat ttcggccggc gacgtggagc tggccagcct cgcaaatcgg 420

  cgaaaacgcc tgattttacg cgagtttccc acagatgatg tggacaagcc tggggataag 480

  tgccctgcgg tattgacact tgaggggcgc gactactgac agatgagggg cgcgatcctt 540

  gacacttgag gggcagagtg ctgacagatg aggggcgcac ctattgacat ttgaggggct 600

  gtccacaggc agaaaatcca gcatttgcaa gggtttccgc ccgtttttcg gccaccgcta 660

  acctgtcttt taacctgctt ttaaaccaat atttataaac cttgttttta accagggctg 720

  cgccctgtgc gcgtgaccgc gcacgccgaa ggggggtgcc cccccttctc gaaccctccc 780

  ggtcgagtga gcgaggaagc accagggaac agcacttata tattctgctt acacacgatg 840

  cctgaaaaaa cttcccttgg ggttatccac ttatccacgg ggatattttt ataattattt 900

  tttttatagt ttttagatct tcttttttag agcgccttgt aggcctttat ccatgctggt 960

  tctagagaag gtgttgtgac aaattgccct ttcagtgtga caaatcaccc tcaaatgaca1020

  gtcctgtctg tgacaaattg cccttaaccc tgtgacaaat tgccctcaga agaagctgtt1080

  ttttcacaaa gttatccctg cttattgact cttttttatt tagtgtgaca atctaaaaac1140

  ttgtcacact tcacatggat ctgtcatggc ggaaacagcg gttatcaatc acaagaaacg1200

  taaaaatagc ccgcgaatcg tccagtcaaa cgacctcact gaggcggcat atagtctctc1260

  ccgggatcaa aaacgtatgc tgtatctgtt cgttgaccag atcagaaaat ctgatggcac1320

  cctacaggaa catgacggta tctgcgagat ccatgttgct aaatatgctg aaatattcgg1380

  attgacctct gcggaagcca gtaaggatat acggcaggca ttgaagagtt tcgcggggaa1440

  ggaagtggtt ttttatcgcc ctgaagagga tgccggcgat gaaaaaggct atgaatcttt1500

  tccttggttt atcaaacgtg cgcacagtcc atccagaggg ctttacagtg tacatatcaa1560

  cccatatctc attcccttct ttatcgggtt acagaaccgg tttacgcagt ttcggcttag1620

  tgaaacaaaa gaaatcacca atccgtatgc catgcgttta tacgaatccc tgtgtcagta1680

  tcgtaagccg gatggctcag gcatcgtctc tctgaaaatc gactggatca tagagcgtta1740

  ccagctgcct caaagttacc agcgtatgcc tgacttccgc cgccgcttcc tgcaggtctg1800

  tgttaatgag atcaacagca gaactccaat gcgcctctca tacattgaga aaaagaaagg1860

  ccgccagacg actcatatcg tattttcctt ccgcgatatc acttccatga cgacaggata1920

  gtctgagggt tatctgtcac agatttgagg gtggttcgtc acatttgttc tgacctactg1980

  agggtaattt gtcacagttt tgctgtttcc ttcagcctgc atggattttc tcatactttt2040

  tgaactgtaa tttttaagga agccaaattt gagggcagtt tgtcacagtt gatttccttc2100

  tctttccctt cgtcatgtga cctgatatcg ggggttagtt cgtcatcatt gatgagggtt2160

  gattatcaca gtttattact ctgaattggc tatccgcgtg tgtacctcta cctggagttt2220

  ttcccacggt ggatatttct tcttgcgctg agcgtaagag ctatctgaca gaacagttct2280

  tctttgcttc ctcgccagtt cgctcgctat gctcggttac acggctgcgg cgagcgctag2340

  tgataataag tgactgaggt atgtgctctt cttatctcct tttgtagtgt tgctcttatt2400

  ttaaacaact ttgcggtttt ttgatgactt tgcgattttg ttgttgcttt gcagtaaatt2460

  gcaagattta ataaaaaaac gcaaagcaat gattaaagga tgttcagaat gaaactcatg2520

  gaaacactta accagtgcat aaacgctggt catgaaatga cgaaggctat cgccattgca2580

  cagtttaatg atgacagccc ggaagcgagg aaaataaccc ggcgctggag aataggtgaa2640

  gcagcggatt tagttggggt ttcttctcag gctatcagag atgccgagaa agcagggcga2700

  ctaccgcacc cggatatgga aattcgagga cgggttgagc aacgtgttgg ttatacaatt2760

  gaacaaatta atcatatgcg tgatgtgttt ggtacgcgat tgcgacgtgc tgaagacgta2820

  tttccaccgg tgatcggggt tgctgcccat aaaggtggcg tttacaaaac ctcagtttct2880

  gttcatcttg ctcaggatct ggctctgaag gggctacgtg ttttgctcgt ggaaggtaac2940

  gacccccagg gaacagcctc aatgtatcac ggatgggtac cagatcttca tattcatgca3000

  gaagacactc tcctgccttt ctatcttggg gaaaaggacg atgtcactta tgcaataaag3060

  cccacttgct ggccggggct tgacattatt ccttcctgtc tggctctgca ccgtattgaa3120

  actgagttaa tgggcaaatt tgatgaaggt aaactgccca ccgatccaca cctgatgctc3180

  cgactggcca ttgaaactgt tgctcatgac tatgatgtca tagttattga cagcgcgcct3240

  aacctgggta tcggcacgat taatgtcgta tgtgctgctg atgtgctgat tgttcccacg3300

  cctgctgagt tgtttgacta cacctccgca ctgcagtttt tcgatatgct tcgtgatctg3360

  ctcaagaacg ttgatcttaa agggttcgag cctgatgtac gtattttgct taccaaatac3420

  agcaatagta atggctctca gtccccgtgg atggaggagc aaattcggga tgcctgggga3480

  agcatggttc taaaaaatgt tgtacgtgaa acggatgaag ttggtaaagg tcagatccgg3540

  atgagaactg tttttgaaca ggccattgat caacgctctt caactggtgc ctggagaaat3600

  gctctttcta tttgggaacc tgtctgcaat gaaattttcg atcgtctgat taaaccacgc3660

  tgggagatta gataatgaag cgtgcgcctg ttattccaaa acatacgctc aatactcaac3720

  cggttgaaga tacttcgtta tcgacaccag ctgccccgat ggtggattcg ttaattgcgc3780

  gcgtaggagt aatggctcgc ggtaatgcca ttactttgcc tgtatgtggt cgggatgtga3840

  agtttactct tgaagtgctc cggggtgata gtgttgagaa gacctctcgg gtatggtcag3900

  gtaatgaacg tgaccaggag ctgcttactg aggacgcact ggatgatctc atcccttctt3960

  ttctactgac tggtcaacag acaccggcgt tcggtcgaag agtatctggt gtcatagaaa4020

  ttgccgatgg gagtcgccgt cgtaaagctg ctgcacttac cgaaagtgat tatcgtgttc4080

  tggttggcga gctggatgat gagcagatgg ctgcattatc cagattgggt aacgattatc4140

  gcccaacaag tgcttatgaa cgtggtcagc gttatgcaag ccgattgcag aatgaatttg4200

  ctggaaatat ttctgcgctg gctgatgcgg aaaatatttc acgtaagatt attacccgct4260

  gtatcaacac cgccaaattg cctaaatcag ttgttgctct tttttctcac cccggtgaac4320

  tatctgcccg gtcaggtgat gcacttcaaa aagcctttac agataaagag gaattactta4380

  agcagcaggc atctaacctt catgagcaga aaaaagctgg ggtgatattt gaagctgaag4440

  aagttatcac tcttttaact tctgtgctta aaacgtcatc tgcatcaaga actagtttaa4500

  gctcacgaca tcagtttgct cctggagcga cagtattgta taagggcgat aaaatggtgc4560

  ttaacctgga caggtctcgt gttccaactg agtgtataga gaaaattgag gccattctta4620

  aggaacttga aaagccagca ccctgatgcg accacgtttt agtctacgtt tatctgtctt4680

  tacttaatgt cctttgttac aggccagaaa gcataactgg cctgaatatt ctctctgggc4740

  ccactgttcc acttgtatcg tcggtctgat aatcagactg ggaccacggt cccactcgta4800

  tcgtcggtct gattattagt ctgggaccac ggtcccactc gtatcgtcgg tctgattatt4860

  agtctgggac cacggtccca ctcgtatcgt cggtctgata atcagactgg gaccacggtc4920

  ccactcgtat cgtcggtctg attattagtc tgggaccatg gtcccactcg tatcgtcggt4980

  ctgattatta gtctgggacc acggtcccac tcgtatcgtc ggtctgatta ttagtctgga5040

  accacggtcc cactcgtatc gtcggtctga ttattagtct gggaccacgg tcccactcgt5100

  atcgtcggtc tgattattag tctgggacca cgatcccact cgtgttgtcg gtctgattat5160

  cggtctggga ccacggtccc acttgtattg tcgatcagac tatcagcgtg agactacgat5220

  tccatcaatg cctgtcaagg gcaagtattg acatgtcgtc gtaacctgta gaacggagta5280

  acctcggtgt gcggttgtat gcctgctgtg gattgctgct gtgtcctgct tatccacaac5340

  attttgcgca cggttatgtg gacaaaatac ctggttaccc aggccgtgcc ggcacgttaa5400

  ccgggctgca tccgatgcaa gtgtgtcgct gtcgacgagc tcgcgagctc ggacatgagg5460

  ttgccccgta ttcagtgtcg ctgatttgta ttgtctgaag ttgtttttac gttaagttga5520

  tgcagatcaa ttaatacgat acctgcgtca taattgatta tttgacgtgg tttgatggcc5580

  tccacgcacg ttgtgatatg tagatgataa tcattatcac tttacgggtc ctttccggtg5640

  atccgacagg ttacggggcg gcgacctcgc gggttttcgc tatttatgaa aattttccgg5700

  tttaaggcgt ttccgttctt cttcgtcata acttaatgtt tttatttaaa ataccctctg5760

  aaaagaaagg aaacgacagg tgctgaaagc gagctttttg gcctctgtcg tttcctttct5820

  ctgtttttgt ccgtggaatg aacaatggaa gtccgagctc atcgctaata acttcgtata5880

  gcatacatta tacgaagtta tattcgatgc ggccgcaagg ggttcgcgtc agcgggtgtt5940

  ggcgggtgcc aacgcgaacc ccttgcggcc gcccgggccg tcgaccaatt ctcatgtttg6000

  acagcttatc atcgaatttc tgccattcat ccgcttatta tcacttattc aggcgtagca6060

  accaggcgtt taagggcacc aataactgcc ttaaaaaaat tacgccccgc cctgccactc6120

  atcgcagtac tgttgtaatt cattaagcat tctgccgaca tggaagccat cacaaacggc6180

  atgatgaacc tgaatcgcca gcggcatcag caccttgtcg ccttgcgtat aatatttgcc6240

  catggtgaaa acgggggcga agaagttgtc catattggcc acgtttaaat caaaactggt6300

  gaaactcacc cagggattgg ctgagacgaa aaacatattc tcaataaacc ctttagggaa6360

  ataggccagg ttttcaccgt aacacgccac atcttgcgaa tatatgtgta gaaactgccg6420

  gaaatcgtcg tggtattcac tccagagcga tgaaaacgtt tcagtttgct catggaaaac6480

  ggtgtaacaa gggtgaacac tatcccatat caccagctca ccgtctttca ttgccatacg6540

  aaattccgga tgagcattca tcaggcgggc aagaatgtga ataaaggccg gataaaactt6600

  gtgcttattt ttctttacgg tctttaaaaa ggccgtaata tccagctgaa cggtctggtt6660

  ataggtacat tgagcaactg actgaaatgc ctcaaaatgt tctttacgat gccattggga6720

  tatatcaacg gtggtatatc cagtgatttt tttctccatt ttagcttcct tagctcctga6780

  aaatctcgat aactcaaaaa atacgcccgg tagtgatctt atttcattat ggtgaaagtt6840

  ggaacctctt acgtgccgat caacgtctca ttttcgccaa aagttggccc agggcttccc6900

  ggtatcaaca gggacaccag gatttattta ttctgcgaag tgatcttccg tcacaggtat6960

  ttattcgcga taagctcatg gagcggcgta accgtcgcac aggaaggaca gagaaagcgc7020

  ggatctggga agtgacggac agaacggtca ggacctggat tggggaggcg gttgccgccg7080

  ctgctgctga cggtgtgacg ttctctgttc cggtcacacc acatacgttc cgccattcct7140

  atgcgatgca catgctgtat gccggtatac cgctgaaagt tctgcaaagc ctgatgggac7200

  ataagtccat cagttcaacg gaagtctaca cgaaggtttt tgcgctggat gtggctgccc7260

  ggcaccgggt gcagtttgcg atgccggagt ctgatgcggt tgcgatgctg aaacaattat7320

  cctgagaata aatgccttgg cctttatatg gaaatgtgga actgagtgga tatgctgttt7380

  ttgtctgtta aacagagaag ctggctgtta tccactgaga agcgaacgaa acagtcggga7440

  aaatctccca ttatcgtaga gatccgcatt attaatctca ggagcctgtg tagcgtttat7500

  aggaagtagt gttctgtcat gatgcctgca agcggtaacg aaaacgattt gaat7554

  <210>4

  <211>8176

  <212>DNA

  <213>大肠杆菌(Escherichia coli)

  <220>

  <221>gene

  <222>(1)..(8176)

  <400>4

  ggccgcccgg gccgtcgacc aattctcatg tttgacagct tatcatcgaa tttctgccat60

  tcatccgctt attatcactt attcaggcgt agcaaccagg cgtttaaggg caccaataac 120

  tgccttaaaa aaattacgcc ccgccctgcc actcatcgca gtactgttgt aattcattaa 180

  gcattctgcc gacatggaag ccatcacaaa cggcatgatg aacctgaatc gccagcggca 240

  tcagcacctt gtcgccttgc gtataatatt tgcccatggt gaaaacgggg gcgaagaagt 300

  tgtccatatt ggccacgttt aaatcaaaac tggtgaaact cacccaggga ttggctgaga 360

  cgaaaaacat attctcaata aaccctttag ggaaataggc caggttttca ccgtaacacg 420

  ccacatcttg cgaatatatg tgtagaaact gccggaaatc gtcgtggtat tcactccaga 480

  gcgatgaaaa cgtttcagtt tgctcatgga aaacggtgta acaagggtga acactatccc 540

  atatcaccag ctcaccgtct ttcattgcca tacgaaattc cggatgagca ttcatcaggc 600

  gggcaagaat gtgaataaag gccggataaa acttgtgctt atttttcttt acggtcttta 660

  aaaaggccgt aatatccagc tgaacggtct ggttataggt acattgagca actgactgaa 720

  atgcctcaaa atgttcttta cgatgccatt gggatatatc aacggtggta tatccagtga 780

  tttttttctc cattttagct tccttagctc ctgaaaatct cgataactca aaaaatacgc 840

  ccggtagtga tcttatttca ttatggtgaa agttggaacc tcttacgtgc cgatcaacgt 900

  ctcattttcg ccaaaagttg gcccagggct tcccggtatc aacagggaca ccaggattta 960

  tttattctgc gaagtgatct tccgtcacag gtatttattc gcgataagct catggagcgg1020

  cgtaaccgtc gcacaggaag gacagagaaa gcgcggatct gggaagtgac ggacagaacg1080

  gtcaggacct ggattgggga ggcggttgcc gccgctgctg ctgacggtgt gacgttctct1140

  gttccggtca caccacatac gttccgccat tcctatgcga tgcacatgct gtatgccggt1200

  ataccgctga aagttctgca aagcctgatg ggacataagt ccatcagttc aacggaagtc1260

  tacacgaagg tttttgcgct ggatgtggct gcccggcacc gggtgcagtt tgcgatgccg1320

  gagtctgatg cggttgcgat gctgaaacaa ttatcctgag aataaatgcc ttggccttta1380

  tatggaaatg tggaactgag tggatatgct gtttttgtct gttaaacaga gaagctggct1440

  gttatccact gagaagcgaa cgaaacagtc gggaaaatct cccattatcg tagagatccg1500

  cattattaat ctcaggagcc tgtgtagcgt ttataggaag tagtgttctg tcatgatgcc1560

  tgcaagcggt aacgaaaacg atttgaatat taccctgtta tccctagtcg gggctggctt1620

  aactatgcgg catcagagca gattgtactg agagtgcacc atatgcggtg tgaaataccg1680

  cacagatgcg taaggagaaa ataccgcatc aggcgccatt cgccattcag ctgcgcaact1740

  gttgggaagg gcgatcggtg cgggcctctt cgctattacg ccagctggcg aaagggggat1800

  gtgctgcaag gcgattaagt tgggtaacgc cagggttttc ccagtcacga cgttgtaaaa1860

  cgacggccag tgaattgtaa tacgactcac tatagggcga attcgagctc ggtacccggg1920

  gatcccacgt acaacgacac ctagaccacg tgttcctagg ctgtttcctg gtgggatcct1980

  ctagagtcga cctgcaggca tgcaagcttg agtattctat agtctcacct aaatagcttg2040

  gcgtaatcat ggtcatagct gtttcctgtg tgaaattgtt atccgctcac aattccacac2100

  aacatacgag ccggaagcat aaagtgtaaa gcctggggtg cctaatgagt gagctaactc2160

  acattaattg cgttgcgctc actgcccgct ttccagtcgg gaaacctgtc gtgccagctg2220

  cattaatgaa tcggccaacg cgaataggga taacagggta atatgccttc aggaacaata2280

  gaaatcttcg tgcggtgtta cgttgaagtg gagcggatta tgtcagcaat ggacagaaca2340

  acctaatgaa cacagaacca tgatgtggtc tgtcctttta cagccagtag tgctcgccgc2400

  agtcgagcga cagggcgaag ccctcggctg gttgccctcg ccgctgggct ggcggccgtc2460

  tatggccctg caaacgcgcc agaaacgccg tcgaagccgt gtgcgagaca ccgcggccgg2520

  ccgccggcgt tgtggatacc tcgcggaaaa cttggccctc actgacagat gaggggcgga2580

  cgttgacact tgaggggccg actcacccgg cgcggcgttg acagatgagg ggcaggctcg2640

  atttcggccg gcgacgtgga gctggccagc ctcgcaaatc ggcgaaaacg cctgatttta2700

  cgcgagtttc ccacagatga tgtggacaag cctggggata agtgccctgc ggtattgaca2760

  cttgaggggc gcgactactg acagatgagg ggcgcgatcc ttgacacttg aggggcagag2820

  tgctgacaga tgaggggcgc acctattgac atttgagggg ctgtccacag gcagaaaatc2880

  cagcatttgc aagggtttcc gcccgttttt cggccaccgc taacctgtct tttaacctgc2940

  ttttaaacca atatttataa accttgtttt taaccagggc tgcgccctgt gcgcgtgacc3000

  gcgcacgccg aaggggggtg cccccccttc tcgaaccctc ccggtcgagt gagcgaggaa3060

  gcaccaggga acagcactta tatattctgc ttacacacga tgcctgaaaa aacttccctt3120

  ggggttatcc acttatccac ggggatattt ttataattat tttttttata gtttttagat3180

  cttctttttt agagcgcctt gtaggccttt atccatgctg gttctagaga aggtgttgtg3240

  acaaattgcc ctttcagtgt gacaaatcac cctcaaatga cagtcctgtc tgtgacaaat3300

  tgcccttaac cctgtgacaa attgccctca gaagaagctg ttttttcaca aagttatccc3360

  tgcttattga ctctttttta tttagtgtga caatctaaaa acttgtcaca cttcacatgg3420

  atctgtcatg gcggaaacag cggttatcaa tcacaagaaa cgtaaaaata gcccgcgaat3480

  cgtccagtca aacgacctca ctgaggcggc atatagtctc tcccgggatc aaaaacgtat3540

  gctgtatctg ttcgttgacc agatcagaaa atctgatggc accctacagg aacatgacgg3600

  tatctgcgag atccatgttg ctaaatatgc tgaaatattc ggattgacct ctgcggaagc3660

  cagtaaggat atacggcagg cattgaagag tttcgcgggg aaggaagtgg ttttttatcg3720

  ccctgaagag gatgccggcg atgaaaaagg ctatgaatct tttccttggt ttatcaaacg3780

  tgcgcacagt ccatccagag ggctttacag tgtacatatc aacccatatc tcattccctt3840

  ctttatcggg ttacagaacc ggtttacgca gtttcggctt agtgaaacaa aagaaatcac3900

  caatccgtat gccatgcgtt tatacgaatc cctgtgtcag tatcgtaagc cggatggctc3960

  aggcatcgtc tctctgaaaa tcgactggat catagagcgt taccagctgc ctcaaagtta4020

  ccagcgtatg cctgacttcc gccgccgctt cctgcaggtc tgtgttaatg agatcaacag4080

  cagaactcca atgcgcctct catacattga gaaaaagaaa ggccgccaga cgactcatat4140

  cgtattttcc ttccgcgata tcacttccat gacgacagga tagtctgagg gttatctgtc4200

  acagatttga gggtggttcg tcacatttgt tctgacctac tgagggtaat ttgtcacagt4260

  tttgctgttt ccttcagcct gcatggattt tctcatactt tttgaactgt aatttttaag4320

  gaagccaaat ttgagggcag tttgtcacag ttgatttcct tctctttccc ttcgtcatgt4380

  gacctgatat cgggggttag ttcgtcatca ttgatgaggg ttgattatca cagtttatta4440

  ctctgaattg gctatccgcg tgtgtacctc tacctggagt ttttcccacg gtggatattt4500

  cttcttgcgc tgagcgtaag agctatctga cagaacagtt cttctttgct tcctcgccag4560

  ttcgctcgct atgctcggtt acacggctgc ggcgagcgct agtgataata agtgactgag4620

  gtatgtgctc ttcttatctc cttttgtagt gttgctctta ttttaaacaa ctttgcggtt4680

  ttttgatgac tttgcgattt tgttgttgct ttgcagtaaa ttgcaagatt taataaaaaa4740

  acgcaaagca atgattaaag gatgttcaga atgaaactca tggaaacact taaccagtgc4800

  ataaacgctg gtcatgaaat gacgaaggct atcgccattg cacagtttaa tgatgacagc4860

  ccggaagcga ggaaaataac ccggcgctgg agaataggtg aagcagcgga tttagttggg4920

  gtttcttctc aggctatcag agatgccgag aaagcagggc gactaccgca cccggatatg4980

  gaaattcgag gacgggttga gcaacgtgtt ggttatacaa ttgaacaaat taatcatatg5040

  cgtgatgtgt ttggtacgcg attgcgacgt gctgaagacg tatttccacc ggtgatcggg5100

  gttgctgccc ataaaggtgg cgtttacaaa acctcagttt ctgttcatct tgctcaggat5160

  ctggctctga aggggctacg tgttttgctc gtggaaggta acgaccccca gggaacagcc5220

  tcaatgtatc acggatgggt accagatctt catattcatg cagaagacac tctcctgcct5280

  ttctatcttg gggaaaagga cgatgtcact tatgcaataa agcccacttg ctggccgggg5340

  cttgacatta ttccttcctg tctggctctg caccgtattg aaactgagtt aatgggcaaa5400

  tttgatgaag gtaaactgcc caccgatcca cacctgatgc tccgactggc cattgaaact5460

  gttgctcatg actatgatgt catagttatt gacagcgcgc ctaacctggg tatcggcacg5520

  attaatgtcg tatgtgctgc tgatgtgctg attgttccca cgcctgctga gttgtttgac5580

  tacacctccg cactgcagtt tttcgatatg cttcgtgatc tgctcaagaa cgttgatctt5640

  aaagggttcg agcctgatgt acgtattttg cttaccaaat acagcaatag taatggctct5700

  cagtccccgt ggatggagga gcaaattcgg gatgcctggg gaagcatggt tctaaaaaat5760

  gttgtacgtg aaacggatga agttggtaaa ggtcagatcc ggatgagaac tgtttttgaa5820

  caggccattg atcaacgctc ttcaactggt gcctggagaa atgctctttc tatttgggaa5880

  cctgtctgca atgaaatttt cgatcgtctg attaaaccac gctgggagat tagataatga5940

  agcgtgcgcc tgttattcca aaacatacgc tcaatactca accggttgaa gatacttcgt6000

  tatcgacacc agctgccccg atggtggatt cgttaattgc gcgcgtagga gtaatggctc6060

  gcggtaatgc cattactttg cctgtatgtg gtcgggatgt gaagtttact cttgaagtgc6120

  tccggggtga tagtgttgag aagacctctc gggtatggtc aggtaatgaa cgtgaccagg6180

  agctgcttac tgaggacgca ctggatgatc tcatcccttc ttttctactg actggtcaac6240

  agacaccggc gttcggtcga agagtatctg gtgtcataga aattgccgat gggagtcgcc6300

  gtcgtaaagc tgctgcactt accgaaagtg attatcgtgt tctggttggc gagctggatg6360

  atgagcagat ggctgcatta tccagattgg gtaacgatta tcgcccaaca agtgcttatg6420

  aacgtggtca gcgttatgca agccgattgc agaatgaatt tgctggaaat atttctgcgc6480

  tggctgatgc ggaaaatatt tcacgtaaga ttattacccg ctgtatcaac accgccaaat6540

  tgcctaaatc agttgttgct cttttttctc accccggtga actatctgcc cggtcaggtg6600

  atgcacttca aaaagccttt acagataaag aggaattact taagcagcag gcatctaacc6660

  ttcatgagca gaaaaaagct ggggtgatat ttgaagctga agaagttatc actcttttaa6720

  cttctgtgct taaaacgtca tctgcatcaa gaactagttt aagctcacga catcagtttg6780

  ctcctggagc gacagtattg tataagggcg ataaaatggt gcttaacctg gacaggtctc6840

  gtgttccaac tgagtgtata gagaaaattg aggccattct taaggaactt gaaaagccag6900

  caccctgatg cgaccacgtt ttagtctacg tttatctgtc tttacttaat gtcctttgtt6960

  acaggccaga aagcataact ggcctgaata ttctctctgg gcccactgtt ccacttgtat7020

  cgtcggtctg ataatcagac tgggaccacg gtcccactcg tatcgtcggt ctgattatta7080

  gtctgggacc acggtcccac tcgtatcgtc ggtctgatta ttagtctggg accacggtcc7140

  cactcgtatc gtcggtctga taatcagact gggaccacgg tcccactcgt atcgtcggtc7200

  tgattattag tctgggacca tggtcccact cgtatcgtcg gtctgattat tagtctggga7260

  ccacggtccc actcgtatcg tcggtctgat tattagtctg gaaccacggt cccactcgta7320

  tcgtcggtct gattattagt ctgggaccac ggtcccactc gtatcgtcgg tctgattatt7380

  agtctgggac cacgatccca ctcgtgttgt cggtctgatt atcggtctgg gaccacggtc7440

  ccacttgtat tgtcgatcag actatcagcg tgagactacg attccatcaa tgcctgtcaa7500

  gggcaagtat tgacatgtcg tcgtaacctg tagaacggag taacctcggt gtgcggttgt7560

  atgcctgctg tggattgctg ctgtgtcctg cttatccaca acattttgcg cacggttatg7620

  tggacaaaat acctggttac ccaggccgtg ccggcacgtt aaccgggctg catccgatgc7680

  aagtgtgtcg ctgtcgacga gctcgcgagc tcggacatga ggttgccccg tattcagtgt7740

  cgctgatttg tattgtctga agttgttttt acgttaagtt gatgcagatc aattaatacg7800

  atacctgcgt cataattgat tatttgacgt ggtttgatgg cctccacgca cgttgtgata7860

  tgtagatgat aatcattatc actttacggg tcctttccgg tgatccgaca ggttacgggg7920

  cggcgacctc gcgggttttc gctatttatg aaaattttcc ggtttaaggc gtttccgttc7980

  ttcttcgtca taacttaatg tttttattta aaataccctc tgaaaagaaa ggaaacgaca8040

  ggtgctgaaa gcgagctttt tggcctctgt cgtttccttt ctctgttttt gtccgtggaa8100

  tgaacaatgg aagtccgagc tcatcgctaa taacttcgta tagcatacat tatacgaagt8160

  tatattcgat gcggcc8176

  <210>5

  <211>8220

  <212>DNA

  <213>大肠杆菌(Escherichia coli)

  <220>

  <221>gene

  <222>(1)..(8220)

  <400>5

  ggccgcccgg gccgtcgacc aattctcatg tttgacagct tatcatcgaa tttctgccat60

  tcatccgctt attatcactt attcaggcgt agcaaccagg cgtttaaggg caccaataac 120

  tgccttaaaa aaattacgcc ccgccctgcc actcatcgca gtactgttgt aattcattaa 180

  gcattctgcc gacatggaag ccatcacaaa cggcatgatg aacctgaatc gccagcggca 240

  tcagcacctt gtcgccttgc gtataatatt tgcccatggt gaaaacgggg gcgaagaagt 300

  tgtccatatt ggccacgttt aaatcaaaac tggtgaaact cacccaggga ttggctgaga 360

  cgaaaaacat attctcaata aaccctttag ggaaataggc caggttttca ccgtaacacg 420

  ccacatcttg cgaatatatg tgtagaaact gccggaaatc gtcgtggtat tcactccaga 480

  gcgatgaaaa cgtttcagtt tgctcatgga aaacggtgta acaagggtga acactatccc 540

  atatcaccag ctcaccgtct ttcattgcca tacgaaattc cggatgagca ttcatcaggc 600

  gggcaagaat gtgaataaag gccggataaa acttgtgctt atttttcttt acggtcttta 660

  aaaaggccgt aatatccagc tgaacggtct ggttataggt acattgagca actgactgaa 720

  atgcctcaaa atgttcttta cgatgccatt gggatatatc aacggtggta tatccagtga 780

  tttttttctc cattttagct tccttagctc ctgaaaatct cgataactca aaaaatacgc 840

  ccggtagtga tcttatttca ttatggtgaa agttggaacc tcttacgtgc cgatcaacgt 900

  ctcattttcg ccaaaagttg gcccagggct tcccggtatc aacagggaca ccaggattta 960

  tttattctgc gaagtgatct tccgtcacag gtatttattc gcgataagct catggagcgg1020

  cgtaaccgtc gcacaggaag gacagagaaa gcgcggatct gggaagtgac ggacagaacg1080

  gtcaggacct ggattgggga ggcggttgcc gccgctgctg ctgacggtgt gacgttctct1140

  gttccggtca caccacatac gttccgccat tcctatgcga tgcacatgct gtatgccggt1200

  ataccgctga aagttctgca aagcctgatg ggacataagt ccatcagttc aacggaagtc1260

  tacacgaagg tttttgcgct ggatgtggct gcccggcacc gggtgcagtt tgcgatgccg1320

  gagtctgatg cggttgcgat gctgaaacaa ttatcctgag aataaatgcc ttggccttta1380

  tatggaaatg tggaactgag tggatatgct gtttttgtct gttaaacaga gaagctggct1440

  gttatccact gagaagcgaa cgaaacagtc gggaaaatct cccattatcg tagagatccg1500

  cattattaat ctcaggagcc tgtgtagcgt ttataggaag tagtgttctg tcatgatgcc1560

  tgcaagcggt aacgaaaacg atttgaatat taccctgtta tccctaatcg gggctggctt1620

  aactatgcgg catcagagca gattgtactg agagtgcacc atatgcggtg tgaaataccg1680

  cacagatgcg taaggagaaa ataccgcatc aggcgccatt cgccattcag ctgcgcaact1740

  gttgggaagg gcgatcggtg cgggcctctt cgctattacg ccagctggcg aaagggggat1800

  gtgctgcaag gcgattaagt tgggtaacgc cagggttttc ccagtcacga cgttgtaaaa1860

  cgacggccag tgaattgtaa tacgactcac tatagggcga attcgagctc ggtacccggg1920

  gatcccacgt acaacgacac cgagaccacg tgttccgagg ctgtttcctg gtggggtcct1980

  cgagagtcga cctgcaggca tgcaagcttg agtattctat agtctcacct aaatagcttg2040

  gcgtaatcat ggtcatagct gtttcctgtg tgaaattgtt atccgctcac aattccacac2100

  aacatacgag ccggaagcat aaagtgtaaa gcctggggtg cctaatgagt gagctaactc2160

  acattaattg cgttgcgctc actgcccgct ttccagtcgg gaaacctgtc gtgccagctg2220

  cattaatgaa tcggccaacg cgaataggga taacagggta atatgccttc aggaacaata2280

  gaaatcttcg tgcggtgtta cgttgaagtg gagcggatta tgtcagcaat ggacagaaca2340

  acctaatgaa cacagaacca tgatgtggtc tgtcctttta cagccagtag tgctcgccgc2400

  agtcgagcga cagggcgaag ccctcggctg gttgccctcg ccgctgggct ggcggccgtc2460

  tatggccctg caaacgcgcc agaaacgccg tcgaagccgt gtgcgagaca ccgcggccgg2520

  ccgccggcgt tgtggatacc tcgcggaaaa cttggccctc actgacagat gaggggcgga2580

  cgttgacact tgaggggccg actcacccgg cgcggcgttg acagatgagg ggcaggctcg2640

  atttcggccg gcgacgtgga gctggccagc ctcgcaaatc ggcgaaaacg cctgatttta2700

  cgcgagtttc ccacagatga tgtggacaag cctggggata agtgccctgc ggtattgaca2760

  cttgaggggc gcgactactg acagatgagg ggcgcgatcc ttgacacttg aggggcagag2820

  tgctgacaga tgaggggcgc acctattgac atttgagggg ctgtccacag gcagaaaatc2880

  cagcatttgc aagggtttcc gcccgttttt cggccaccgc taacctgtct tttaacctgc2940

  ttttaaacca atatttataa accttgtttt taaccagggc tgcgccctgt gcgcgtgacc3000

  gcgcacgccg aaggggggtg cccccccttc tcgaaccctc ccggtcgagt gagcgaggaa3060

  gcaccaggga acagcactta tatattctgc ttacacacga tgcctgaaaa aacttccctt3120

  ggggttatcc acttatccac ggggatattt ttataattat tttttttata gtttttagat3180

  cttctttttt agagcgcctt gtaggccttt atccatgctg gttctataga aggtgttgtg3240

  acaaattgcc ctttcagtgt gacaaatcac cctcaaatga cagtcctgtc tgtgacaaat3300

  tgcccttaac cctgtgacaa attgccctca gaagaagctg ttttttcaca aagttatccc3360

  tgcttattga ctctttttta tttagtgtga caatctaaaa acttgtcaca cttcacatgg3420

  atctgtcatg gcggaaacag cggttatcaa tcacaagaaa cgtaaaaata gcccgcgaat3480

  cgtccagtca aacgacctca ctgaggcggc atatagtctc tcccgggatc aaaaacgtat3540

  gctgtatctg ttcgttgacc agatcagaaa atctgatggc accctacagg aacatgacgg3600

  tatctgcgag atccatgttg ctaaatatgc tgaaatattc ggattgacct ctgcggaagc3660

  cagtaaggat atacggcagg cattgaagag tttcgcgggg aaggaagtgg ttttttatcg3720

  ccctgaagag gatgccggcg atgaaaaagg ctatgaatct tttccttggt ttatcaaacg3780

  tgcgcacagt ccatccagag ggctttacag tgtacatatc aacccatatc tcattccctt3840

  ctttatcggg ttacagaacc ggtttacgca gtttcggctt agtgaaacaa aagaaatcac3900

  caatccgtat gccatgcgtt tatacgaatc cctgtgtcag tatcgtaagc cggatggctc3960

  aggcatcgtc tctctgaaaa tcgactggat catagagcgt taccagctgc ctcaaagtta4020

  ccagcgtatg cctgacttcc gccgccgctt cctgcaggtc tgtgttaatg agatcaacag4080

  cagaactcca atgcgcctct catacattga gaaaaagaaa ggccgccaga cgactcatat4140

  cgtattttcc ttccgcgata tcacttccat gacgacagga tagtctgagg gttatctgtc4200

  acagatttga gggtggttcg tcacatttgt tctgacctac tgagggtaat ttgtcacagt4260

  tttgctgttt ccttcagcct gcatggattt tctcatactt tttgaactgt aatttttaag4320

  gaagccaaat ttgagggcag tttgtcacag ttgatttcct tctctttccc ttcgtcatgt4380

  gacctgatat cgggggttag ttcgtcatca ttgatgaggg ttgattatca cagtttatta4440

  ctctgaattg gctatccgcg tgtgtacctc tacctggagt ttttcccacg gtggatattt4500

  cttcttgcgc tgagataggg ataacagggt aatcacaccg aggttactcc gttctacagg4560

  ttacgacgac atgtcaatac ttgcccttga caggcattga tggaatcgta gtctcacgct4620

  gatagtctga tcgacaatac aagtgggacc gtggtcccag accgataatc agaccgacaa4680

  cacgagtggg atcgtggtcc cagactaata atcagaccga cgatacgagt gggaccgtgg4740

  tcccagacta ataatcagac cgacgatacg agtgggaccg tggttccaga ctaataatca4800

  gaccgacgat acgagtggga ccgtggtccc agactaataa tcagaccgac gatacgagtg4860

  ggaccatggt cccagactaa taatcagacc gacgatacga gtgggaccgt ggtcccagtc4920

  tgattatcag accgacgata cgagtgggac cgtggtccca gactaataat cagaccgacg4980

  atacgagtgg gaccgtggtc ccagactaat aatcagaccg acgatacgag tgggaccgtg5040

  gtcccagtct gattatcaga ccgacgatac aagtggaaca gtgggcccag agagaatatt5100

  caggccagtt atgctttctg gcctgtaaca aaggacatta agtaaagaca gataaacgta5160

  gactaaaacg tggtcgcatc agggtgctgg cttttcaagt tccttaagaa tggcctcaat5220

  tttctctata cactcagttg gaacacgaga cctgtccagg ttaagcacca ttttatcgcc5280

  cttatacaat actgtcgctc caggagcaaa ctgatgtcgt gagcttaaac ttgttcttga5340

  tgcagatgac gttttaagca cagaagttaa aagagtgata acttcttcag cttcaaatat5400

  caccccagct tttttctgct catgaaggtt agatgcctgc tgcttaagta attcctcttt5460

  atctgtaaag gctttttgaa gtgcatcacc tgaccgggca gatagttcac cggggtgaga5520

  aaaaagagca acaactgatt taggcaattt ggcggtgttg atacagcggg taataatctt5580

  acgtgaaata ttttccgcat cagccagcgc agaaatattt ccagcaaatt cattctgcaa5640

  tcggcttgca taacgctgac cacgttcata agcacttgtt gggcgataat cgttacccaa5700

  tctggataat gcagccatct gctcatcatc cagctcgcca accagaacac gataatcact5760

  ttcggtaagt gcagcagctt tacgacggcg actcccatcg gcaatttcta tgacaccaga5820

  tactcttcga ccgaacgccg gtgtctgttg accagtcagt agaaaagaag ggatgagatc5880

  atccagtgcg tcctcagtaa gcagctcctg gtcacgttca ttacctgacc atacccgaga5940

  ggtcttctca acactatcac cccggagcac ttcaagagta aacttcacat cccgaccaca6000

  tacaggcaaa gtaatggcat taccgcgagc cattactcct acgcgcgcaa ttaacgaatc6060

  caccatcggg gcagctggtg tcgataacga agtatcttca accggttgag tattgagcgt6120

  atgttttgga ataacaggcg cacgcttcat tatctaatct cccagcgtgg tttaatcaga6180

  cgatcgaaaa tttcattgca gacaggttcc caaatagaaa gagcatttct ccaggcacca6240

  gttgaagagc gttgatcaat ggcctgttca aaaacagttc tcatccggat ctgaccttta6300

  ccaacttcat ccgtttcacg tacaacattt tttagaacca tgcttcccca ggcatcccga6360

  atttgctcct ccatccacgg ggactgagag ccattactat tgctgtattt ggtaagcaaa6420

  atacgtacat caggctcgaa ccctttaaga tcaacgttct tgagcagatc acgaagcata6480

  tcgaaaaact gcagtgcgga ggtgtagtca aacaactcag caggcgtggg aacaatcagc6540

  acatcagcag cacatacgac attaatcgtg ccgataccca ggttaggcgc gctgtcaata6600

  actatgacat catagtcatg agcaacagtt tcaatggcca gtcggagcat caggtgtgga6660

  tcggtgggca gtttaccttc atcaaatttg cccattaact cagtttcaat acggtgcaga6720

  gccagacagg aaggaataat gtcaagcccc ggccagcaag tgggctttat tgcataagtg6780

  acatcgtcct tttccccaag atagaaaggc aggagagtgt cttctgcatg aatatgaaga6840

  tctggtaccc atccgtgata cattgaggct gttccctggg ggtcgttacc ttccacgagc6900

  aaaacacgta gccccttcag agccagatcc tgagcaagat gaacagaaac tgaggttttg6960

  taaacgccac ctttatgggc agcaaccccg atcaccggtg gaaatacgtc ttcagcacgt7020

  cgcaatcgcg taccaaacac atcacgcata tgattaattt gttcaattgt ataaccaaca7080

  cgttgctcaa cccgtcctcg aatttccata tccgggtgcg gtagtcgccc tgctttctcg7140

  gcatctctga tagcctgaga agaaacccca actaaatccg ctgcttcacc tattctccag7200

  cgccgggtta ttttcctcgc ttccgggctg tcatcattaa actgtgcaat ggcgatagcc7260

  ttcgtcattt catgaccagc gtttatgcac tggttaagtg tttccatgag tttcattctg7320

  aacatccttt aatcattgct ttgcgttttt ttattaaatc ttgcaattta ctgcaaagca7380

  acaacaaaat cgcaaagtca tcaaaaaacc gcaaagttgt ttaaaataag agcaacacta7440

  caaaaggaga taagaagagc acatacctca gtcacttatt atcactatcg ctcgccgcag7500

  ccgtgtaacc gagcatagcg agcgaactgg cgaggaagca aagaagaact gttctgtcag7560

  atagctctta cgctcagcgc attaccctgt tatccctaag ttgtatgcct gctgtggatt7620

  gctgctgtgt cctgcttatc cacaacattt tgcgcacggt tatgtggaca aaatacctgg7680

  ttacccaggc cgtgccggca cgttaaccgg gctgcatccg atgcaagtgt gtcgctgtcg7740

  acgagctcgc gagctcggac atgaggttgc cccgtattca gtgtcgctga tttgtattgt7800

  ctgaagttgt ttttacgtta agttgatgca gatcaattaa tacgatacct gcgtcataat7860

  tgattatttg acgtggtttg atggcctcca cgcacgttgt gatatgtaga tgataatcat7920

  tatcacttta cgggtccttt ccggtgatcc gacaggttac ggggcggcga cctcgcgggt7980

  tttcgctatt tatgaaaatt ttccggttta aggcgtttcc gttcttcttc gtcataactt8040

  aatgttttta tttaaaatac cctctgaaaa gaaaggaaac gacaggtgct gaaagcgagc8100

  tttttggcct ctgtcgtttc ctttctctgt ttttgtccgt ggaatgaaca atggaagtcc8160

  gagctcatcg ctaataactt cgtatagcat acattatacg aagttatatt cgatgcggcc8220

《一种长片段DNA文库长配对末端测序方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)