一种长片段DNA文库长配对末端测序方法
技术领域
本发明属于全基因组测序技术领域,具体涉及一种长片段DNA文库长配对末端(paired-end)的测序方法,用来进行全基因组序列的组装、验证、多基因组比较以及结构变异位点鉴定等。
背景技术
DNA测序技术的发展有着丰富的历史,在短短的40多年中有着众多飞跃式的发展。从Sanger的电泳法测序技术,以高成本、低通量、长读长、高精度等特点打开生物测序的大门,到下一代测序技术(NGS,Next generation sequencing)大规模平行测序,以低成本、高通量、短读长、高精度等特点成为生物测序的中流砥柱,再到目前正引领新潮流的单分子实时合成测序,以高通量、超长读长、低精度等特点开创生物测序的新时代。
在DNA测序技术发展的前25年,其主要目的是对部分或完整的基因组进行测序。事实上,1977年兴起的Sanger测序,包括第一个基因组(phiX174;5.4kb),基本上是手动组装的。如果DNA测序是随机的,那么任何大型基因组都可以通过片段间的重叠区组装。相反,如果不是随机的,混合的重复序列和技术的偏好性使得科学家们不可能单从kb大小级别的reads中获得高组装质量的大型基因组,还需要额外的“邻近信息”。
对于人类基因组计划,这些额外的邻近信息包括:(1)遗传图谱:基于遗传多态性的系谱分离,在染色体范围内提供部分序列顺序的正交信息;(2)物理图谱:用限制性内切酶对大片段克隆进行“指纹图谱”识别重叠区,对跨越基因组的“平铺路径”进行排序;对每个克隆进行单独的鸟枪法(shotgun)测序和组装,从中分离出不同的重复拷贝,然后进行更深一步的排序和组装;(3)双端测序(Paired-end):Ansorge于1990年推出对一定长度的DNA片段进行双端测序的DNA测序方法,能有效连接两端序列。基于克隆的方法,跨越长度的范围可以从几个kb到几百个kb;序列覆盖度为8-10倍,结合邻近信息的资源,不仅可以进行基因组组装,而且能提高绝大多数基因组的质量,使碱基错误率仅为十万分之一。
伴随着2005年NGS的到来,从头组装(de novo)组装的序列数量大大增加。看似灾难性的短序列和重复基因组也可以被基于de Brujin图谱(如,EULER和Velvet)的新组装算法所克服。尽管如此,当应用到大型基因组时或将其与人类基因组计划的基因组进行比较时,它们的平均质量仍然极低。除了NGS产生的序列读长较短之外,其质量低的主要原因应归咎于缺乏邻近的方法来补足NGS。虽然双端测序技术对NGS组装质量理论上有着出众的辅助作用,但其体外建库的方法还是更多地受到跨越距离的限制。最近几年新的补充测序技术的不断开发与完善,使短序列的利用越来越多。首先,如层级鸟枪法测序,在体外从子样品中获得高分子量的基因组片段。其次,如Hi-C(全基因组染色体构象捕获)和光学物理图谱,提供了可扩展的、有成本效益的染色体组装工具。最后,PacBio和ONT测序的读长已经上升至数百kb,现在其读长更受限于高分子量DNA的制备而不是测序本身。
基因组文库是将某个物种的基因组DNA通过生物、化学或物理打断等不同的方式破碎成特定的大小,然后以载体为媒介导入到宿主中形成的集合,是进行分子克隆和基因组结构与功能特点研究的重要工具和材料。其中大片段基因组文库以其较大的外源DNA片段长度容纳能力而被广泛运用,如Fosmid文库(平均插入片段约40Kb)和BAC文库(平均插入片段约100Kb)等等,在图位克隆、物理图谱的构建、全基因组测序、比较基因组研究以及珍稀物种的基因组资源保护等用途中都发挥着重要的作用。
如今,基因组文库与不同DNA测序技术结合应用的方法在生物测序领域已占据重要的一席之地。如利用BAC文库结合Sanger测序技术构建物理图谱、利用噬菌体(Fosmid)文库结合NGS测序技术辅助全基因组组装等。而其中尤以Paired-end末端测序技术应用最为广泛,Paired-end末端测序法的出现使基于NGS的全基因组测序序列组装质量及效率得到大大提升,利用长片段文库成对末端序列不仅使NGS测序得到的短读长序列得以更好地组装,还可以针对重复序列组装时,成对末端之间较长的间距可以跨过许多重复序列,从而使散在的、难以辨别顺序关系的Contigs之间得以正确排列,提升基因组的完整度。
Paired-end末端测序技术其实一直伴随着测序技术的提升而不断改进。在Sanger测序技术上的Paired-end末端测序技术体现在依靠BAC文库末端序列构建的比较物理图谱制作和序列校正上。在这个策略中,利用BAC克隆的末端序列定位参考基因组的位置及序列信息,使散在的Contigs按原本基因组的顺序排列,从而提升基因组的组装完整度,验证基因组组装错误以及进行比较基因组研究。这种方法适用于所有测序平台的全基因组组装,且准确度最高。但是,这种传统的BAC末端测序方法也是最耗时耗力的,工序复杂、工作量大、通量太低且耗资不菲。为了降低成本以及随着NGS技术的普及,基于Fosmid文库的Paired-end技术应用也越来越广泛,甚至成为全基因组装中不可缺少的重要辅助工具,并且在鉴定结构变异位点上占有举足轻重的地位。虽然基于Fosmid文库的Paired-end技术以其低成本、技术简单及高通量等优点而被广泛应用,但是,其缺点也非常明显,NGS测序平台较短的读长使序列组装过程的计算量加大,完成序列组装仍面临不小困难,组装后的序列可能包含很多缺口并且难以填补,在没有参考序列的情况下很难将得到的scaffold定位到染色体上并确定它们之间的相对位置,特别是当基因组含有大量的重复序列或含有很大的基因家族以及大片段的重复时,这些缺点就更加突出,因此其精确性远远不如BAC末端序列。目前随着PacBio及Nanopore新测序平台的出现,其测序读长(平均读长约10kb,最高可达1Mb)远远高于Sanger测序平台和NGS测序平台所能达到的读长,正逐渐被广大生物科学家们认识和应用,并且其趋势越来越好,带领了一个新的测序时代的发展。
发明内容
本发明的目的在于克服现有技术的缺陷,主要是为改进传统Paired-end技术方法以适应新一代的测序潮流。本发明利用单分子测序平台的较长读长和较高的通量,再结合Fosmid及BAC文库的较长插入片段,改进传统Paired-end技术短读长的缺点以及传统BAC末端测序的耗时耗力的缺点,以简便高效的方法得到大量的、成对的、长读长的末端序列,利用这些末端序列不仅可以使基因组组装质量得到较大的提升,还可以纠正已有的参考基因组的错误组装以及鉴别物种基因组中的变异等等。
本发明的技术方案如下所述:
本发明公开了一种长片段DNA文库长配对末端测序方法,发明的步骤为,提取全基因组DNA构建大片段文库;通过大片段文库克隆混合池DNA构建长末端paired-end测序文库及克隆混合池,并提取长末端paired-end测序文库克隆混合池的DNA,去载体后进行测序,利用提取到的paired-end双末端序列经过去冗余后得到无歧义的长paired-end序列,用以辅助全基因组的拼装、评估已有基因组拼装的质量、鉴定结构变异位点等等。
本发明的具体步骤包括:
1、载体改造及制备;
2、提取全基因组DNA,构建大片段文库及克隆混合池;
3、提取大片段文库克隆混合池的DNA;
4、对步骤3)中的大片段文库克隆混合池DNA构建长末端paired-end测序文库及克隆混合池;
5、提取长末端paired-end测序文库克隆混合池的DNA,去载体后测序;
6、提取paired-end末端序列并去冗余得到无歧义的长paired-end序列;
7、辅助全基因组序列的组装,利用得到的无歧义的成对的长双末端序列信息连接全基因组组装后得到的序列重叠群,确定它们的方向和它们之间的相对位置,从而将这些重叠群的序列连接成整条染色体的序列,得到全基因组序列。
其中,关于载体改造的具体步骤如下:
针对pHZAUFOS4载体,将购自于Epicentre公司的pCC2FOS载体的LacZ移动到氯霉素抗性基因和复制起始点之间,并用稀有酶切位点如I-Scel代替Notl,且在载体骨架中另插入两个稀有酶切位点如I-Scel酶切位点,载体制备后,用于构建Fosmid/BAC文库,并且可以用稀有酶I-Scel酶切检测插入片段,同时使载体片段化,以利于后续测序文库的构建。
具体流程为:
(1)设计引物以SEQ ID NO:1所示的序列的起始载体pCC2FOS为模板进行聚合酶链式反应(PCR,Polymerase Chain Reaction)扩增获得包含登录号为EU140752的LacZ片段,并在两端引入I-Scel酶切位点,得到如SEQ ID NO:2所示的A片段;
(2)用NotI完全酶切pCC2FOS回收pCC2FOS骨架;
(3)pCC2FOS骨架自连,转化EPI300.-T1R E.coli;
(4)挑选pCC2FOS骨架自连的转化子,提取转化子质粒;
(5)以转化子质粒为模板,从登录号为EU140752的氯霉素和高拷贝复制起始点中间选择一个位置,设计引物,通过PCR扩增获得新的pCC2FOS骨架片段,该骨架片段的序列如SEQ ID NO:3所示的B片段所示;
(6)将A片段和B片段连接,转化大肠杆菌;
(7)对A片段和B片段重组子进行筛选;
(8)对筛选的阳性重组子经测序确认,命名为pHZAUFOS2,其核苷酸序列如SEQ IDNO:4所示;
(9)再次设计引物,以上步所得的阳性重组子pHZAUFOS2为模板,在载体功能元件之间分别引入两个I-Scel酶切位点,并使之间隔2kb左右;
(10)再次设计引物进行四碱基核酸酶切酶如BfaI酶切位点的沉默;
(11)对载体进行测序验证,命名为pHZAUFOS4,其核苷酸序列如SEQ ID NO:4所示。
构建长末端paired-end测序文库,具体操作流程如下:
1、大片段DNA文库混合池质粒DNA的打断:
(1)采用物理剪切法如G-tube破碎法,具体步骤如下:
1)提取大片段DNA文库混合池质粒DNA并测量浓度(约100ng/μl),按推荐体系150μl(约15μgDNA)进行G-tube物理剪切;
2)利用5417R高速冷冻离心机(Eppendorf)离心,5000g,1min,正反各一次记为打断一次;
3)以0、1、3、5、7、9次为梯度进行DNA随机片段化的条件摸索;
4)各取20μl样品进行脉冲场电泳,并以Lambda DNA-Mono Cut Mix作为Marker标记进行筛选,0.5×TBE,14℃,0.5s~1.5s,120°,9V/cm,16h;
5)选取片段集中在10kb-17Kb的条件进行大量打断。
(2)采用四碱基酶如BfaI部分酶切的方法,具体步骤如下:
1)取出几块保存于TE的plug,用无菌ddH2O冰上震荡洗涤1h;
2)配制适宜的酶切Mixture体系(45μL),然后分装于1.5mL的离心管(每管45μL)中。每个酶切Mixture体系的配制如下:H2O(25μL);10×buffer(10μL);40mmol/L亚精胺(10μL);
3)用刀片把plug平均切成2份,半块plug切碎后轻柔地转进装有Mixture的1.5mL离心管中,每1/2个plug体积约为50μL。浸泡着plug的体系置于冰上40min,其间不时轻弹;
4)每个体系中加入5μL不同浓度的酶。BfaI酶的原始浓度为10U/μL,用1×BfaIbuffer来进行酶浓度梯度稀释。,采用未稀释的酶原液(浓度为10U/μL)作为完全酶切的对照和不加酶的体系作为空白对照。酶浓度梯度的设置可依情况而做调整;
5)加入梯度酶之后,迅速混匀,然后将各个体系放置在冰上90min,然后转移到37℃水浴锅中,酶切适宜时间;
6)酶切完成后,加入10μL 0.5mol/LEDTA(pH8.0),轻弹后冰上放置10min以终止酶切;
7)脉冲场凝胶电泳检测酶切结果,电泳条件为:0.5×TBE,14℃,1s~50s,120°,6V/cm,18h;
9)选择片段集中在10kb-17kb所对应的合适的酶浓度接和适宜的酶反应时间进行大量打断。
2、电洗脱回收胶条中的混合池目的DNA,检测吸出液体中大片段DNA的浓度(若吸出体积太大,则用Amicon Ultra-0.5centrifugal filter devices进行浓缩);
3、向50μL gDNA中加25U碱性磷酸酶(CIP,NEB),混匀后置于37℃恒温水浴锅内反应1h,然后向体系中再加25U CIP酶,混匀后置于55℃恒温水浴锅内反应1h。反应完成后用酚:氯仿法去除碱性磷酸酶纯化DNA。末端使用T4DNA Polymerase和klenow fragment进行修复,37℃反应60分钟,然后70℃高温10分钟,使酶变性失活。修复完成后用酚:氯仿法纯化浓缩DNA,并检测DNA的浓度;
4、载体与插入片段摩尔数之比例为10:1是最佳的连接比例,其中Amp标签相当于载体0.5μg,相当于0.72pmol,15kb左右的插入片段0.75μg,相当于0.072pmol。考虑到是平端连接,采用10μL体系进行连接。16℃过夜,然后70℃10分钟,灭活连接酶。
5、将连接产物电转化到TransforMaxTM EPI300TM Electrocompetent E.coli(Epicentre)商业感受态细胞中,并涂布100μL在固体培养基(含12.5μg/mL Cm,25μg/mLAmp,80μg/mL X-gal,100μg/mL IPTG)上,37℃过夜培养16h左右,统计蓝白斑的数量。挑取一定数量的白斑,接入2mL LB培养基(含12.5μg/mL Cm,25μg/mL Amp,1000×Copy ControlFosmid Auto Induction Solution),37℃摇床过夜培养16h左右。碱裂解法提取质粒,最后溶于50μL无菌水中。I-SceI酶切以检测插入片段大小,37℃酶切3-5h,65℃处理10min普通直流电泳检测。
6、根据上一步检测的平均插入片段大小,空载率以及预转化的白斑数量来决定是否进行大量转化。若预转化的结果符合要求,将剩余的连接产物进行电转化并涂布,37℃培养。步骤与预转化一样。在超净工作台中,用烧热的镊子烫死蓝色的克隆,再用适量冰冻培养基(含有12.5μg/mL Cm,25μg/mL Amp,0.4mmol/L的MgCl2)刮取培养皿上的约5000克隆至50ml离心管中,-20℃保存。
7、利用I-SceI酶切以去除载体,切胶电洗脱回收,并使用Amicon Ultra-0.5centrifugal filter devices浓缩补平加接头后上机测序。
其中,关于paired-end末端测序数据的分析具体步骤如下:
I原始数据经CCS(circular consensus sequencing)校正
II CCS数据提取PESs(paired-end sequences)
含有PESs的质粒经I-SceI酶切后得到的DNA片段左右两端含有载体带的一部分,完整的含有PESs的CCS序列应具有三个特征,其中VES1(Vector end sequence 1)为348bp,VES2为300bp,Amp-tag为1218bp。使用blastn(v2.7.1+)默认参数将CCS序列比对到上述三个特征上。blastn其输出格式为“-outfmt'6qseqid qlen sseqid slen qstart qendpident sstrand'”。应注意CCS比对到VES1和VES2时应同为正链比对,或者负链比对,并且当为正链比对时,VES1在CCS的左端,VES2在CCS的右端;同理,当为负链比对时,VES2在CCS的左端,VES1在CCS的右端。将满足上述特征的CCS序列提取出,得到PES序列。
只保留双末端序列均大于50bp的PES,然后PES数据统计。
III PESs比对到参考基因组
IV sam文件分析
sam文件中除去头部信息,第一列为序列号,第二列为二进制的FLAG标签,其二进制数第七位代表双端比对的第一段序列,第八位代表双端比对的第二段序列,第三位若为1则代表序列未比对到参考基因组。所以只需判断二进制数对应位上的数字是0或者1即可,其公式为”(N>>(B-1))&1”,其中N为二进制数,B为欲知的位。
FLAG标签第十二位若为1则为嵌合比对(Chimeric alignment)。
FLAG标签第九位若为1则为比对到了多个位点(Multiple mapping)。
sam文件去除头部信息,第五列为比对质量得分(MAPQ),对于bwa软件而言,其MAPQ值在[0,60]之间,MAPQ值较低有可能是由于序列比对到了多个位点或者嵌合比对以及错配插入缺失过多导致。所以只保留MAPQ等于60的比对,使用samtools(v1.3.1)软件,参数为“samtools view-h-q 60”。
双端的比对质量得分(MAPQ)均为60,并且原始sam文件(未经过MAPQ等于60过滤)FLAG标签第十二位均为0(不为嵌合比对),则视为无歧义的双端比对(Unambiguouslyplaced pairs)。
对无歧义的双端比对结果分析,sam文件第九列为双端比对中另一端比对到的参考基因组染色体id,若为“=”则双端比对到了同一条染色体。
对于PESs比对到参考基因组,PES1与PES2应同为正链比对或者负链比对,若比对到正链则PES1比对上的位置在PES2比对上的位置的左边,同理若比对到负链则PES2比对上的位置在PES1比对上的位置的左边。
若PES1与PES2其中一个比对到正链,另一个比对到负链,则为倒转方向嵌合;若PES1与PES2满足比对到同一条链,但比对上的位置顺序不对,则为串联方向嵌合;若PES1与PES2比对到了不同的染色体,则为嵌合;若PES1与PES2满足比对到了同一条链,且比对上的位置顺序正确,但位置间隔大于100kb,则为嵌合。
FLAG标签第五位若为1则为比对到了负链。
sam文件第四列为序列比对到参考基因组位置的最左端坐标,并且参考基因组的第一个碱基坐标为1。PES1和PES2若同为正链比对,且位置顺序正确,那么片段长度为(pos2-pos1+length(PES2));若同为负链比对,且位置顺序正确,那么片段长度为(pos1-pos2+length(PES1))。所以满足上述条件,并且片段长度在20kb-50kb之间,即为正确的双末端PESs。
V组装scaffolds序列。
本发明的有益效果在于:
(1)本发明对载体的改造使之可应用于Fosmid和BAC文库,利用机械打断或四碱基酶如BfaI(CTAG)部分酶切的方法可以构建不同长度的paired-end文库;
(2)稀有酶切位点如I-SceI的引入不仅使大片段文库插入片段的检测相比于NotI更加直观有效,并且在后续paired-end测序样品的准备中能更有效的去除载体的污染;
(3)本发明可以直接得到成对的间隔长距离的长末端,测序后可以得到单末端平均长度大于2.5kb且最长可达15kb的双末端,远远大于目前基于NGS所得到的平均长度小于200bp且最长不超过800bpd的paired-end末端,高达10倍;
(4)本发明通过抗性基因如Amp基因来区分paired-end的左右两端序列,既可以避免因传统PCR扩增方法扩增长片段而引入碱基错误,也可以通过转化克隆利用氯霉素和氨苄青霉素双抗筛选阳性目标克隆;同时,这个标签还可以通过增加随机序列进行混样测序或分级测序等;
(5)本发明可以一次性得到大量的长的成对的末端,大大节省了人力和物力,同时,在应用方面具有较大的优势。双末端之间的长跨度可以有效的跨过长的重复序列区域,有效的连接小的重叠群以及纠正错误拼装;而长末端也可以有效覆盖一些小的重复序列,在定位重叠群、鉴定小的结构变异位点上以及序列容错率上有更大的优势;不仅如此,末端序列越长,所需的测序深度越低,所需的成本越低。
附图说明
图1:本发明的技术流程图。
图2:本发明中载体改造流程图。
图3:本发明中改造后的载体质粒图谱。
图4:本发明中双末端提取示意图。图中红色箭头表示载体带Eco72I到两端I-SceI酶切位点的序列;蓝色箭头为作为标签的氨苄青霉素基因序列。
图5:本发明中左右末端长度分布图。
图6:本发明中利用双端序列将contigs组装成scaffolds。A图中未出现交叉连接的contigs,每个contig在连接图中出度入度均为1(边界处除外),这种情况很容易判断contigs之间顺序;B图即为交叉连接的contigs,某些contigs的出度入度不等于1,这种情况通常是由短序列的contig引起,很难判断contigs之间顺序。
具体实施方式
对序列表的说明
序列表SEQ ID NO:1是获得的起始载体pCC2FOS的核苷酸序列。序列长度为8181bp.。
序列表SEQ ID NO:2是A片段核苷酸序列。序列长度为637bp。
序列表SEQ ID NO:3是B片段核苷酸序列。序列长度为7544bp。
序列表SEQ ID NO:4是中间质粒pHZAUFOS2的核苷酸序列。序列长度为8176bp。
序列表SEQ ID NO:5是本发明实施例中构建的最终载体pHZAUFOS4的核苷酸序列。序列长度为8220bp。其中:在该序列的134-792位碱基为氯霉素基因;1727-2056位碱基是LacZ基因;2428-3042位碱基是oriV;1601,2253,4524,7593位是本发明的新增的四个I-SceI酶切位点;此载体上无BfaI酶切位点。
为了更好地解释本发明,以下结合具体实施例进一步阐明本发明的主要内容,但本发明的内容不仅仅局限于以下实施例。
实施例1
现以酵母为例,说明本发明的实施方式。
本实施例对酵母(Sccharomyces cerevisiae S288C)进行全基因组及长末端测序,该物种共16条染色体,全基因组序列约12Mb(注意,该实施例中的数据仅用于本发明实施过程的说明,不用作其它途径)。
改造载体
(1)设计引物以SEQ ID NO:1所示的序列的起始载体pCC2FOS为模板利用引物P1
(lacZ-F):attaccctgttatccctaGTCGGGGCTGGCTTAACTAT,在pCC2FOS载体的位置41-59和P2
(lacZ-R):attaccctgttatccctaTTCGCGTTGGCCGATTCATT,在pCC2FOS载体的位置658-677
扩增获得包含登录号为EU140752的LacZ片段,并在两端引入I-Scel酶切位点,得到如SEQ ID NO:2所示的A片段,为637bp;
(2)用NotI完全酶切pCC2FOS回收pCC2FOS骨架;
(3)pCC2FOS骨架自连,转化EPI300.-T1R E.coli;
(4)挑选pCC2FOS骨架自连的转化子,提取转化子质粒;
(5)重新设计引物P3(bone-F):ATTCAAATCGTTTTCGTTACCGC,在pCC2FOS载体的位置2251-2273和P4(bone-R):ATGCCTTCAGGAACAATAGAAATCT,在pCC2FOS载体的位置2274-2298,以转化子质粒为模板,从登录号为EU140752的氯霉素和高拷贝复制起始点中间选择一个位置,设计引物,通过PCR扩增获得新的pCC2FOS骨架片段,得到如SEQ ID NO:3所示的B片段,为7544bp;
(6)将A片段和B片段连接、转化大肠杆菌;
(7)对A片段和B片段重组子进行筛选;
(8)对筛选的阳性重组子进行测序确认,命名为pHZAUFOS2,其核苷酸序列如SEQID NO:4所示,长度为8176bp;
(9)再次设计引物P3tagggataacagggtaatGCGCTGAGCGTAAGAGCTA和P4
tagggataacagggtaatCACACCGAGGTTACTCCGTT,以阳性重组子pHZAUFOS2为模板,在载体功能元件之间分别引入两个I-Scel酶切位点,并使之间隔2kb左右;
(10)再次设计引物进行四碱基核酸内切酶BfaI(四碱基序列为CTAG)在1064,1941,1956,1981,3224,4599,6754bp这7个位点的沉默;
(11)对该载体进行测序验证,命名为pHZAUFOS4,其核苷酸序列如SEQ ID NO:4所示,长度为8220bp。
构建噬菌体(Fosmid)文库及混合池
利用冻融法对全基因组DNA进行物理打断,构建约15倍全基因组覆盖度的Fosmid文库,文库保存在12块384孔块中,共4608个Fosmid克隆;Fosmid克隆的平均插入片段大小为38kb,片段长度在20-50kb之间。
将所有克隆混合构建成一个混合池。
混合池DNA提取
将挑取、保存于384孔板的Fosmid文库克隆按5000个克隆混合于一个混合池为标准进行混合池的构建。将每个混合池中的菌液按1:500体积比例接菌入200ml的LB培养基(Cm:12.5μg/ml)中,并以1000×Copy Control Fosmid Auto Induction Solution进行诱导,37℃,250rpm,震荡培养16-20h。质粒提取方法参照QIAGEN Large-constract Kit提取手册,质粒DNA浓度要求≥150ng/μl,总量要求≥100ug。
构建Paired-end末端测序文库
Ⅰ大片段DNA文库混合池质粒DNA的打断
1、采用G-tube物理剪切法,具体步骤如下:
1)将之前提取的质粒DNA测量浓度(约100ng/μl);
2)按推荐体系150μl(约15μgDNA)进行G-tube物理剪切;
3)5417R高速冷冻离心机(Eppendorf),5000g,1min,正反各一次记为打断一次;
4)以0、1、3、5、7、9次为梯度进行DNA随机片段化得条件摸索;
5)各取20μl样品进行脉冲场电泳,并以Lambda DNA-Mono Cut Mix作为Marker标记进行筛选,0.5×TBE,14℃,0.5s-1.5s,120°,9V/cm,16h;
6)选取片段集中在10kb-17Kb的条件进行大量打断。
II大片段DNA文库克隆混合池质粒DNA的大量打断和二次筛选
1)根据部分打断的结果选取合适的方法(物理打断或部分酶切)、合适的条件进行大量破碎,并通过脉冲场电泳分离不同大小片段的DNA;
2)选取含有适宜大小范围在10kb-17kb之间DNA片段的胶条,切下后再次进行脉冲场电泳,去除夹杂在其中的小片段以降低之后连接产生的嵌合体率。
III电洗脱回收目的条带DNA
1)在凝胶成像系统下观察10Kb-17Kb DNA片段的位置,胶块的旁边放一把尺子,根据尺子刻度读出目的片段所在的位置,切取该位置的中间凝胶,浸泡在1×TAE缓冲液中;
2)剪取2段15cm长的透析袋,用灭菌的双蒸水和1×TAE将透析袋冲洗各3次,浸泡在1×TAE缓冲液中;
3)将胶块平均分成两半,分别装入两个透析袋中,加入200μL灭菌的1×TAE,轻轻挤出气泡,透析袋的两头分别用夹子夹紧,放入电泳槽中,在4℃层析柜,电压125V,电泳3h,倒转电泳仪电极,反向电泳2min;
4)取出透析膜管,取出透析袋,将透析袋外面周围的buffer吸干,打开一端的膜夹,用剪过的枪头分别吸出透析袋的液体;
5)检测吸出液体中大片段DNA的浓度(若吸出体积太大,则用Amicon Ultra-0.5centrifugal filter devices进行浓缩)。
IV目的DNA的脱磷
向50μgDNA中加25U碱性磷酸酶(CIP,NEB),混匀后置于37℃恒温水浴锅内反应1h,然后向体系中再加25U CIP酶,混匀后置于55℃恒温水浴锅内反应1h。反应完成后用酚:氯仿法去除碱性磷酸酶纯化DNA。
V目的DNA的末端修复
末端修复使用T4DNA Polymerase和klenow fragment进行修复,整个体系只能修复≤5μg的DNA,若DNA总量>5μg,可以分多体系修复,37℃反应60分钟,然后70℃高温10分钟,使酶变性失活。修复完成后用酚:氯仿法纯化浓缩DNA,并检测DNA的浓度。
VI目的DNA与Amp标签的连接
1)磷酸化Amp标签的制备
设计磷酸化引物以登录号为U03991的puc19载体为模板扩增Amp基因,使用高保真Taq酶进行平端扩增;或使用带有BfaI酶切位点的引物扩增1218bp的Amp基因并酶切产生BfaI末端的标签。PCR产物回收方法为胶回收方法,一为电洗脱DNA回收法,具体方法参照常规的因组DNA电洗脱回收法;二为常规的胶回收试剂盒DNA回收法。
2)目的DNA与Amp标签的连接
载体与插入片段摩尔数之比例为10:1是最佳的连接比例,其中Amp标签相当于载体0.5μg,相当于0.72pmol,15kb左右的插入片段0.75μg,相当于0.072pmol。平端连接,采用10μL体系进行连接;若为BfaI粘性末端连接,则可采用100μL大体系进行连接。16℃过夜,然后70℃10分钟,灭活连接酶。
VII预转化、检测
1)用剪去尖端的枪头吸取5μL连接产物加入到20μL TransforMaxTM EPI300TMElectrocompetent E.coli(Epicentre)商业感受态细胞中,混匀后加入转化杯中,尽量不要产生气泡。以325V电击后立即加入到500μL的SOC培养基中,37℃复苏1h后涂布100μL在固体培养基(含12.5μg/mL Cm,25μg/mL Amp,80μg/mL X-gal,100μg/mL IPTG)上,37℃过夜培养16h左右;
2)统计蓝白斑的数量。如果蓝斑数不多,白斑数目可以达到2000/500μL,就在不同片段的平皿中挑取一定数量的白斑,接入2mL LB培养基(含12.5μg/mL Cm,25μg/mL Amp,1000×Copy Control Fosmid Auto Induction Solution),37℃摇床过夜培养16h左右;3)利用常规的碱裂解法提取质粒,最后溶于50μL无菌水中;
4)I-SceI酶切以检测插入片段大小,I-SceI酶切体系(15μl)为:DNA(使用前稀释5倍,5μL);H2O(8.4μL);10×Buffer Tango(1.5μL);I-SceI(1U)。混匀体系,37℃酶切3-5h,65℃处理10min;
5)普通直流电泳检测。
VIII大量转化及混合池制备
1)根据上一步检测的平均插入片段大小,空载率以及预转化的白斑数量来决定是否进行大量转化。若预转化的结果符合要求,将剩余的连接产物进行电转化并涂布,37℃培养。步骤与预转化一样。
2)在超净工作台上,用烧热的镊子烫死蓝色的克隆,再用适量冰冻培养基(含有12.5μg/mL Cm,25μg/mL Amp,0.4mmol/L的MgCl2)刮取培养皿上的克隆至50ml离心管中,-20℃保存。
Paired-end末端测序文库测序样品制备
1、Paired-end末端测序文库质粒提取
将Paired-end末端测序文库混合池接菌于200ml培养基(含12.5μg/mL Cm,25μg/mL Amp中,并以1000×Copy Control Fosmid Auto Induction Solution进行诱导。用碱裂解法提取质粒。
2、Paired-end末端测序文库制备
1)I-SceI酶切以去除载体,I-SceI酶切体系(150μl)为:DNA(5μg);H2O;10×Buffer Tango;I-SceI(10U)。混匀体系,37℃酶切3-5h,
2)凝胶电泳分离
3)切胶电洗脱回收
4)使用Amicon Ultra-0.5centrifugal filter devices浓缩洗脱液,用超微量紫外分光光度计测量DNA浓度。
混合池DNA测序
利用PacBio Sequel平台对paired-end末端测序文库样品进行测序。最后得到8Gb的平均subread读长为5kb的测序数据,约667倍的基因组覆盖度。
Paired-end末端测序数据分析
对酿酒酵母(Saccharomyces cerevisiae)S288c文库的原始数据Subreads进行统计。使用SMRT Link Software(v5.1.0)中的ccs(v3.0.0)软件处理Subreads,参数为“ccs--polish--richQVs--numThreads 16--minPasses 2”。其中--minPasses设置为2意味着至少使用了两个全长Subreads产生CCS(Circular consensus sequencing)序列。然后进行CCS数据统计。
完整的含有FESs(Fosmid end sequences)的CCS序列应具有三个特征,其中VES1(Vector end sequence 1)为348bp,VES2为300bp,Amp-tag为1218bp。使用blastn(v2.7.1+)默认参数将CCS序列比对到上述三个特征上。只保留双末端序列均大于50bp的FES,然后统计FES数据。
实施例中共得到35510对FES,其左末端序列N50为3066bp,最短读长50bp,最长11925bp;右末端序列N50为3112bp,最短读长50bp,最长15528bp。
模拟构建全基因组测序重叠群
模拟得到测序深度分别为10×、20×、30×、40×、50×的酿酒酵母S288C菌株三代PacBio RS平台测序数据,利用软件PBSIM(v1.0.3)模拟数据生成。使用软件Canu(v1.7)对(1)中数据进行从头组装。调整组装得到的contigs排列顺序和方向,使用blastn(v2.7.1+)将contigs比对到酿酒酵母参考基因组序列上,提取每个contigs比对得分最高的比对结果,根据正负链比对与比对坐标起始位置进行排序。使用软件DNAdiff(v1.3)对组装得到的contigs与参考基因组比较进行验证评估,统计基因组覆盖度以及错误组装位点数,其中错误组装位点数是Relocations、Translocations、Inversions数目之和。使用NUCmer(v3.1)将调整排序后的contigs与参考基因组序列比对,然后使用mummerplot(v3.5)绘制dotplot图。使用软件SeqKit(v0.10.0)统计contigs组装结果各项指标。
重叠群定位并序列组装
将之前提取得到的FES序列比对到contigs上,利用minimap2(v2.11)软件进行比对,然后使用samtools(v1.3)去除掉低质量比对结果以及嵌合比对结果,保留双末端序列比对质量值均为60且无嵌合比对的结果,视为无歧义的比对。使用软件bamToBed(v2.27.0)将sam格式文件转为bed格式文件,得到比对坐标信息。分析sam格式文件提取正负链比对信息,sam文件第二列为二进制的FLAG标签,其二进制数第七位若为1代表双端比对的第一段序列,第八位若为1代表双端比对的第二段序列,第五位若为1代表序列比对到负链,判断二进制数某一位是否为1的公式如下:
(N>>(B-1))&1
式中:N为二进制数,B为欲知的位,>>为位运算符中右移动运算符,&为按位与运算符;
根据正负链比对与比对坐标提取双端比对方向相同且双端比对坐标(5’端至5’端,3’端至3’端)间隔小于20bp的序列,考虑到测序不区分正负链,提取比对方向相反(FF与RR)且双端比对坐标(5’端至3’端,3’端至5’端)间隔小于20bp的序列,提取比对方向相同(FR与FR)且比对坐标(5’端至3’端,3’端至5’端)间隔小于20bp的序列,提取比对方向相同(RF与RF)且比对坐标(5’端至3’端,3’端至5’端)间隔小于20bp的序列,视为来自于一个克隆的多个双端序列。通过比对坐标计算来自于一个克隆的多个双端序列各自的总长,保留总长度最长的双端序列作为该克隆的双末端序列,即去除了同一个克隆的重复比对结果。将去重复后的比对结果转为TAB格式,使用软件SSPACE(v3.0)结合前述contigs利用TAB格式文件组装scaffolds,双端序列相对方向设置为FF,插入片段长度平均值设置为38000,插入片段长度最小允许错误比例为0.3。调整组装得到的scaffolds排列顺序和方向,使用blastn(v2.7.1+)将scaffolds比对到酿酒酵母参考基因组序列上,根据正负链比对与比对坐标进行排序。使用软件DNAdiff(v1.3)对组装得到的scaffolds与参考基因组比较进行验证评估,统计基因组覆盖度以及错误组装位点数,其中错误组装位点数是Relocations、Translocations、Inversions数目之和。
使用PacBio测序深度20×,Fosmid文库物理深度10×双端序列的组装结果与酿酒酵母参考基因组做全基因组比对。发现除了7号染色体没有组装完整,由3个scaffolds组成,其余染色体组装完整,均由1个scaffold覆盖。使用三代测序深度30×,Fosmid文库物理深度20×双端序列的组装结果与参考基因组做全基因组比对,可见酿酒酵母16条染色体及线粒体基因组均被组装完整。实施例中使用真实10倍物理覆盖度的Fosmid文库克隆末端于30倍PacBio测序深度组装出来的全基因组scaffolds为29个,scaffold N50为802。
序列表
<110>华中农业大学
<120>一种长片段DNA文库长配对末端测序方法
<141>2019-06-18
<160>5
<170>SIPOSequenceListing 1.0
<210>1
<211>8181
<212>DNA
<213>大肠杆菌(Escherichia coli)
<220>
<221>gene
<222>(1)..(8181)
<400>1
gcggccgcaa ggggttcgcg tcagcgggtg ttggcgggtg tcggggctgg cttaactatg60
cggcatcaga gcagattgta ctgagagtgc accatatgcg gtgtgaaata ccgcacagat 120
gcgtaaggag aaaataccgc atcaggcgcc attcgccatt cagctgcgca actgttggga 180
agggcgatcg gtgcgggcct cttcgctatt acgccagctg gcgaaagggg gatgtgctgc 240
aaggcgatta agttgggtaa cgccagggtt ttcccagtca cgacgttgta aaacgacggc 300
cagtgaattg taatacgact cactataggg cgaattcgag ctcggtaccc ggggatccca 360
cgtacaacga cacctagacc acgtgttcct aggctgtttc ctggtgggat cctctagagt 420
cgacctgcag gcatgcaagc ttgagtattc tatagtctca cctaaatagc ttggcgtaat 480
catggtcata gctgtttcct gtgtgaaatt gttatccgct cacaattcca cacaacatac 540
gagccggaag cataaagtgt aaagcctggg gtgcctaatg agtgagctaa ctcacattaa 600
ttgcgttgcg ctcactgccc gctttccagt cgggaaacct gtcgtgccag ctgcattaat 660
gaatcggcca acgcgaaccc cttgcggccg cccgggccgt cgaccaattc tcatgtttga 720
cagcttatca tcgaatttct gccattcatc cgcttattat cacttattca ggcgtagcaa 780
ccaggcgttt aagggcacca ataactgcct taaaaaaatt acgccccgcc ctgccactca 840
tcgcagtact gttgtaattc attaagcatt ctgccgacat ggaagccatc acaaacggca 900
tgatgaacct gaatcgccag cggcatcagc accttgtcgc cttgcgtata atatttgccc 960
atggtgaaaa cgggggcgaa gaagttgtcc atattggcca cgtttaaatc aaaactggtg1020
aaactcaccc agggattggc tgagacgaaa aacatattct caataaaccc tttagggaaa1080
taggccaggt tttcaccgta acacgccaca tcttgcgaat atatgtgtag aaactgccgg1140
aaatcgtcgt ggtattcact ccagagcgat gaaaacgttt cagtttgctc atggaaaacg1200
gtgtaacaag ggtgaacact atcccatatc accagctcac cgtctttcat tgccatacga1260
aattccggat gagcattcat caggcgggca agaatgtgaa taaaggccgg ataaaacttg1320
tgcttatttt tctttacggt ctttaaaaag gccgtaatat ccagctgaac ggtctggtta1380
taggtacatt gagcaactga ctgaaatgcc tcaaaatgtt ctttacgatg ccattgggat1440
atatcaacgg tggtatatcc agtgattttt ttctccattt tagcttcctt agctcctgaa1500
aatctcgata actcaaaaaa tacgcccggt agtgatctta tttcattatg gtgaaagttg1560
gaacctctta cgtgccgatc aacgtctcat tttcgccaaa agttggccca gggcttcccg1620
gtatcaacag ggacaccagg atttatttat tctgcgaagt gatcttccgt cacaggtatt1680
tattcgcgat aagctcatgg agcggcgtaa ccgtcgcaca ggaaggacag agaaagcgcg1740
gatctgggaa gtgacggaca gaacggtcag gacctggatt ggggaggcgg ttgccgccgc1800
tgctgctgac ggtgtgacgt tctctgttcc ggtcacacca catacgttcc gccattccta1860
tgcgatgcac atgctgtatg ccggtatacc gctgaaagtt ctgcaaagcc tgatgggaca1920
taagtccatc agttcaacgg aagtctacac gaaggttttt gcgctggatg tggctgcccg1980
gcaccgggtg cagtttgcga tgccggagtc tgatgcggtt gcgatgctga aacaattatc2040
ctgagaataa atgccttggc ctttatatgg aaatgtggaa ctgagtggat atgctgtttt2100
tgtctgttaa acagagaagc tggctgttat ccactgagaa gcgaacgaaa cagtcgggaa2160
aatctcccat tatcgtagag atccgcatta ttaatctcag gagcctgtgt agcgtttata2220
ggaagtagtg ttctgtcatg atgcctgcaa gcggtaacga aaacgatttg aatatgcctt2280
caggaacaat agaaatcttc gtgcggtgtt acgttgaagt ggagcggatt atgtcagcaa2340
tggacagaac aacctaatga acacagaacc atgatgtggt ctgtcctttt acagccagta2400
gtgctcgccg cagtcgagcg acagggcgaa gccctcggct ggttgccctc gccgctgggc2460
tggcggccgt ctatggccct gcaaacgcgc cagaaacgcc gtcgaagccg tgtgcgagac2520
accgcggccg gccgccggcg ttgtggatac ctcgcggaaa acttggccct cactgacaga2580
tgaggggcgg acgttgacac ttgaggggcc gactcacccg gcgcggcgtt gacagatgag2640
gggcaggctc gatttcggcc ggcgacgtgg agctggccag cctcgcaaat cggcgaaaac2700
gcctgatttt acgcgagttt cccacagatg atgtggacaa gcctggggat aagtgccctg2760
cggtattgac acttgagggg cgcgactact gacagatgag gggcgcgatc cttgacactt2820
gaggggcaga gtgctgacag atgaggggcg cacctattga catttgaggg gctgtccaca2880
ggcagaaaat ccagcatttg caagggtttc cgcccgtttt tcggccaccg ctaacctgtc2940
ttttaacctg cttttaaacc aatatttata aaccttgttt ttaaccaggg ctgcgccctg3000
tgcgcgtgac cgcgcacgcc gaaggggggt gccccccctt ctcgaaccct cccggtcgag3060
tgagcgagga agcaccaggg aacagcactt atatattctg cttacacacg atgcctgaaa3120
aaacttccct tggggttatc cacttatcca cggggatatt tttataatta ttttttttat3180
agtttttaga tcttcttttt tagagcgcct tgtaggcctt tatccatgct ggttctagag3240
aaggtgttgt gacaaattgc cctttcagtg tgacaaatca ccctcaaatg acagtcctgt3300
ctgtgacaaa ttgcccttaa ccctgtgaca aattgccctc agaagaagct gttttttcac3360
aaagttatcc ctgcttattg actctttttt atttagtgtg acaatctaaa aacttgtcac3420
acttcacatg gatctgtcat ggcggaaaca gcggttatca atcacaagaa acgtaaaaat3480
agcccgcgaa tcgtccagtc aaacgacctc actgaggcgg catatagtct ctcccgggat3540
caaaaacgta tgctgtatct gttcgttgac cagatcagaa aatctgatgg caccctacag3600
gaacatgacg gtatctgcga gatccatgtt gctaaatatg ctgaaatatt cggattgacc3660
tctgcggaag ccagtaagga tatacggcag gcattgaaga gtttcgcggg gaaggaagtg3720
gttttttatc gccctgaaga ggatgccggc gatgaaaaag gctatgaatc ttttccttgg3780
tttatcaaac gtgcgcacag tccatccaga gggctttaca gtgtacatat caacccatat3840
ctcattccct tctttatcgg gttacagaac cggtttacgc agtttcggct tagtgaaaca3900
aaagaaatca ccaatccgta tgccatgcgt ttatacgaat ccctgtgtca gtatcgtaag3960
ccggatggct caggcatcgt ctctctgaaa atcgactgga tcatagagcg ttaccagctg4020
cctcaaagtt accagcgtat gcctgacttc cgccgccgct tcctgcaggt ctgtgttaat4080
gagatcaaca gcagaactcc aatgcgcctc tcatacattg agaaaaagaa aggccgccag4140
acgactcata tcgtattttc cttccgcgat atcacttcca tgacgacagg atagtctgag4200
ggttatctgt cacagatttg agggtggttc gtcacatttg ttctgaccta ctgagggtaa4260
tttgtcacag ttttgctgtt tccttcagcc tgcatggatt ttctcatact ttttgaactg4320
taatttttaa ggaagccaaa tttgagggca gtttgtcaca gttgatttcc ttctctttcc4380
cttcgtcatg tgacctgata tcgggggtta gttcgtcatc attgatgagg gttgattatc4440
acagtttatt actctgaatt ggctatccgc gtgtgtacct ctacctggag tttttcccac4500
ggtggatatt tcttcttgcg ctgagcgtaa gagctatctg acagaacagt tcttctttgc4560
ttcctcgcca gttcgctcgc tatgctcggt tacacggctg cggcgagcgc tagtgataat4620
aagtgactga ggtatgtgct cttcttatct ccttttgtag tgttgctctt attttaaaca4680
actttgcggt tttttgatga ctttgcgatt ttgttgttgc tttgcagtaa attgcaagat4740
ttaataaaaa aacgcaaagc aatgattaaa ggatgttcag aatgaaactc atggaaacac4800
ttaaccagtg cataaacgct ggtcatgaaa tgacgaaggc tatcgccatt gcacagttta4860
atgatgacag cccggaagcg aggaaaataa cccggcgctg gagaataggt gaagcagcgg4920
atttagttgg ggtttcttct caggctatca gagatgccga gaaagcaggg cgactaccgc4980
acccggatat ggaaattcga ggacgggttg agcaacgtgt tggttataca attgaacaaa5040
ttaatcatat gcgtgatgtg tttggtacgc gattgcgacg tgctgaagac gtatttccac5100
cggtgatcgg ggttgctgcc cataaaggtg gcgtttacaa aacctcagtt tctgttcatc5160
ttgctcagga tctggctctg aaggggctac gtgttttgct cgtggaaggt aacgaccccc5220
agggaacagc ctcaatgtat cacggatggg taccagatct tcatattcat gcagaagaca5280
ctctcctgcc tttctatctt ggggaaaagg acgatgtcac ttatgcaata aagcccactt5340
gctggccggg gcttgacatt attccttcct gtctggctct gcaccgtatt gaaactgagt5400
taatgggcaa atttgatgaa ggtaaactgc ccaccgatcc acacctgatg ctccgactgg5460
ccattgaaac tgttgctcat gactatgatg tcatagttat tgacagcgcg cctaacctgg5520
gtatcggcac gattaatgtc gtatgtgctg ctgatgtgct gattgttccc acgcctgctg5580
agttgtttga ctacacctcc gcactgcagt ttttcgatat gcttcgtgat ctgctcaaga5640
acgttgatct taaagggttc gagcctgatg tacgtatttt gcttaccaaa tacagcaata5700
gtaatggctc tcagtccccg tggatggagg agcaaattcg ggatgcctgg ggaagcatgg5760
ttctaaaaaa tgttgtacgt gaaacggatg aagttggtaa aggtcagatc cggatgagaa5820
ctgtttttga acaggccatt gatcaacgct cttcaactgg tgcctggaga aatgctcttt5880
ctatttggga acctgtctgc aatgaaattt tcgatcgtct gattaaacca cgctgggaga5940
ttagataatg aagcgtgcgc ctgttattcc aaaacatacg ctcaatactc aaccggttga6000
agatacttcg ttatcgacac cagctgcccc gatggtggat tcgttaattg cgcgcgtagg6060
agtaatggct cgcggtaatg ccattacttt gcctgtatgt ggtcgggatg tgaagtttac6120
tcttgaagtg ctccggggtg atagtgttga gaagacctct cgggtatggt caggtaatga6180
acgtgaccag gagctgctta ctgaggacgc actggatgat ctcatccctt cttttctact6240
gactggtcaa cagacaccgg cgttcggtcg aagagtatct ggtgtcatag aaattgccga6300
tgggagtcgc cgtcgtaaag ctgctgcact taccgaaagt gattatcgtg ttctggttgg6360
cgagctggat gatgagcaga tggctgcatt atccagattg ggtaacgatt atcgcccaac6420
aagtgcttat gaacgtggtc agcgttatgc aagccgattg cagaatgaat ttgctggaaa6480
tatttctgcg ctggctgatg cggaaaatat ttcacgtaag attattaccc gctgtatcaa6540
caccgccaaa ttgcctaaat cagttgttgc tcttttttct caccccggtg aactatctgc6600
ccggtcaggt gatgcacttc aaaaagcctt tacagataaa gaggaattac ttaagcagca6660
ggcatctaac cttcatgagc agaaaaaagc tggggtgata tttgaagctg aagaagttat6720
cactctttta acttctgtgc ttaaaacgtc atctgcatca agaactagtt taagctcacg6780
acatcagttt gctcctggag cgacagtatt gtataagggc gataaaatgg tgcttaacct6840
ggacaggtct cgtgttccaa ctgagtgtat agagaaaatt gaggccattc ttaaggaact6900
tgaaaagcca gcaccctgat gcgaccacgt tttagtctac gtttatctgt ctttacttaa6960
tgtcctttgt tacaggccag aaagcataac tggcctgaat attctctctg ggcccactgt7020
tccacttgta tcgtcggtct gataatcaga ctgggaccac ggtcccactc gtatcgtcgg7080
tctgattatt agtctgggac cacggtccca ctcgtatcgt cggtctgatt attagtctgg7140
gaccacggtc ccactcgtat cgtcggtctg ataatcagac tgggaccacg gtcccactcg7200
tatcgtcggt ctgattatta gtctgggacc atggtcccac tcgtatcgtc ggtctgatta7260
ttagtctggg accacggtcc cactcgtatc gtcggtctga ttattagtct ggaaccacgg7320
tcccactcgt atcgtcggtc tgattattag tctgggacca cggtcccact cgtatcgtcg7380
gtctgattat tagtctggga ccacgatccc actcgtgttg tcggtctgat tatcggtctg7440
ggaccacggt cccacttgta ttgtcgatca gactatcagc gtgagactac gattccatca7500
atgcctgtca agggcaagta ttgacatgtc gtcgtaacct gtagaacgga gtaacctcgg7560
tgtgcggttg tatgcctgct gtggattgct gctgtgtcct gcttatccac aacattttgc7620
gcacggttat gtggacaaaa tacctggtta cccaggccgt gccggcacgt taaccgggct7680
gcatccgatg caagtgtgtc gctgtcgacg agctcgcgag ctcggacatg aggttgcccc7740
gtattcagtg tcgctgattt gtattgtctg aagttgtttt tacgttaagt tgatgcagat7800
caattaatac gatacctgcg tcataattga ttatttgacg tggtttgatg gcctccacgc7860
acgttgtgat atgtagatga taatcattat cactttacgg gtcctttccg gtgatccgac7920
aggttacggg gcggcgacct cgcgggtttt cgctatttat gaaaattttc cggtttaagg7980
cgtttccgtt cttcttcgtc ataacttaat gtttttattt aaaataccct ctgaaaagaa8040
aggaaacgac aggtgctgaa agcgagcttt ttggcctctg tcgtttcctt tctctgtttt8100
tgtccgtgga atgaacaatg gaagtccgag ctcatcgcta ataacttcgt atagcataca8160
ttatacgaag ttatattcga t8181
<210>2
<211>637
<212>DNA
<213>β一半乳糖苷酶(Beta-half lactosinase)
<220>
<221>gene
<222>(1)..(637)
<400>2
gtcggggctg gcttaactat gcggcatcag agcagattgt actgagagtg caccatatgc60
ggtgtgaaat accgcacaga tgcgtaagga gaaaataccg catcaggcgc cattcgccat 120
tcagctgcgc aactgttggg aagggcgatc ggtgcgggcc tcttcgctat tacgccagct 180
ggcgaaaggg ggatgtgctg caaggcgatt aagttgggta acgccagggt tttcccagtc 240
acgacgttgt aaaacgacgg ccagtgaatt gtaatacgac tcactatagg gcgaattcga 300
gctcggtacc cggggatccc acgtacaacg acacctagac cacgtgttcc taggctgttt 360
cctggtggga tcctctagag tcgacctgca ggcatgcaag cttgagtatt ctatagtctc 420
acctaaatag cttggcgtaa tcatggtcat agctgtttcc tgtgtgaaat tgttatccgc 480
tcacaattcc acacaacata cgagccggaa gcataaagtg taaagcctgg ggtgcctaat 540
gagtgagcta actcacatta attgcgttgc gctcactgcc cgctttccag tcgggaaacc 600
tgtcgtgcca gctgcattaa tgaatcggcc aacgcga637
<210>3
<211>7554
<212>DNA
<213>大肠杆菌(Escherichia coli)
<220>
<221>gene
<222>(1)..(7554)
<400>3
atgccttcag gaacaataga aatcttcgtg cggtgttacg ttgaagtgga gcggattatg60
tcagcaatgg acagaacaac ctaatgaaca cagaaccatg atgtggtctg tccttttaca 120
gccagtagtg ctcgccgcag tcgagcgaca gggcgaagcc ctcggctggt tgccctcgcc 180
gctgggctgg cggccgtcta tggccctgca aacgcgccag aaacgccgtc gaagccgtgt 240
gcgagacacc gcggccggcc gccggcgttg tggatacctc gcggaaaact tggccctcac 300
tgacagatga ggggcggacg ttgacacttg aggggccgac tcacccggcg cggcgttgac 360
agatgagggg caggctcgat ttcggccggc gacgtggagc tggccagcct cgcaaatcgg 420
cgaaaacgcc tgattttacg cgagtttccc acagatgatg tggacaagcc tggggataag 480
tgccctgcgg tattgacact tgaggggcgc gactactgac agatgagggg cgcgatcctt 540
gacacttgag gggcagagtg ctgacagatg aggggcgcac ctattgacat ttgaggggct 600
gtccacaggc agaaaatcca gcatttgcaa gggtttccgc ccgtttttcg gccaccgcta 660
acctgtcttt taacctgctt ttaaaccaat atttataaac cttgttttta accagggctg 720
cgccctgtgc gcgtgaccgc gcacgccgaa ggggggtgcc cccccttctc gaaccctccc 780
ggtcgagtga gcgaggaagc accagggaac agcacttata tattctgctt acacacgatg 840
cctgaaaaaa cttcccttgg ggttatccac ttatccacgg ggatattttt ataattattt 900
tttttatagt ttttagatct tcttttttag agcgccttgt aggcctttat ccatgctggt 960
tctagagaag gtgttgtgac aaattgccct ttcagtgtga caaatcaccc tcaaatgaca1020
gtcctgtctg tgacaaattg cccttaaccc tgtgacaaat tgccctcaga agaagctgtt1080
ttttcacaaa gttatccctg cttattgact cttttttatt tagtgtgaca atctaaaaac1140
ttgtcacact tcacatggat ctgtcatggc ggaaacagcg gttatcaatc acaagaaacg1200
taaaaatagc ccgcgaatcg tccagtcaaa cgacctcact gaggcggcat atagtctctc1260
ccgggatcaa aaacgtatgc tgtatctgtt cgttgaccag atcagaaaat ctgatggcac1320
cctacaggaa catgacggta tctgcgagat ccatgttgct aaatatgctg aaatattcgg1380
attgacctct gcggaagcca gtaaggatat acggcaggca ttgaagagtt tcgcggggaa1440
ggaagtggtt ttttatcgcc ctgaagagga tgccggcgat gaaaaaggct atgaatcttt1500
tccttggttt atcaaacgtg cgcacagtcc atccagaggg ctttacagtg tacatatcaa1560
cccatatctc attcccttct ttatcgggtt acagaaccgg tttacgcagt ttcggcttag1620
tgaaacaaaa gaaatcacca atccgtatgc catgcgttta tacgaatccc tgtgtcagta1680
tcgtaagccg gatggctcag gcatcgtctc tctgaaaatc gactggatca tagagcgtta1740
ccagctgcct caaagttacc agcgtatgcc tgacttccgc cgccgcttcc tgcaggtctg1800
tgttaatgag atcaacagca gaactccaat gcgcctctca tacattgaga aaaagaaagg1860
ccgccagacg actcatatcg tattttcctt ccgcgatatc acttccatga cgacaggata1920
gtctgagggt tatctgtcac agatttgagg gtggttcgtc acatttgttc tgacctactg1980
agggtaattt gtcacagttt tgctgtttcc ttcagcctgc atggattttc tcatactttt2040
tgaactgtaa tttttaagga agccaaattt gagggcagtt tgtcacagtt gatttccttc2100
tctttccctt cgtcatgtga cctgatatcg ggggttagtt cgtcatcatt gatgagggtt2160
gattatcaca gtttattact ctgaattggc tatccgcgtg tgtacctcta cctggagttt2220
ttcccacggt ggatatttct tcttgcgctg agcgtaagag ctatctgaca gaacagttct2280
tctttgcttc ctcgccagtt cgctcgctat gctcggttac acggctgcgg cgagcgctag2340
tgataataag tgactgaggt atgtgctctt cttatctcct tttgtagtgt tgctcttatt2400
ttaaacaact ttgcggtttt ttgatgactt tgcgattttg ttgttgcttt gcagtaaatt2460
gcaagattta ataaaaaaac gcaaagcaat gattaaagga tgttcagaat gaaactcatg2520
gaaacactta accagtgcat aaacgctggt catgaaatga cgaaggctat cgccattgca2580
cagtttaatg atgacagccc ggaagcgagg aaaataaccc ggcgctggag aataggtgaa2640
gcagcggatt tagttggggt ttcttctcag gctatcagag atgccgagaa agcagggcga2700
ctaccgcacc cggatatgga aattcgagga cgggttgagc aacgtgttgg ttatacaatt2760
gaacaaatta atcatatgcg tgatgtgttt ggtacgcgat tgcgacgtgc tgaagacgta2820
tttccaccgg tgatcggggt tgctgcccat aaaggtggcg tttacaaaac ctcagtttct2880
gttcatcttg ctcaggatct ggctctgaag gggctacgtg ttttgctcgt ggaaggtaac2940
gacccccagg gaacagcctc aatgtatcac ggatgggtac cagatcttca tattcatgca3000
gaagacactc tcctgccttt ctatcttggg gaaaaggacg atgtcactta tgcaataaag3060
cccacttgct ggccggggct tgacattatt ccttcctgtc tggctctgca ccgtattgaa3120
actgagttaa tgggcaaatt tgatgaaggt aaactgccca ccgatccaca cctgatgctc3180
cgactggcca ttgaaactgt tgctcatgac tatgatgtca tagttattga cagcgcgcct3240
aacctgggta tcggcacgat taatgtcgta tgtgctgctg atgtgctgat tgttcccacg3300
cctgctgagt tgtttgacta cacctccgca ctgcagtttt tcgatatgct tcgtgatctg3360
ctcaagaacg ttgatcttaa agggttcgag cctgatgtac gtattttgct taccaaatac3420
agcaatagta atggctctca gtccccgtgg atggaggagc aaattcggga tgcctgggga3480
agcatggttc taaaaaatgt tgtacgtgaa acggatgaag ttggtaaagg tcagatccgg3540
atgagaactg tttttgaaca ggccattgat caacgctctt caactggtgc ctggagaaat3600
gctctttcta tttgggaacc tgtctgcaat gaaattttcg atcgtctgat taaaccacgc3660
tgggagatta gataatgaag cgtgcgcctg ttattccaaa acatacgctc aatactcaac3720
cggttgaaga tacttcgtta tcgacaccag ctgccccgat ggtggattcg ttaattgcgc3780
gcgtaggagt aatggctcgc ggtaatgcca ttactttgcc tgtatgtggt cgggatgtga3840
agtttactct tgaagtgctc cggggtgata gtgttgagaa gacctctcgg gtatggtcag3900
gtaatgaacg tgaccaggag ctgcttactg aggacgcact ggatgatctc atcccttctt3960
ttctactgac tggtcaacag acaccggcgt tcggtcgaag agtatctggt gtcatagaaa4020
ttgccgatgg gagtcgccgt cgtaaagctg ctgcacttac cgaaagtgat tatcgtgttc4080
tggttggcga gctggatgat gagcagatgg ctgcattatc cagattgggt aacgattatc4140
gcccaacaag tgcttatgaa cgtggtcagc gttatgcaag ccgattgcag aatgaatttg4200
ctggaaatat ttctgcgctg gctgatgcgg aaaatatttc acgtaagatt attacccgct4260
gtatcaacac cgccaaattg cctaaatcag ttgttgctct tttttctcac cccggtgaac4320
tatctgcccg gtcaggtgat gcacttcaaa aagcctttac agataaagag gaattactta4380
agcagcaggc atctaacctt catgagcaga aaaaagctgg ggtgatattt gaagctgaag4440
aagttatcac tcttttaact tctgtgctta aaacgtcatc tgcatcaaga actagtttaa4500
gctcacgaca tcagtttgct cctggagcga cagtattgta taagggcgat aaaatggtgc4560
ttaacctgga caggtctcgt gttccaactg agtgtataga gaaaattgag gccattctta4620
aggaacttga aaagccagca ccctgatgcg accacgtttt agtctacgtt tatctgtctt4680
tacttaatgt cctttgttac aggccagaaa gcataactgg cctgaatatt ctctctgggc4740
ccactgttcc acttgtatcg tcggtctgat aatcagactg ggaccacggt cccactcgta4800
tcgtcggtct gattattagt ctgggaccac ggtcccactc gtatcgtcgg tctgattatt4860
agtctgggac cacggtccca ctcgtatcgt cggtctgata atcagactgg gaccacggtc4920
ccactcgtat cgtcggtctg attattagtc tgggaccatg gtcccactcg tatcgtcggt4980
ctgattatta gtctgggacc acggtcccac tcgtatcgtc ggtctgatta ttagtctgga5040
accacggtcc cactcgtatc gtcggtctga ttattagtct gggaccacgg tcccactcgt5100
atcgtcggtc tgattattag tctgggacca cgatcccact cgtgttgtcg gtctgattat5160
cggtctggga ccacggtccc acttgtattg tcgatcagac tatcagcgtg agactacgat5220
tccatcaatg cctgtcaagg gcaagtattg acatgtcgtc gtaacctgta gaacggagta5280
acctcggtgt gcggttgtat gcctgctgtg gattgctgct gtgtcctgct tatccacaac5340
attttgcgca cggttatgtg gacaaaatac ctggttaccc aggccgtgcc ggcacgttaa5400
ccgggctgca tccgatgcaa gtgtgtcgct gtcgacgagc tcgcgagctc ggacatgagg5460
ttgccccgta ttcagtgtcg ctgatttgta ttgtctgaag ttgtttttac gttaagttga5520
tgcagatcaa ttaatacgat acctgcgtca taattgatta tttgacgtgg tttgatggcc5580
tccacgcacg ttgtgatatg tagatgataa tcattatcac tttacgggtc ctttccggtg5640
atccgacagg ttacggggcg gcgacctcgc gggttttcgc tatttatgaa aattttccgg5700
tttaaggcgt ttccgttctt cttcgtcata acttaatgtt tttatttaaa ataccctctg5760
aaaagaaagg aaacgacagg tgctgaaagc gagctttttg gcctctgtcg tttcctttct5820
ctgtttttgt ccgtggaatg aacaatggaa gtccgagctc atcgctaata acttcgtata5880
gcatacatta tacgaagtta tattcgatgc ggccgcaagg ggttcgcgtc agcgggtgtt5940
ggcgggtgcc aacgcgaacc ccttgcggcc gcccgggccg tcgaccaatt ctcatgtttg6000
acagcttatc atcgaatttc tgccattcat ccgcttatta tcacttattc aggcgtagca6060
accaggcgtt taagggcacc aataactgcc ttaaaaaaat tacgccccgc cctgccactc6120
atcgcagtac tgttgtaatt cattaagcat tctgccgaca tggaagccat cacaaacggc6180
atgatgaacc tgaatcgcca gcggcatcag caccttgtcg ccttgcgtat aatatttgcc6240
catggtgaaa acgggggcga agaagttgtc catattggcc acgtttaaat caaaactggt6300
gaaactcacc cagggattgg ctgagacgaa aaacatattc tcaataaacc ctttagggaa6360
ataggccagg ttttcaccgt aacacgccac atcttgcgaa tatatgtgta gaaactgccg6420
gaaatcgtcg tggtattcac tccagagcga tgaaaacgtt tcagtttgct catggaaaac6480
ggtgtaacaa gggtgaacac tatcccatat caccagctca ccgtctttca ttgccatacg6540
aaattccgga tgagcattca tcaggcgggc aagaatgtga ataaaggccg gataaaactt6600
gtgcttattt ttctttacgg tctttaaaaa ggccgtaata tccagctgaa cggtctggtt6660
ataggtacat tgagcaactg actgaaatgc ctcaaaatgt tctttacgat gccattggga6720
tatatcaacg gtggtatatc cagtgatttt tttctccatt ttagcttcct tagctcctga6780
aaatctcgat aactcaaaaa atacgcccgg tagtgatctt atttcattat ggtgaaagtt6840
ggaacctctt acgtgccgat caacgtctca ttttcgccaa aagttggccc agggcttccc6900
ggtatcaaca gggacaccag gatttattta ttctgcgaag tgatcttccg tcacaggtat6960
ttattcgcga taagctcatg gagcggcgta accgtcgcac aggaaggaca gagaaagcgc7020
ggatctggga agtgacggac agaacggtca ggacctggat tggggaggcg gttgccgccg7080
ctgctgctga cggtgtgacg ttctctgttc cggtcacacc acatacgttc cgccattcct7140
atgcgatgca catgctgtat gccggtatac cgctgaaagt tctgcaaagc ctgatgggac7200
ataagtccat cagttcaacg gaagtctaca cgaaggtttt tgcgctggat gtggctgccc7260
ggcaccgggt gcagtttgcg atgccggagt ctgatgcggt tgcgatgctg aaacaattat7320
cctgagaata aatgccttgg cctttatatg gaaatgtgga actgagtgga tatgctgttt7380
ttgtctgtta aacagagaag ctggctgtta tccactgaga agcgaacgaa acagtcggga7440
aaatctccca ttatcgtaga gatccgcatt attaatctca ggagcctgtg tagcgtttat7500
aggaagtagt gttctgtcat gatgcctgca agcggtaacg aaaacgattt gaat7554
<210>4
<211>8176
<212>DNA
<213>大肠杆菌(Escherichia coli)
<220>
<221>gene
<222>(1)..(8176)
<400>4
ggccgcccgg gccgtcgacc aattctcatg tttgacagct tatcatcgaa tttctgccat60
tcatccgctt attatcactt attcaggcgt agcaaccagg cgtttaaggg caccaataac 120
tgccttaaaa aaattacgcc ccgccctgcc actcatcgca gtactgttgt aattcattaa 180
gcattctgcc gacatggaag ccatcacaaa cggcatgatg aacctgaatc gccagcggca 240
tcagcacctt gtcgccttgc gtataatatt tgcccatggt gaaaacgggg gcgaagaagt 300
tgtccatatt ggccacgttt aaatcaaaac tggtgaaact cacccaggga ttggctgaga 360
cgaaaaacat attctcaata aaccctttag ggaaataggc caggttttca ccgtaacacg 420
ccacatcttg cgaatatatg tgtagaaact gccggaaatc gtcgtggtat tcactccaga 480
gcgatgaaaa cgtttcagtt tgctcatgga aaacggtgta acaagggtga acactatccc 540
atatcaccag ctcaccgtct ttcattgcca tacgaaattc cggatgagca ttcatcaggc 600
gggcaagaat gtgaataaag gccggataaa acttgtgctt atttttcttt acggtcttta 660
aaaaggccgt aatatccagc tgaacggtct ggttataggt acattgagca actgactgaa 720
atgcctcaaa atgttcttta cgatgccatt gggatatatc aacggtggta tatccagtga 780
tttttttctc cattttagct tccttagctc ctgaaaatct cgataactca aaaaatacgc 840
ccggtagtga tcttatttca ttatggtgaa agttggaacc tcttacgtgc cgatcaacgt 900
ctcattttcg ccaaaagttg gcccagggct tcccggtatc aacagggaca ccaggattta 960
tttattctgc gaagtgatct tccgtcacag gtatttattc gcgataagct catggagcgg1020
cgtaaccgtc gcacaggaag gacagagaaa gcgcggatct gggaagtgac ggacagaacg1080
gtcaggacct ggattgggga ggcggttgcc gccgctgctg ctgacggtgt gacgttctct1140
gttccggtca caccacatac gttccgccat tcctatgcga tgcacatgct gtatgccggt1200
ataccgctga aagttctgca aagcctgatg ggacataagt ccatcagttc aacggaagtc1260
tacacgaagg tttttgcgct ggatgtggct gcccggcacc gggtgcagtt tgcgatgccg1320
gagtctgatg cggttgcgat gctgaaacaa ttatcctgag aataaatgcc ttggccttta1380
tatggaaatg tggaactgag tggatatgct gtttttgtct gttaaacaga gaagctggct1440
gttatccact gagaagcgaa cgaaacagtc gggaaaatct cccattatcg tagagatccg1500
cattattaat ctcaggagcc tgtgtagcgt ttataggaag tagtgttctg tcatgatgcc1560
tgcaagcggt aacgaaaacg atttgaatat taccctgtta tccctagtcg gggctggctt1620
aactatgcgg catcagagca gattgtactg agagtgcacc atatgcggtg tgaaataccg1680
cacagatgcg taaggagaaa ataccgcatc aggcgccatt cgccattcag ctgcgcaact1740
gttgggaagg gcgatcggtg cgggcctctt cgctattacg ccagctggcg aaagggggat1800
gtgctgcaag gcgattaagt tgggtaacgc cagggttttc ccagtcacga cgttgtaaaa1860
cgacggccag tgaattgtaa tacgactcac tatagggcga attcgagctc ggtacccggg1920
gatcccacgt acaacgacac ctagaccacg tgttcctagg ctgtttcctg gtgggatcct1980
ctagagtcga cctgcaggca tgcaagcttg agtattctat agtctcacct aaatagcttg2040
gcgtaatcat ggtcatagct gtttcctgtg tgaaattgtt atccgctcac aattccacac2100
aacatacgag ccggaagcat aaagtgtaaa gcctggggtg cctaatgagt gagctaactc2160
acattaattg cgttgcgctc actgcccgct ttccagtcgg gaaacctgtc gtgccagctg2220
cattaatgaa tcggccaacg cgaataggga taacagggta atatgccttc aggaacaata2280
gaaatcttcg tgcggtgtta cgttgaagtg gagcggatta tgtcagcaat ggacagaaca2340
acctaatgaa cacagaacca tgatgtggtc tgtcctttta cagccagtag tgctcgccgc2400
agtcgagcga cagggcgaag ccctcggctg gttgccctcg ccgctgggct ggcggccgtc2460
tatggccctg caaacgcgcc agaaacgccg tcgaagccgt gtgcgagaca ccgcggccgg2520
ccgccggcgt tgtggatacc tcgcggaaaa cttggccctc actgacagat gaggggcgga2580
cgttgacact tgaggggccg actcacccgg cgcggcgttg acagatgagg ggcaggctcg2640
atttcggccg gcgacgtgga gctggccagc ctcgcaaatc ggcgaaaacg cctgatttta2700
cgcgagtttc ccacagatga tgtggacaag cctggggata agtgccctgc ggtattgaca2760
cttgaggggc gcgactactg acagatgagg ggcgcgatcc ttgacacttg aggggcagag2820
tgctgacaga tgaggggcgc acctattgac atttgagggg ctgtccacag gcagaaaatc2880
cagcatttgc aagggtttcc gcccgttttt cggccaccgc taacctgtct tttaacctgc2940
ttttaaacca atatttataa accttgtttt taaccagggc tgcgccctgt gcgcgtgacc3000
gcgcacgccg aaggggggtg cccccccttc tcgaaccctc ccggtcgagt gagcgaggaa3060
gcaccaggga acagcactta tatattctgc ttacacacga tgcctgaaaa aacttccctt3120
ggggttatcc acttatccac ggggatattt ttataattat tttttttata gtttttagat3180
cttctttttt agagcgcctt gtaggccttt atccatgctg gttctagaga aggtgttgtg3240
acaaattgcc ctttcagtgt gacaaatcac cctcaaatga cagtcctgtc tgtgacaaat3300
tgcccttaac cctgtgacaa attgccctca gaagaagctg ttttttcaca aagttatccc3360
tgcttattga ctctttttta tttagtgtga caatctaaaa acttgtcaca cttcacatgg3420
atctgtcatg gcggaaacag cggttatcaa tcacaagaaa cgtaaaaata gcccgcgaat3480
cgtccagtca aacgacctca ctgaggcggc atatagtctc tcccgggatc aaaaacgtat3540
gctgtatctg ttcgttgacc agatcagaaa atctgatggc accctacagg aacatgacgg3600
tatctgcgag atccatgttg ctaaatatgc tgaaatattc ggattgacct ctgcggaagc3660
cagtaaggat atacggcagg cattgaagag tttcgcgggg aaggaagtgg ttttttatcg3720
ccctgaagag gatgccggcg atgaaaaagg ctatgaatct tttccttggt ttatcaaacg3780
tgcgcacagt ccatccagag ggctttacag tgtacatatc aacccatatc tcattccctt3840
ctttatcggg ttacagaacc ggtttacgca gtttcggctt agtgaaacaa aagaaatcac3900
caatccgtat gccatgcgtt tatacgaatc cctgtgtcag tatcgtaagc cggatggctc3960
aggcatcgtc tctctgaaaa tcgactggat catagagcgt taccagctgc ctcaaagtta4020
ccagcgtatg cctgacttcc gccgccgctt cctgcaggtc tgtgttaatg agatcaacag4080
cagaactcca atgcgcctct catacattga gaaaaagaaa ggccgccaga cgactcatat4140
cgtattttcc ttccgcgata tcacttccat gacgacagga tagtctgagg gttatctgtc4200
acagatttga gggtggttcg tcacatttgt tctgacctac tgagggtaat ttgtcacagt4260
tttgctgttt ccttcagcct gcatggattt tctcatactt tttgaactgt aatttttaag4320
gaagccaaat ttgagggcag tttgtcacag ttgatttcct tctctttccc ttcgtcatgt4380
gacctgatat cgggggttag ttcgtcatca ttgatgaggg ttgattatca cagtttatta4440
ctctgaattg gctatccgcg tgtgtacctc tacctggagt ttttcccacg gtggatattt4500
cttcttgcgc tgagcgtaag agctatctga cagaacagtt cttctttgct tcctcgccag4560
ttcgctcgct atgctcggtt acacggctgc ggcgagcgct agtgataata agtgactgag4620
gtatgtgctc ttcttatctc cttttgtagt gttgctctta ttttaaacaa ctttgcggtt4680
ttttgatgac tttgcgattt tgttgttgct ttgcagtaaa ttgcaagatt taataaaaaa4740
acgcaaagca atgattaaag gatgttcaga atgaaactca tggaaacact taaccagtgc4800
ataaacgctg gtcatgaaat gacgaaggct atcgccattg cacagtttaa tgatgacagc4860
ccggaagcga ggaaaataac ccggcgctgg agaataggtg aagcagcgga tttagttggg4920
gtttcttctc aggctatcag agatgccgag aaagcagggc gactaccgca cccggatatg4980
gaaattcgag gacgggttga gcaacgtgtt ggttatacaa ttgaacaaat taatcatatg5040
cgtgatgtgt ttggtacgcg attgcgacgt gctgaagacg tatttccacc ggtgatcggg5100
gttgctgccc ataaaggtgg cgtttacaaa acctcagttt ctgttcatct tgctcaggat5160
ctggctctga aggggctacg tgttttgctc gtggaaggta acgaccccca gggaacagcc5220
tcaatgtatc acggatgggt accagatctt catattcatg cagaagacac tctcctgcct5280
ttctatcttg gggaaaagga cgatgtcact tatgcaataa agcccacttg ctggccgggg5340
cttgacatta ttccttcctg tctggctctg caccgtattg aaactgagtt aatgggcaaa5400
tttgatgaag gtaaactgcc caccgatcca cacctgatgc tccgactggc cattgaaact5460
gttgctcatg actatgatgt catagttatt gacagcgcgc ctaacctggg tatcggcacg5520
attaatgtcg tatgtgctgc tgatgtgctg attgttccca cgcctgctga gttgtttgac5580
tacacctccg cactgcagtt tttcgatatg cttcgtgatc tgctcaagaa cgttgatctt5640
aaagggttcg agcctgatgt acgtattttg cttaccaaat acagcaatag taatggctct5700
cagtccccgt ggatggagga gcaaattcgg gatgcctggg gaagcatggt tctaaaaaat5760
gttgtacgtg aaacggatga agttggtaaa ggtcagatcc ggatgagaac tgtttttgaa5820
caggccattg atcaacgctc ttcaactggt gcctggagaa atgctctttc tatttgggaa5880
cctgtctgca atgaaatttt cgatcgtctg attaaaccac gctgggagat tagataatga5940
agcgtgcgcc tgttattcca aaacatacgc tcaatactca accggttgaa gatacttcgt6000
tatcgacacc agctgccccg atggtggatt cgttaattgc gcgcgtagga gtaatggctc6060
gcggtaatgc cattactttg cctgtatgtg gtcgggatgt gaagtttact cttgaagtgc6120
tccggggtga tagtgttgag aagacctctc gggtatggtc aggtaatgaa cgtgaccagg6180
agctgcttac tgaggacgca ctggatgatc tcatcccttc ttttctactg actggtcaac6240
agacaccggc gttcggtcga agagtatctg gtgtcataga aattgccgat gggagtcgcc6300
gtcgtaaagc tgctgcactt accgaaagtg attatcgtgt tctggttggc gagctggatg6360
atgagcagat ggctgcatta tccagattgg gtaacgatta tcgcccaaca agtgcttatg6420
aacgtggtca gcgttatgca agccgattgc agaatgaatt tgctggaaat atttctgcgc6480
tggctgatgc ggaaaatatt tcacgtaaga ttattacccg ctgtatcaac accgccaaat6540
tgcctaaatc agttgttgct cttttttctc accccggtga actatctgcc cggtcaggtg6600
atgcacttca aaaagccttt acagataaag aggaattact taagcagcag gcatctaacc6660
ttcatgagca gaaaaaagct ggggtgatat ttgaagctga agaagttatc actcttttaa6720
cttctgtgct taaaacgtca tctgcatcaa gaactagttt aagctcacga catcagtttg6780
ctcctggagc gacagtattg tataagggcg ataaaatggt gcttaacctg gacaggtctc6840
gtgttccaac tgagtgtata gagaaaattg aggccattct taaggaactt gaaaagccag6900
caccctgatg cgaccacgtt ttagtctacg tttatctgtc tttacttaat gtcctttgtt6960
acaggccaga aagcataact ggcctgaata ttctctctgg gcccactgtt ccacttgtat7020
cgtcggtctg ataatcagac tgggaccacg gtcccactcg tatcgtcggt ctgattatta7080
gtctgggacc acggtcccac tcgtatcgtc ggtctgatta ttagtctggg accacggtcc7140
cactcgtatc gtcggtctga taatcagact gggaccacgg tcccactcgt atcgtcggtc7200
tgattattag tctgggacca tggtcccact cgtatcgtcg gtctgattat tagtctggga7260
ccacggtccc actcgtatcg tcggtctgat tattagtctg gaaccacggt cccactcgta7320
tcgtcggtct gattattagt ctgggaccac ggtcccactc gtatcgtcgg tctgattatt7380
agtctgggac cacgatccca ctcgtgttgt cggtctgatt atcggtctgg gaccacggtc7440
ccacttgtat tgtcgatcag actatcagcg tgagactacg attccatcaa tgcctgtcaa7500
gggcaagtat tgacatgtcg tcgtaacctg tagaacggag taacctcggt gtgcggttgt7560
atgcctgctg tggattgctg ctgtgtcctg cttatccaca acattttgcg cacggttatg7620
tggacaaaat acctggttac ccaggccgtg ccggcacgtt aaccgggctg catccgatgc7680
aagtgtgtcg ctgtcgacga gctcgcgagc tcggacatga ggttgccccg tattcagtgt7740
cgctgatttg tattgtctga agttgttttt acgttaagtt gatgcagatc aattaatacg7800
atacctgcgt cataattgat tatttgacgt ggtttgatgg cctccacgca cgttgtgata7860
tgtagatgat aatcattatc actttacggg tcctttccgg tgatccgaca ggttacgggg7920
cggcgacctc gcgggttttc gctatttatg aaaattttcc ggtttaaggc gtttccgttc7980
ttcttcgtca taacttaatg tttttattta aaataccctc tgaaaagaaa ggaaacgaca8040
ggtgctgaaa gcgagctttt tggcctctgt cgtttccttt ctctgttttt gtccgtggaa8100
tgaacaatgg aagtccgagc tcatcgctaa taacttcgta tagcatacat tatacgaagt8160
tatattcgat gcggcc8176
<210>5
<211>8220
<212>DNA
<213>大肠杆菌(Escherichia coli)
<220>
<221>gene
<222>(1)..(8220)
<400>5
ggccgcccgg gccgtcgacc aattctcatg tttgacagct tatcatcgaa tttctgccat60
tcatccgctt attatcactt attcaggcgt agcaaccagg cgtttaaggg caccaataac 120
tgccttaaaa aaattacgcc ccgccctgcc actcatcgca gtactgttgt aattcattaa 180
gcattctgcc gacatggaag ccatcacaaa cggcatgatg aacctgaatc gccagcggca 240
tcagcacctt gtcgccttgc gtataatatt tgcccatggt gaaaacgggg gcgaagaagt 300
tgtccatatt ggccacgttt aaatcaaaac tggtgaaact cacccaggga ttggctgaga 360
cgaaaaacat attctcaata aaccctttag ggaaataggc caggttttca ccgtaacacg 420
ccacatcttg cgaatatatg tgtagaaact gccggaaatc gtcgtggtat tcactccaga 480
gcgatgaaaa cgtttcagtt tgctcatgga aaacggtgta acaagggtga acactatccc 540
atatcaccag ctcaccgtct ttcattgcca tacgaaattc cggatgagca ttcatcaggc 600
gggcaagaat gtgaataaag gccggataaa acttgtgctt atttttcttt acggtcttta 660
aaaaggccgt aatatccagc tgaacggtct ggttataggt acattgagca actgactgaa 720
atgcctcaaa atgttcttta cgatgccatt gggatatatc aacggtggta tatccagtga 780
tttttttctc cattttagct tccttagctc ctgaaaatct cgataactca aaaaatacgc 840
ccggtagtga tcttatttca ttatggtgaa agttggaacc tcttacgtgc cgatcaacgt 900
ctcattttcg ccaaaagttg gcccagggct tcccggtatc aacagggaca ccaggattta 960
tttattctgc gaagtgatct tccgtcacag gtatttattc gcgataagct catggagcgg1020
cgtaaccgtc gcacaggaag gacagagaaa gcgcggatct gggaagtgac ggacagaacg1080
gtcaggacct ggattgggga ggcggttgcc gccgctgctg ctgacggtgt gacgttctct1140
gttccggtca caccacatac gttccgccat tcctatgcga tgcacatgct gtatgccggt1200
ataccgctga aagttctgca aagcctgatg ggacataagt ccatcagttc aacggaagtc1260
tacacgaagg tttttgcgct ggatgtggct gcccggcacc gggtgcagtt tgcgatgccg1320
gagtctgatg cggttgcgat gctgaaacaa ttatcctgag aataaatgcc ttggccttta1380
tatggaaatg tggaactgag tggatatgct gtttttgtct gttaaacaga gaagctggct1440
gttatccact gagaagcgaa cgaaacagtc gggaaaatct cccattatcg tagagatccg1500
cattattaat ctcaggagcc tgtgtagcgt ttataggaag tagtgttctg tcatgatgcc1560
tgcaagcggt aacgaaaacg atttgaatat taccctgtta tccctaatcg gggctggctt1620
aactatgcgg catcagagca gattgtactg agagtgcacc atatgcggtg tgaaataccg1680
cacagatgcg taaggagaaa ataccgcatc aggcgccatt cgccattcag ctgcgcaact1740
gttgggaagg gcgatcggtg cgggcctctt cgctattacg ccagctggcg aaagggggat1800
gtgctgcaag gcgattaagt tgggtaacgc cagggttttc ccagtcacga cgttgtaaaa1860
cgacggccag tgaattgtaa tacgactcac tatagggcga attcgagctc ggtacccggg1920
gatcccacgt acaacgacac cgagaccacg tgttccgagg ctgtttcctg gtggggtcct1980
cgagagtcga cctgcaggca tgcaagcttg agtattctat agtctcacct aaatagcttg2040
gcgtaatcat ggtcatagct gtttcctgtg tgaaattgtt atccgctcac aattccacac2100
aacatacgag ccggaagcat aaagtgtaaa gcctggggtg cctaatgagt gagctaactc2160
acattaattg cgttgcgctc actgcccgct ttccagtcgg gaaacctgtc gtgccagctg2220
cattaatgaa tcggccaacg cgaataggga taacagggta atatgccttc aggaacaata2280
gaaatcttcg tgcggtgtta cgttgaagtg gagcggatta tgtcagcaat ggacagaaca2340
acctaatgaa cacagaacca tgatgtggtc tgtcctttta cagccagtag tgctcgccgc2400
agtcgagcga cagggcgaag ccctcggctg gttgccctcg ccgctgggct ggcggccgtc2460
tatggccctg caaacgcgcc agaaacgccg tcgaagccgt gtgcgagaca ccgcggccgg2520
ccgccggcgt tgtggatacc tcgcggaaaa cttggccctc actgacagat gaggggcgga2580
cgttgacact tgaggggccg actcacccgg cgcggcgttg acagatgagg ggcaggctcg2640
atttcggccg gcgacgtgga gctggccagc ctcgcaaatc ggcgaaaacg cctgatttta2700
cgcgagtttc ccacagatga tgtggacaag cctggggata agtgccctgc ggtattgaca2760
cttgaggggc gcgactactg acagatgagg ggcgcgatcc ttgacacttg aggggcagag2820
tgctgacaga tgaggggcgc acctattgac atttgagggg ctgtccacag gcagaaaatc2880
cagcatttgc aagggtttcc gcccgttttt cggccaccgc taacctgtct tttaacctgc2940
ttttaaacca atatttataa accttgtttt taaccagggc tgcgccctgt gcgcgtgacc3000
gcgcacgccg aaggggggtg cccccccttc tcgaaccctc ccggtcgagt gagcgaggaa3060
gcaccaggga acagcactta tatattctgc ttacacacga tgcctgaaaa aacttccctt3120
ggggttatcc acttatccac ggggatattt ttataattat tttttttata gtttttagat3180
cttctttttt agagcgcctt gtaggccttt atccatgctg gttctataga aggtgttgtg3240
acaaattgcc ctttcagtgt gacaaatcac cctcaaatga cagtcctgtc tgtgacaaat3300
tgcccttaac cctgtgacaa attgccctca gaagaagctg ttttttcaca aagttatccc3360
tgcttattga ctctttttta tttagtgtga caatctaaaa acttgtcaca cttcacatgg3420
atctgtcatg gcggaaacag cggttatcaa tcacaagaaa cgtaaaaata gcccgcgaat3480
cgtccagtca aacgacctca ctgaggcggc atatagtctc tcccgggatc aaaaacgtat3540
gctgtatctg ttcgttgacc agatcagaaa atctgatggc accctacagg aacatgacgg3600
tatctgcgag atccatgttg ctaaatatgc tgaaatattc ggattgacct ctgcggaagc3660
cagtaaggat atacggcagg cattgaagag tttcgcgggg aaggaagtgg ttttttatcg3720
ccctgaagag gatgccggcg atgaaaaagg ctatgaatct tttccttggt ttatcaaacg3780
tgcgcacagt ccatccagag ggctttacag tgtacatatc aacccatatc tcattccctt3840
ctttatcggg ttacagaacc ggtttacgca gtttcggctt agtgaaacaa aagaaatcac3900
caatccgtat gccatgcgtt tatacgaatc cctgtgtcag tatcgtaagc cggatggctc3960
aggcatcgtc tctctgaaaa tcgactggat catagagcgt taccagctgc ctcaaagtta4020
ccagcgtatg cctgacttcc gccgccgctt cctgcaggtc tgtgttaatg agatcaacag4080
cagaactcca atgcgcctct catacattga gaaaaagaaa ggccgccaga cgactcatat4140
cgtattttcc ttccgcgata tcacttccat gacgacagga tagtctgagg gttatctgtc4200
acagatttga gggtggttcg tcacatttgt tctgacctac tgagggtaat ttgtcacagt4260
tttgctgttt ccttcagcct gcatggattt tctcatactt tttgaactgt aatttttaag4320
gaagccaaat ttgagggcag tttgtcacag ttgatttcct tctctttccc ttcgtcatgt4380
gacctgatat cgggggttag ttcgtcatca ttgatgaggg ttgattatca cagtttatta4440
ctctgaattg gctatccgcg tgtgtacctc tacctggagt ttttcccacg gtggatattt4500
cttcttgcgc tgagataggg ataacagggt aatcacaccg aggttactcc gttctacagg4560
ttacgacgac atgtcaatac ttgcccttga caggcattga tggaatcgta gtctcacgct4620
gatagtctga tcgacaatac aagtgggacc gtggtcccag accgataatc agaccgacaa4680
cacgagtggg atcgtggtcc cagactaata atcagaccga cgatacgagt gggaccgtgg4740
tcccagacta ataatcagac cgacgatacg agtgggaccg tggttccaga ctaataatca4800
gaccgacgat acgagtggga ccgtggtccc agactaataa tcagaccgac gatacgagtg4860
ggaccatggt cccagactaa taatcagacc gacgatacga gtgggaccgt ggtcccagtc4920
tgattatcag accgacgata cgagtgggac cgtggtccca gactaataat cagaccgacg4980
atacgagtgg gaccgtggtc ccagactaat aatcagaccg acgatacgag tgggaccgtg5040
gtcccagtct gattatcaga ccgacgatac aagtggaaca gtgggcccag agagaatatt5100
caggccagtt atgctttctg gcctgtaaca aaggacatta agtaaagaca gataaacgta5160
gactaaaacg tggtcgcatc agggtgctgg cttttcaagt tccttaagaa tggcctcaat5220
tttctctata cactcagttg gaacacgaga cctgtccagg ttaagcacca ttttatcgcc5280
cttatacaat actgtcgctc caggagcaaa ctgatgtcgt gagcttaaac ttgttcttga5340
tgcagatgac gttttaagca cagaagttaa aagagtgata acttcttcag cttcaaatat5400
caccccagct tttttctgct catgaaggtt agatgcctgc tgcttaagta attcctcttt5460
atctgtaaag gctttttgaa gtgcatcacc tgaccgggca gatagttcac cggggtgaga5520
aaaaagagca acaactgatt taggcaattt ggcggtgttg atacagcggg taataatctt5580
acgtgaaata ttttccgcat cagccagcgc agaaatattt ccagcaaatt cattctgcaa5640
tcggcttgca taacgctgac cacgttcata agcacttgtt gggcgataat cgttacccaa5700
tctggataat gcagccatct gctcatcatc cagctcgcca accagaacac gataatcact5760
ttcggtaagt gcagcagctt tacgacggcg actcccatcg gcaatttcta tgacaccaga5820
tactcttcga ccgaacgccg gtgtctgttg accagtcagt agaaaagaag ggatgagatc5880
atccagtgcg tcctcagtaa gcagctcctg gtcacgttca ttacctgacc atacccgaga5940
ggtcttctca acactatcac cccggagcac ttcaagagta aacttcacat cccgaccaca6000
tacaggcaaa gtaatggcat taccgcgagc cattactcct acgcgcgcaa ttaacgaatc6060
caccatcggg gcagctggtg tcgataacga agtatcttca accggttgag tattgagcgt6120
atgttttgga ataacaggcg cacgcttcat tatctaatct cccagcgtgg tttaatcaga6180
cgatcgaaaa tttcattgca gacaggttcc caaatagaaa gagcatttct ccaggcacca6240
gttgaagagc gttgatcaat ggcctgttca aaaacagttc tcatccggat ctgaccttta6300
ccaacttcat ccgtttcacg tacaacattt tttagaacca tgcttcccca ggcatcccga6360
atttgctcct ccatccacgg ggactgagag ccattactat tgctgtattt ggtaagcaaa6420
atacgtacat caggctcgaa ccctttaaga tcaacgttct tgagcagatc acgaagcata6480
tcgaaaaact gcagtgcgga ggtgtagtca aacaactcag caggcgtggg aacaatcagc6540
acatcagcag cacatacgac attaatcgtg ccgataccca ggttaggcgc gctgtcaata6600
actatgacat catagtcatg agcaacagtt tcaatggcca gtcggagcat caggtgtgga6660
tcggtgggca gtttaccttc atcaaatttg cccattaact cagtttcaat acggtgcaga6720
gccagacagg aaggaataat gtcaagcccc ggccagcaag tgggctttat tgcataagtg6780
acatcgtcct tttccccaag atagaaaggc aggagagtgt cttctgcatg aatatgaaga6840
tctggtaccc atccgtgata cattgaggct gttccctggg ggtcgttacc ttccacgagc6900
aaaacacgta gccccttcag agccagatcc tgagcaagat gaacagaaac tgaggttttg6960
taaacgccac ctttatgggc agcaaccccg atcaccggtg gaaatacgtc ttcagcacgt7020
cgcaatcgcg taccaaacac atcacgcata tgattaattt gttcaattgt ataaccaaca7080
cgttgctcaa cccgtcctcg aatttccata tccgggtgcg gtagtcgccc tgctttctcg7140
gcatctctga tagcctgaga agaaacccca actaaatccg ctgcttcacc tattctccag7200
cgccgggtta ttttcctcgc ttccgggctg tcatcattaa actgtgcaat ggcgatagcc7260
ttcgtcattt catgaccagc gtttatgcac tggttaagtg tttccatgag tttcattctg7320
aacatccttt aatcattgct ttgcgttttt ttattaaatc ttgcaattta ctgcaaagca7380
acaacaaaat cgcaaagtca tcaaaaaacc gcaaagttgt ttaaaataag agcaacacta7440
caaaaggaga taagaagagc acatacctca gtcacttatt atcactatcg ctcgccgcag7500
ccgtgtaacc gagcatagcg agcgaactgg cgaggaagca aagaagaact gttctgtcag7560
atagctctta cgctcagcgc attaccctgt tatccctaag ttgtatgcct gctgtggatt7620
gctgctgtgt cctgcttatc cacaacattt tgcgcacggt tatgtggaca aaatacctgg7680
ttacccaggc cgtgccggca cgttaaccgg gctgcatccg atgcaagtgt gtcgctgtcg7740
acgagctcgc gagctcggac atgaggttgc cccgtattca gtgtcgctga tttgtattgt7800
ctgaagttgt ttttacgtta agttgatgca gatcaattaa tacgatacct gcgtcataat7860
tgattatttg acgtggtttg atggcctcca cgcacgttgt gatatgtaga tgataatcat7920
tatcacttta cgggtccttt ccggtgatcc gacaggttac ggggcggcga cctcgcgggt7980
tttcgctatt tatgaaaatt ttccggttta aggcgtttcc gttcttcttc gtcataactt8040
aatgttttta tttaaaatac cctctgaaaa gaaaggaaac gacaggtgct gaaagcgagc8100
tttttggcct ctgtcgtttc ctttctctgt ttttgtccgt ggaatgaaca atggaagtcc8160
gagctcatcg ctaataactt cgtatagcat acattatacg aagttatatt cgatgcggcc8220