1.1 cDNA 文库构建的基本原理与方法
cDNA 文库是指某生物某发育时期所转录的全部 mRNA 经反转录形成的 cDNA 片段与某种载体连接而形成的克隆的集合。经典 cDNA 文库构建的基本原理是用 Oligo(dT) 作逆转录引物,或者用随机引物,给所合成的 cDNA 加上适当的连接接头,连接到适当的载体中获得文库。其基本步骤包括:RNA 的提取(例如异硫氰酸胍法,盐酸胍—有机溶剂法,热酚法等等,提取方法的选择主要根据不同的样品而定),要构建一个高质量的 cDNA 文库,获得高质量的 mRNA 是至关重要的,所以处理 mRNA 样品时必须仔细小心。由于 RNA 酶存在所有的生物中,并且能抵抗诸如煮沸这样的物理环境,因此建立一个无 RNA 酶的环境对于制备优质 RNA 很重要。在获得高质量的 mRNA 后,用反转录酶 Oligo(dT) 引导下合成 cDNA 第1链, cDNA 第2链的合成(用 RNA 酶 H 和大肠杆菌 DNA 聚合酶 I,同时包括使用 T4 噬菌体多核苷酸酶和大肠杆菌 DNA 连接酶进行的修复反应),合成接头的加入、将双链 DNA 克隆到载体中去、分析 cDNA 插入片断,扩增 cDNA 文库、对建立的 cDNA 文库进行鉴定。这里强调的是对载体的选择,常规用的是 λ 噬菌体,这是因为 λ DNA 两端具有由12个核苷酸的粘性末端,可用来构建柯斯质粒,这种质粒能容纳大片段的外源 DNA。
1.2 cDNA 全长文库
经典 cDNA 文库的构建虽然高效、简便,但文库克隆的片段一般较小,单个克隆上的 DNA 片段太短,所能提供的基因信息很少,大多需要几个克隆才能覆盖一个完整的全基因的 cDNA。为了克隆到真正的 cDNA 全长,建立富含全长的 cDNA 文库具有重要意义。为此,必须克服仅用 mRNA 的 PolyA 尾合成以及由普通逆转录酶作用特点所导致的局限性。全长 cDNA 文库,是指从生物体内一套完整的 mRNA 分子经反转录而得到的 DNA 分子群体,是 mRNA 分子群的一个完整的拷贝。全长 cDNA 文库不仅能提供完整的 mRNA 信息,而且可以通过基因序列比对得到 mRNA 剪接信息,此外,还可以对蛋白质序列进行预测及进行体外表达和通过反向遗传学研究基因的功能等。目前所报道的对全长文库的构建一般按照美国 CLONTECH 公司的 SMART cDNA Library Construction Kit 方法或 GeneRacer 试剂盒 (Invitrogen,USA) 使用说明进行。判断一个 cDNA 文库中的 cDNA 序列是否是全长基因的 cDNA,主要方法有以下几种。
1.2.1 直接从序列上评价
5'端:如果有同源全长基因的比较,可以通过与其它生物已知的对应基因5'末端进行比较来判断。如果无同源基因的新基因,则首先判断编码框架是否完整,即在开放阅读框的第1个 ATG 上游有无同框架的终止密码子;其次,判断是否有转录起始点,一般加在5'帽结构后有一段富含嘧啶的区域,或者是 cDNA 5'序列与基因组序列中经过酶切保护的部分相同,则可以确定得到的 cDNA 的5'端是完整的。3'端:同样可以用其它生物已知的对应基因3'末端进行比较来判断,或编码框架的下游有终止密码子,或有1个以上的 PolyA 加尾信号,或无明显加尾信号的则也有 PolyA 尾。
1.2.2 用实验方法证实
可以通过引物延伸法确定5'端和3'端的长度,如:5'端 RACE,3'端 RACE,或者通过 Northern Blot 证实大小是否一致。
1.3 对 cDNA 文库的分析
对 cDNA 文库质量的评价主要有两个方面。第一方面为文库的代表性,cDNA 文库的代表性是指文库中包含的重组 cDNA 分子反映来源细胞中表达信息(即 mRNA 种类)的完整性,它是体现文库质量的最重要指标。文库的代表性好坏可用文库的库容量来衡量,它是指构建的原始 cDNA 文库中所包含的独立的重组子克隆数。库容量取决于来源细胞中表达出的 mRNA 种类和每种 mRNA 序列的拷贝数,1个正常细胞含10000~30000种不同的 mRNA,按丰度可分为低丰度、中丰度和高丰度三种,其中低丰度 mRNA 是指某一种在细胞总计数群中所占比例少于0.5%时。满足最低要求的 cDNA 文库的库容量可以用 Clack-Carbor 公式 N=Ln(1-P)/(1-1/n) 计算( P 为文库中任何一种 mRNA 序列信息的概率,通常设为99%;N 为文库中以 P 概率出现细胞中任何一种 mRNA 序列理论上应具有的最少重组子克隆数;n 为细胞中最稀少的 mRNA 序列的拷贝数;T 为细胞中表达出的所有 mRNA 的总拷贝数)。第二方面是重组 cDNA 片段的序列完整性。在细胞中表达出的各种 mRNA 片段的序列完整性。在细胞中表达出的各种 mRNA 尽管具体序列不同,但基本上都是由3部分组成,即5'端非翻译区,中间的编码区和3'端非翻译区。非翻译区的序列特征对基因的表达具有重要的调控作用,编码序列则是合成基因产物—蛋白质模板。因此,要从文库中分离获得目的基因完整的序列和功能信息,要求文库中的重组 cDNA 片段足够长以便尽可能地反应出天然基因的结构。
cDNA 文库是指某生物某发育时期所转录的全部 mRNA 经反转录形成的 cDNA 片段与某种载体连接而形成的克隆的集合。经典 cDNA 文库构建的基本原理是用 Oligo(dT) 作逆转录引物,或者用随机引物,给所合成的 cDNA 加上适当的连接接头,连接到适当的载体中获得文库。其基本步骤包括:RNA 的提取(例如异硫氰酸胍法,盐酸胍—有机溶剂法,热酚法等等,提取方法的选择主要根据不同的样品而定),要构建一个高质量的 cDNA 文库,获得高质量的 mRNA 是至关重要的,所以处理 mRNA 样品时必须仔细小心。由于 RNA 酶存在所有的生物中,并且能抵抗诸如煮沸这样的物理环境,因此建立一个无 RNA 酶的环境对于制备优质 RNA 很重要。在获得高质量的 mRNA 后,用反转录酶 Oligo(dT) 引导下合成 cDNA 第1链, cDNA 第2链的合成(用 RNA 酶 H 和大肠杆菌 DNA 聚合酶 I,同时包括使用 T4 噬菌体多核苷酸酶和大肠杆菌 DNA 连接酶进行的修复反应),合成接头的加入、将双链 DNA 克隆到载体中去、分析 cDNA 插入片断,扩增 cDNA 文库、对建立的 cDNA 文库进行鉴定。这里强调的是对载体的选择,常规用的是 λ 噬菌体,这是因为 λ DNA 两端具有由12个核苷酸的粘性末端,可用来构建柯斯质粒,这种质粒能容纳大片段的外源 DNA。
1.2 cDNA 全长文库
经典 cDNA 文库的构建虽然高效、简便,但文库克隆的片段一般较小,单个克隆上的 DNA 片段太短,所能提供的基因信息很少,大多需要几个克隆才能覆盖一个完整的全基因的 cDNA。为了克隆到真正的 cDNA 全长,建立富含全长的 cDNA 文库具有重要意义。为此,必须克服仅用 mRNA 的 PolyA 尾合成以及由普通逆转录酶作用特点所导致的局限性。全长 cDNA 文库,是指从生物体内一套完整的 mRNA 分子经反转录而得到的 DNA 分子群体,是 mRNA 分子群的一个完整的拷贝。全长 cDNA 文库不仅能提供完整的 mRNA 信息,而且可以通过基因序列比对得到 mRNA 剪接信息,此外,还可以对蛋白质序列进行预测及进行体外表达和通过反向遗传学研究基因的功能等。目前所报道的对全长文库的构建一般按照美国 CLONTECH 公司的 SMART cDNA Library Construction Kit 方法或 GeneRacer 试剂盒 (Invitrogen,USA) 使用说明进行。判断一个 cDNA 文库中的 cDNA 序列是否是全长基因的 cDNA,主要方法有以下几种。
1.2.1 直接从序列上评价
5'端:如果有同源全长基因的比较,可以通过与其它生物已知的对应基因5'末端进行比较来判断。如果无同源基因的新基因,则首先判断编码框架是否完整,即在开放阅读框的第1个 ATG 上游有无同框架的终止密码子;其次,判断是否有转录起始点,一般加在5'帽结构后有一段富含嘧啶的区域,或者是 cDNA 5'序列与基因组序列中经过酶切保护的部分相同,则可以确定得到的 cDNA 的5'端是完整的。3'端:同样可以用其它生物已知的对应基因3'末端进行比较来判断,或编码框架的下游有终止密码子,或有1个以上的 PolyA 加尾信号,或无明显加尾信号的则也有 PolyA 尾。
1.2.2 用实验方法证实
可以通过引物延伸法确定5'端和3'端的长度,如:5'端 RACE,3'端 RACE,或者通过 Northern Blot 证实大小是否一致。
1.3 对 cDNA 文库的分析
对 cDNA 文库质量的评价主要有两个方面。第一方面为文库的代表性,cDNA 文库的代表性是指文库中包含的重组 cDNA 分子反映来源细胞中表达信息(即 mRNA 种类)的完整性,它是体现文库质量的最重要指标。文库的代表性好坏可用文库的库容量来衡量,它是指构建的原始 cDNA 文库中所包含的独立的重组子克隆数。库容量取决于来源细胞中表达出的 mRNA 种类和每种 mRNA 序列的拷贝数,1个正常细胞含10000~30000种不同的 mRNA,按丰度可分为低丰度、中丰度和高丰度三种,其中低丰度 mRNA 是指某一种在细胞总计数群中所占比例少于0.5%时。满足最低要求的 cDNA 文库的库容量可以用 Clack-Carbor 公式 N=Ln(1-P)/(1-1/n) 计算( P 为文库中任何一种 mRNA 序列信息的概率,通常设为99%;N 为文库中以 P 概率出现细胞中任何一种 mRNA 序列理论上应具有的最少重组子克隆数;n 为细胞中最稀少的 mRNA 序列的拷贝数;T 为细胞中表达出的所有 mRNA 的总拷贝数)。第二方面是重组 cDNA 片段的序列完整性。在细胞中表达出的各种 mRNA 片段的序列完整性。在细胞中表达出的各种 mRNA 尽管具体序列不同,但基本上都是由3部分组成,即5'端非翻译区,中间的编码区和3'端非翻译区。非翻译区的序列特征对基因的表达具有重要的调控作用,编码序列则是合成基因产物—蛋白质模板。因此,要从文库中分离获得目的基因完整的序列和功能信息,要求文库中的重组 cDNA 片段足够长以便尽可能地反应出天然基因的结构。