This article presents a review of most commonly used vector-host systems for protein expression, based on the PDB database with protein expression information from over 30,000 publications and a Labome survey of randomly selected publications. The expression of toxic proteins is discussed in detail.
这篇文章是一篇关于常用的蛋白表达载体宿主的综述。 这文是基于有超过30,000篇论文的wwPDB(蛋白质数据库)和来邦(Labome)随机抽取424篇论文中获取的蛋白表达信息。
一些常用重组表达系统的优点、缺点及潜在应用已经列于表一。目前已有一定数量的论文提供了以下蛋白表达系统的细节信息,包括:大肠杆菌(Escherchia coli) [1-5] 、酿酒酵母(Saccharomyces cerevisiae) [4, 6-8] 、毕赤酵母(Pichia pastoris) [5, 7-10] 、杆状病毒/昆虫细胞 [1, 5, 11, 12] 、哺乳动物细胞系 [5] 以及体外蛋白生产系统 [5, 11, 12] 。
表达系统 | 优势 | 劣势 | 应用领域 | 供应商 |
---|---|---|---|---|
大肠杆菌(Escherichia coli) |
|
|
|
|
酿酒酵母(Saccharaomyces cerevisiae) |
|
|
| Invitrogen/Life Technologies |
毕赤酵母(Pichia pastoris) |
|
| 纯化蛋白的生产(结构、酶、药物发现) | Invitrogen/Life Technologies |
杆状病毒浸染后的昆虫细胞 |
|
| 纯化蛋白的生产(结构、酶、药物发现) |
|
哺乳动物细胞 |
|
|
|
|
瞬时表达 | 蛋白的快速生产通道 |
| ||
稳定细胞系 | 可获得蛋白生产细胞株系 | 生产速度缓慢(需要数月),特别是使用选择性克隆的情况下传代过程中表达能力可能下降 | ||
BacMam-介导的瞬时转导 |
|
| ||
无细胞蛋白生产 |
| 量化生产成本昂贵 |
|
|
尽管在将大肠杆菌表达蛋白用于体内时缺乏转译后修饰并且需要去除内毒素,但是大肠杆菌系统还是被证明是最受欢迎的重组药物蛋白表达宿主。截止2009年,29.8%的被FDA/EMEA(美国食品药品监督管理局/欧洲药品管理局)所批准的生物制药重组蛋白使用大肠杆菌作为表达宿主。酿酒酵母(18.5%)和哺乳动物细胞(39%)同样是受欢迎的重组药物表达宿主 [4] 。
一项由RIKEN开展的结构基因组学研究致力于使用无细胞系统(体外转录/翻译)来生产特定结构的蛋白。这表明了使用现代无细胞蛋白表达系统的合成能力 [3, 13] 。
这篇文章将集中介绍最常用的蛋白表达载体宿主,这将是重组蛋白表达的第一步。然而,值得注意的是目前还有许多其他比较深奥的表达系统是可用的。这可能是那些有蛋白表达经验的科研人员的兴趣所在。或是在那些“主流”表达系统不能满足特定需求的研究的情况下使用到那些深奥的表达系统。作为例子,以下列举的微生物/植物细胞宿主系统可以作为表达系统包括描述过的:酵母(多形汉逊酵母(Hansenula polymorpha)、Arxula adeninivorans、乳酸克鲁维酵母(Kluyveromyces lactis)、解脂亚罗威阿酵母(Yarrowia lipolytica)、粟酒裂殖酵母(Schizosaccharomyces pombe)),细菌(短乳杆菌、巨大芽孢杆菌(Bacillus megaterium)、枯草芽孢杆菌(Bacillus subtilis)、柄杆菌(Caulobacter crescentis)、棒状杆菌(Corynebacterium)、嗜热硫化细菌(Hyperthermophilic sulfolobus islandicus)以及藻类。
以下是一些可以在哺乳动物细胞中重组表达的病毒表达载体:塞姆利基森林病毒(Semliki Forest Virus)、慢病毒(Lentivirus)和腺病毒(Adenovirus)。塞姆利基森林病毒已经被证明是药物研发和结构基因组学中使用到的膜蛋白表达载体;慢病毒和腺病毒载体在基因治疗领域引起很大关注;同时也引起利用转基因动物奶液作为重组疗效蛋白载体领域的关注。
wwPDB(世界蛋白质数据库, http://www.wwpdb.org/)是一个国际研究合作组织。包括四个分支机构:RCSB PDB (美国: http://www.rcsb.org/)、 MSD-EBI(欧洲: http://www.ebi.ac.uk/pdbe/)、PDBj(日本: http://www.pdbj.org/)和BMRB(美国)。wwPDB是一个大分子结构数据库,其使命是维护一个单一(非冗余)的大分子结构数据并且向全球公开免费使用。截止2012年6月20日,共有82499条结构数据在数据库中。wwPDB中绝大多数的结构数据是蛋白质数据(图1)。
wwPDB中的蛋白多数是利用特定的表达载体和表达宿主表达的重组蛋白。在雷切尔克莱默格林博士(RCSB PDB)的帮助下,来邦(Labome)于2012年3月13日下载了PDB中关于用于生产蛋白的表达系统的结构数据文件(数据集)。这批数据文件包括了197348条记录,有75015条不同PDB条目和196595条PDB的ID和链组合。197348条记录中,162432条是与论文相关的,共32449篇不同的论文。wwPDB条目数量中最多的10个物种被列于表二。
基因来源 | wwPDB条目数 | 总记录数 | PMID数量 |
---|---|---|---|
Homo sapiens | 17832 | 36327 | 8115 |
Escherichia coli | 5480 | 16033 | 2660 |
Mus musculus | 3158 | 6585 | 1602 |
Saccharomyces cerevisiae | 2032 | 6392 | 1107 |
Bos taurus | 1886 | 4452 | 904 |
Rattus norvegicus | 1596 | 3357 | 845 |
Thermus thermophilus | 1176 | 7163 | 380 |
Mycobacterium tuberculosis | 943 | 2720 | 408 |
Bacillus subtilis | 920 | 2217 | 398 |
Gallus gallus | 836 | 1742 | 399 |
从表二中看出, 事实上人是最主要的基因源,这反映了科学界对于人类基因序列在蛋白功能水平理解的强烈渴望。
在wwPDB中被引用的大肠杆菌条目中大多数是被作为表达宿主,在32449篇报道中有21850篇(67.3%)报道其作为表达宿主被使用。表三列举出了最优的5个表达宿主和对应于每个表达宿主的最优的两个或三个的表达载体。
宿主 | 宿主相关的文章数量 | 最常使用的载体 | 质粒载体的文章数量 |
---|---|---|---|
大肠杆菌(Escherichia coli) | 21850 | ||
pET28 (Novagen/EMD Millipore) | 1694 | ||
pET15 (Novagen/EMD Millipore)1006 | |||
pET11 (Novagen/EMD Millipore) | 795 | ||
夜蛾(Spodoptera frugiperda) | 862 | ||
pFastBac (Invitrogen/Life Tech) | 139 | ||
pVL1392/3 (BD Bioscience) | 39 | ||
pAcGP67 (BD Bioscience) | 27 | ||
毕赤酵母(Pichia pastoris) | 375 | ||
pPIC (Invitrogen/Life Tech) | 159 | ||
pHIL (Invitrogen/Life Tech) | 19 | ||
仓鼠灰色链霉菌(CHO) | 269 | ||
pEE series | 22 | ||
pcDNA3/3.1 (EMD Millipore) | 14 | ||
酿酒酵母(Saccharaomyces cerevisiae) | 238 | ||
YEp | 19 | ||
pERI8602 | 12 |
值得注意的是,大肠杆菌是wwPDB数据集中最常使用的表达宿主(具有较大领先优势)。大肠杆菌是一种革兰氏阴性、棒状细菌,它是在生命科学研究领域的重要模式生物之一,并已被广泛利用在学术界和工业界。但应当指出的是,使用大肠杆菌作为宿主容易产生膜外脂多糖,而膜外脂多糖是内毒素的来源,这将导致细胞和活体实验模型的严重炎症反应。
用于蛋白表达的草地蛾(Spodoptera frugiperda)细胞是来自秋季夜蛾的卵巢组织的细胞系(Sf9 和 Sf21)。 毕赤酵母是一种有氧呼吸、甲基营养型酵母,可以利用甲醇作为其唯一碳和能量来源。 灰仓鼠细胞系(CHO)来自中国仓鼠卵巢细胞,当前广泛使用的细胞系适于悬浮生长,并且大多数重组抗体是由CHO生产的。 酿酒酵母(Saccharomyces cerevisiae)是一种基因研究较为透彻的酵母,是第一次常规使用的酵母的重组蛋白的表达。
对于每个表达宿主,最常被引用的两个或三个的表达载体只占据了被引论文(出版物)总数的较少部分(表三所示)。这反映了用于每个宿主表达的载体可选择范围比较广泛。图2和3分别显示了pET28和pcDNA3.3(pcDNA3 质粒的最新版本)质粒图谱。这两个质粒分别是大肠杆菌和哺乳动物细胞的原型表达载体。pET载体重组蛋白的表达是由T7RNA聚合酶启动子驱动的。pET28质粒编码的位点包括一个N-端组氨酸(His)标记(水解酶)切割位点,T7标记序列和一个可选的C-端组氨酸标记序列。这些载体都与带有λDE3的大肠杆菌溶源性菌株联合使用。同时,质粒菌株的T7RNA聚合酶基因组拷贝的表达受到lac(乳糖操纵子)阻遏物的控制。因此,可以通过向培养基中加入IPTG(异丙基硫代-β-D-半乳糖苷)来诱导重组蛋白的表达。但有趣的是,那些由其他分子(如,arabinose)诱导表达的载体在wwPDB数据库中并不特别突出。
在pcDNA3系列质粒中,其蛋白的表达由人类早期启动子巨细胞病毒(CMV)直接驱动,这是一个很强的启动子,在哺乳动物细胞中具有组成型活性。pcDNA3是pcDNA3系列载体的早期成员,目前已经不能在市面上买到,而最新开发的pcDNA3系列载体是pcDNA3.3。值得一提的是,在下文进行随机论文出版物调查中,pcDNA3.1也是被认定为最常用的哺乳动物细胞表达载体。
最常用的杆状病毒/昆虫细胞载体都利用很强的多角蛋白启动子驱动重组蛋白的组成型表达,而不是由杆状病毒转移载体的质粒自身不直接驱动。他们通常通过产生含有目的基因的重组杆状病毒,并且处于多角蛋白启动子的控制之下实现重组蛋白的表达。
pFastBac是新一代利用位点特异换位来产生重组杆状病毒的质粒,这将原先使用老一代质粒(如pVL1392/3 和 pAcGP67)需要4-6周才能产生重组杆状病毒降低为2周时间。 毕赤酵母载体都通过强大的AOX1启动子,利用甲醇诱导表达。尽管毕赤酵母是分泌蛋白生产表达的优秀系统,但是wwPDB数据库中最常用的毕赤酵母表达载体都是为细胞质表达设计的。 酿酒酵母质粒是通过酵母GAL1启动子驱动表达的,通过葡萄糖抑制表达,半乳糖诱导表达。
表三中所列的表达宿主和表达载体对应数据只被特异地用于工业生产蛋白的研究。因此,数据库中表达载体/宿主的选择存在一定程度的偏好,偏好那些能够产生大量纯化蛋白的表达载体/宿主,这些纯化蛋白在蛋白三维结构测定中是必不可少的。大肠杆菌的无法糖基化蛋白和可以相对容易地用酶促去除N-端糖基化使得这些系统在wwPDB数据集中被频繁使用,非糖基化蛋白通常在结构研究中优选(除非糖分子对于功能至关重要)。但是,对于其他应用(如,酶测定,细胞测定,抗体的抗原生产,用于细胞功能和定位研究的过表达),可能没有必要表达和纯化如此大量蛋白。事实上,对于基于细胞的研究,重组表达蛋白的纯化不太可能是一个考量因素。然而,可以确定的是从wwPDB数据库中获得的表达载体/宿主数据信息是非常宝贵的资源。这些数据可以为许多蛋白表达项目提供帮助。
为了避免wwPDB数据集中存在的潜在偏好,来邦随机选取了424篇引用了质粒的论文(出版物)进行调查研究。最常使用的两组表达载体被列于表四。 正如wwPDB数据集中观察到的一样,最常被引用的表达载体只占总体刊物所引用的表达载体的一小部分。同样,这反映了任意给定表达宿主时可选表达载体的多样性。pcDNA3.1通过组成型CMV启动子来驱动哺乳动物细胞中的蛋白表达。类似的是,pEGFP是一种哺乳动物表达载体,其表达受到CMV启动子的驱动,EGFP(增强型绿色荧光蛋白)是通过N-端((pEGFP-C1)或C-端(pEGFP-N1)与目的蛋白融合的方式进行表达的。这些pEGFP载体可能是通过EGFP荧光检测,研究蛋白的亚细胞定位或迁移。
表达载体 | PMID数量 | 载体宿主 | 最常用的载体(文章数量) |
---|---|---|---|
pcDNA3.1 (Invitrogen/Life Tech) | 59 | 哺乳动物细胞系 | cDNA 3.1 V5, His (4) pcDNA 3.1 His (3) |
pEGFP (Clontech) | 28 | 哺乳动物细胞系 | pEGFP-C1 (11) pEGFP-N1 (8) |
值得注意的是,最常用的哺乳动物细胞表达载体(无论是在刊物研究和wwPDB数据库中)都驱动组成型表达,目前已市售的可诱导哺乳动物表达载体包括T-RexTM系统和pF12 RM FlexiTM系统。虽然在学术期刊中不具明显优势,但是BacMam系统已经被证明是医药行业受欢迎的表达蛋白系统(包括了细胞研究和纯化),并且目前市售。BacMam使用改性后的杆状病毒,这种杆状病毒的常规启动子被具有哺乳动物细胞活性的CMV启动子所代替。BacMam病毒可驱动交广范围的非重复、非裂解的蛋白表达。
图4展示了两种不同的典型蛋白表达流程。第一个流程展示的是纯化蛋白的生产过程。另一个则是重组表达蛋白细胞系的生产流程。现实中,这两个流程可能相互重叠,例如,一个稳定的哺乳动物细胞系可以被用来作为纯化某一重组蛋白的原材料。
- Hunt I. From gene to protein: a review of new and enabling technologies for multi-parallel protein expression. Protein Expr Purif. 2005;40:1-22 pubmed
- Terpe K. Overview of bacterial expression systems for heterologous protein production: from molecular and biochemical fundamentals to commercial systems. Appl Microbiol Biotechnol. 2006;72:211-22 pubmed
- Ferrer-Miralles N, Domingo-Espín J, Corchero J, Vazquez E, Villaverde A. Microbial factories for recombinant pharmaceuticals. Microb Cell Fact. 2009;8:17 pubmed
- Holz C, Hesse O, Bolotina N, Stahl U, Lang C. A micro-scale process for high-throughput expression of cDNAs in the yeast Saccharomyces cerevisiae. Protein Expr Purif. 2002;25:372-8 pubmed
- Macauley-Patrick S, Fazenda M, McNeil B, Harvey L. Heterologous protein production using the Pichia pastoris expression system. Yeast. 2005;22:249-70 pubmed
- Gurkan C, Ellar D. Recombinant production of bacterial toxins and their derivatives in the methylotrophic yeast Pichia pastoris. Microb Cell Fact. 2005;4:33 pubmed
- Hu Y. Baculovirus as a highly efficient expression vector in insect and mammalian cells. Acta Pharmacol Sin. 2005;26:405-16 pubmed
- Noren C, Anthony-Cahill S, Griffith M, Schultz P. A general method for site-specific incorporation of unnatural amino acids into proteins. Science. 1989;244:182-8 pubmed