The Human Genome

ヒトゲノム配列TOPページへ


0.序論  
1.DNA供給源と塩基配列解析法  
2.ゲノムアセンブリ戦略と特徴  
3.遺伝子予測と注釈  
4.ゲノムの構造  
5.ゲノムの進化  
6.ゲノム全域の配列変異検査  
7.ヒトゲノムにおいて予測される蛋白質コード遺伝子の概観
8.結論  


7. ヒトゲノムにおける予測蛋白コード遺伝子の概観

要旨

この章では、完全配列決定されている他の真核生物ゲノムとヒトゲノムを比較した際に、顕著な相違点、類似点を分類整理する目的で、予測蛋白セットの初期コンピューター解析結果を示す。既知蛋白ファミリーへの分類割当同定法を用いたところ、40%以上のヒト予測蛋白では、分子機能の説明が不可能である。蛋白ドメイン構造に基づく解析から、ハエゲノムおよび線虫ゲノムと比較した際、ヒトゲノムにおける顕著な相違点の詳細カタログができた。特に顕著なものは、神経細胞機能、止血機構、後天的免疫応答、細胞骨格構成等の、発生制御と細胞プロセシングに関与する蛋白でのドメイン領域拡大である。最終的な蛋白ファミリー数および詳細蛋白構造については、今後の実験的研究および包括的な手作業による整理を待たねばならない。

蛋白をコードすると予測されるヒト遺伝子の予備的解析を行った。2つ手法を用いて、26,588個の予測蛋白(上述した証拠を最低2種類もつ26,383個の予測遺伝子に相当)の分子機能を解析、分類した。第一の方法は、国際Pfamデータベース(114,115)およびセレラ社Panther Classification(CPC)の両方を用いる蛋白ファミリー・レベルでの解析に基づく(図15)(116)。第二の方法は、PfamおよびSMARTデータベースの両方を用いる蛋白ドメインレベルでの解析に基づく(115, 117)。

今回の結果は予備的なもので、いくつかの制限がある。熟練した生物学者がPanther、Pfam、SMARTにおける統計モデルを構築、注釈、評価を行ってはいるが、遺伝子存在予測および機能割当同定はコンピューターツールを用いて作製されたものである。コンピューター予測遺伝子セットでは、偽陽性予測(一部は非活性偽遺伝子)および偽陰性予測(一部はコンピュータ予測不能ヒト遺伝子)があることを予期した。エクソンと遺伝子の境界を明確にする際の誤差もあることを予期した。同様に、自動的な方法による蛋白機能割当同定においても偽陽性予測、偽陰性予測の両方を予期した。機能割当同定プロトコールは、いくつかの生物種にわたって見られる蛋白ファミリーおよび既知ヒト遺伝子ファミリーに焦点を置いている。従って、機能が知られていても、大きな蛋白ファミリーに属さない多数の遺伝子に機能割当同定を行わない場合がある。明記のない限り、Panther、Pfam、SMARTにおけるモデルのために定義された統計的カットオフ・スコアを用いて、機能を割当同定した26,588個の予測蛋白セットから、任意ファミリーもしくは任意機能カテゴリーにある遺伝子の全数計測を行った。

今回のヒト予測蛋白セットの初期検査では、概略的な3項目を問題にした。すなわち、(i)予測遺伝子産物のあり得る分子機能は何か。そして、現行の分類方法を用いた際にこれら蛋白はどのように分類されるか。(ii)動物種間で共通すると思われる中核機能は何か。(iii)配列が決まっている他の真核生物の全蛋白とヒト全蛋白はいかに異なるか。

7.1 ヒト予測蛋白の分子機能

図15に最低2個以上の存在を示す証拠をもつ26,588個のヒト予測蛋白について、推定分子機能の概観を示す。遺伝子産物の約41%(12,809個)が初期解析で分類不能で、機能不明蛋白と名付けた。我々の自動分類法は比較的大きな蛋白ファミリーのみ処理するため、実際には既知機能もしくは予測機能をもつ“非分類”配列が多数存在する。自動機能予測された蛋白の60%について、概略的クラスに特異蛋白機能を納めた。ここでは、できるだけ多数の蛋白を分類するため、高次の細胞プロセシングよりも、分子機能に焦点をおいた。これらの機能予測は、既知の機能配列に対する類似性に基づくものである。

さらに12,731個の(存在を示す証拠が一つしかない)低信頼度予測遺伝子を解析したところ、これらの付加的推定遺伝子の636個(5%)のみが自動法を用いた場合に遺伝子機能があると割当同定された。636個の予測遺伝子の3分の1が内在性レトロウイルス蛋白であった。このことは、これらの未知機能遺伝子の大多数が実遺伝子ではないことを示唆している。これらの付加的遺伝子12,095個ののほとんどが今日までに配列決定されたゲノムにおいてユニークな配列であることから、単純に大部分が偽陽性遺伝子という予測結果なのであろう。

最も一般的な分子機能は転写因子および核酸代謝に関与する蛋白(核酸関連酵素)である。ヒトゲノムにおいて高い割合で存在する他の分子機能は、受容体、燐酸化酵素、加水分解酵素である。驚くにはあたらないが、加水分解酵素のほとんどが蛋白分解酵素である。前癌遺伝子ファミリーのメンバーであるのみならず、“選択的調節分子”ファミリーのメンバーである蛋白も多数存在した。すなわち、(i)ヘテロ三量体GTP結合蛋白(G蛋白)、細胞周期調節因子等のシグナルトランスダクションの特定ステップに関与する蛋白、(ii)燐酸化酵素、G蛋白、脱燐酸化酵素の活性を調節する蛋白である。

7.2 進化的に保存されたコア・プロセス

様々な“モデル生物”ゲノム配列プロジェクトがすでに完了しているので、ヒトゲノム進化解析を開始するために妥当な比較情報が入手可能である。S. cervisiae (“パン酵母”)(118)および、二種類の異なる無脊椎動物C.elegans(線虫)(119)、D.melanogaster(ハエ)(26)のみならず、最近完了した初の植物ゲノムA.thaliana(92)は、ゲノム間比較に多様な基盤を提供するものである。

動物種を越えて一般則だと思われるコア機能は何か、という問題を解明するため、ヒト・ハエ間およびヒト・線虫間で保存されている“厳格オルソログ”を列挙してみた(図16)。2つの遺伝子がオルソログ(“進化上保存されている蛋白セット”)である場合、遺伝的にたどることにより2つの生物の共通祖先に遡ることが可能であり、従って異なる生物においても同様の保存された機能を担うものと思われるため、オルソロジーの概念は重要である。この解析において、オルソログ(共通祖先からの遺伝によって2つの生物に存在する遺伝子)をパラログ(重複という事件により、ある生物に2つ以上コピーが存在する遺伝子)から分離することは重要である。なぜなら、パラログはやがて機能的に分岐していくと思われるからである。文献(120)における酵母−線虫オルソログ比較に従い、それぞれの比較ペア(ヒト−ハエおよびヒト−線虫)において2つの異なる事例を同定した。第一の事例は、各生物とも1つの遺伝子をもっていて、どちらの生物においても他の近縁ホモログが存在しない遺伝子のペアとなるものであった。これら遺伝子は、オルソログとパラログの区別を複雑にする追加的メンバーが他にいないため、簡単にオルソログと同定された。第二の事例は、比較した生物の片方、もしくは両方に2つ以上のファミリーメンバーをもつ遺伝子ファミリーである。Chervitzら(120)は、2つの生物における全配列間の関係を示す系統樹を解析することでこの事例を処理し、系統樹中の最近傍にある遺伝子ペアを探した。もし最近傍遺伝子ペアが異なる生物種由来ならば、それらはオルソログと推定された。我々はこれらの最近傍遺伝子ペアが、系統樹を検索しなくても、ペア間の配列比較によって、自信をもって同定できることを指摘したい(図16の脚注参照)。もし最近傍遺伝子ペアが異なる生物由来でないとしたら、種としての進化(および/または一方の生物による遺伝子欠失)後に一方もしくは両方の生物でパラログ的な増大があったはずである。この一対一対応関係がないならば、オルソログの定義は不明瞭になってしまう。ヒト予測蛋白セットの初期コンピューター概観では、各予測蛋白に対してこの問題に回答することはできなかった。そこで、“厳格オルソログ”、すなわち、不明瞭さがない一対一対応関係があるもののみを考察する(図16)と、この基準に従えば、ヒト−ハエ間では2,758個、ヒト−線虫間では2,031個の厳格オルソログがある(このうち1,523個は共通している)。我々は、D. melanogasterC.elegansでも厳格オロソログがあるこれら1,523個のヒト蛋白を進化的に保存されたセットとして定義することにする。

この保存蛋白セットの機能分布を図16に示す。予期した通り、図15との比較から、保存蛋白群は全ヒト蛋白セットと同様な分子機能分布を示さなかった。全ヒト蛋白セット(図15)に比較すると、保存蛋白セットには2倍もしくはそれ以上を占める分子機能カテゴリーがいくつか存在する。第一の分子機能カテゴリーは、主に転写機構(著明なものでは、DNA/RNAメチル基転移酵素、DNA/RNAポリメラーゼ、ヘリカーゼ、DNAリガーゼ、DNA修飾因子、RNA修飾因子、ヌクレアーゼ、リボゾーム蛋白)に関与した核酸関係酵素である。細菌から最も複雑な真核生物に至るまで、基本的転写機構および基本的翻訳機構が進化において保存されていることは周知である。RNAスプライシングに関与するリボ核酸蛋白の多くもまた、動物種間で保存されると思われる。保存蛋白セット占有率が増加する酵素タイプは他にも存在する(転移酵素、酸化還元酵素、リガーゼ、リアーゼ、イソメラーゼ)。これら酵素群の多数が中間代謝に関与している。保存蛋白セットにおいて顕著に占有率を増加しない唯一の例外は、加水分解酵素である。蛋白分解酵素はこの分類の最も大きな部分を占める。蛋白分解酵素の大きなファミリーには、ヒト、ハエ、線虫が進化分岐後、それぞれの生物にて拡張したものがいくつか存在する。選択的調節分子カテゴリーの保存蛋白セット占有率も増加している。主要な保存ファミリーは、小分子グアノシン三燐酸脱燐酸化酵素(GTPase)(特に、ADPリボシル化因子を含むRas関連スーパーファミリー)および、細胞周期調節因子(特に、cullinファミリー、サイクリンCファミリーおよびいくつかの細胞分裂蛋白燐酸化酵素)である。含有率が有意に増加している分類の残り二つは、蛋白輸送とトラフィック関係および、シャペロンである。これら分類にて最も保存したグループは、被胞小胞介在性輸送に関与する蛋白群、そして蛋白折りたたみと熱ショック応答に関与するシャペロン(特に、DNAJファミリー、HSP60(熱ショック蛋白60)ファミリー、HSP70ファミリー、HSP90ファミリー)である。これら結果は、ヒト、ハエ、線虫の最終共通祖先由来と思われる特異的細胞プロセスに関して、蛋白ファミリーを控えめに評価したものに過ぎない。今回の解析は、上述したように、3つの動物のゲノム間保存を完全評価するものではない。なぜなら、保存蛋白ファミリーメンバー内でのパラログ重複が真のオルソログ決定を困難にしているからである。

.
図15.26,383個のヒト遺伝子の分子機能分布 . 図16 脊椎動物および無脊椎動物にわたる推定オルソログ機能


表18 ヒトH. sapiens(H)、ショウジョウバエD.melanogaster(D)、線虫C.elegans(C)、酵母S.cervisiae(Y)、アラビドプシスA.thaliana(A)蛋白におけるドメインに基づく比較解析


Accession number Domain name Domain description H F W Y A

Developmental and homeostatic regulators
PF02039 Adrenomedullin Adrenomedullin 1 0 0 0 0
PF00212 ANP Atrial natriuretic peptide 2 0 0 0 0
PF00028 Cadherin Cadherin domain 100 (550) 14 (157) 16 (66) 0 0
PF00214 Calc_CGRP_IAPP Calcitonin/CGRP/IAPP family 3 0 0 0 0
PF01110 CNTF Ciliary neurotrophic factor 1 0 0 0 0
PF01093 Clusterin Clusterin 3 0 0 0 0
PF00029 Connexin Connexin 14 (16) 0 0 0 0
PF00976 ACTH_domain Corticotropin ACTH domain 1 0 0 0 0
PF00473 CRF Corticotropin-releasing factor family 2 1 0 0 0
PF00007 Cys_knot Cystine-knot domain 10 (11) 2 0 0 0
PF00778 DIX Dix domain 5 2 4 0 0
PF00322 Endothelin Endothelin family 3 0 0 0 0
PF00812 Ephrin Ephrin 7 (8) 2 4 0 0
PF01404 EPh_Ibd Ephrin receptor ligand binding domain 12 2 1 0 0
PF00167 FGF Fibroblast growth factor 23 1 1 0 0
PF01534 Frizzled Frizzled/Smoothened family membrane region 9 7 3 0 0
PF00236 Hormone6 Glycoprotein hormones 1 0 0 0 0
PF01153 Glypican Glypican 14 2 1 0 0
PF01271 Granin Grainin (chromogranin or secretogranin) 3 0 0 0 0
PF02058 Guanylin Guanylin precursor 1 0 0 0 0
PF00049 Insulin Insulin/IGF/Relaxin family 7 4 0 0 0
PF00219 IGFBP Insulin-like growth factor binding proteins 10 0 0 0 0
PF02024 Leptin Leptin 1 0 0 0 0
PF00193 Xlink LINK (hyaluron binding) 13 (23) 0 1 0 0
PF00243 NGF Nerve growth factor family 3 0 0 0 0
PF02158 Neuregulin Neuregulin family 4 0 0 0 0
PF00184 Hormone5 Neurohypophysial hormones 1 0 0 0 0
PF02070 NMU Neuromedin U 1 0 0 0 0
PF00066 Notch Notch (DSL) domain 3 (5) 2 (4) 2 (6) 0 0
PF00865 Osteopontin Osteopontin 1 0 0 0 0
PF00159 Hormone3 Pancreatic hormone peptides 3 0 0 0 0
PF01279 Parathyroid Parathyroid hormone family 2 0 0 0 0
PF00123 Hormone2 Peptide hormone 5 (9) 0 0 0 0
PF00341 PDGF Platelet-derived growth factor (PDGF) 5 1 0 0 0
PF01403 Sema Sema domain 27 (29) 8 (10) 3 (4) 0 0
PF01033 Somatomedin_B Somatomedin B domain 5 (8) 3 0 0 0
PF00103 Hormone Somatotropin 1 0 0 0 0
PF02208 Sorb Sorbin homologous domain 2 0 0 0 0
PF02404 SCF Stem cell factor 2 0 0 0 0
PF01034 Syndecan Syndecan domain 3 1 1 0 0
PF00020 TNFR_c6 TNFR/NGFR cysteine-rich region 17 (31) 1 0 0 0
PF00019 TGF-beta Transforming growth factor beta -like domain 27 (28) 6 4 0 0
PF01099 Uteroglobin Uteroglobin family 3 0 0 0 0
PF01160 Opiods_neuropep Vertebrate endogenous opioids neuropeptide 3 0 0 0 0
PF00110 Wnt Wnt family of developmental signaling proteins 18 7 (10) 5 0 0
Hemostasis
PF01821 ANATO Anaphylotoxin-like domain 6 (14) 0 0 0 0
PF00386 C1q C1q domain 24 0 0 0 0
PF00200 Disintegrin Disintegrin 18 2 3 0 0
PF00754 F5_F8_type_C F5/8 type C domain 15 (20) 5 (6) 2 0 0
PF01410 COLFI Fibrillar collagen C-terminal domain 10 0 0 0 0
PF00039 Fn1 Fibronectin type I domain 5 (18) 0 0 0 0
PF00040 Fn2 Fibronectin type II domain 11 (16) 0 0 0 0
PF00051 Kringle Kringle domain 15 (24) 2 2 0 0
PF01823 MACPF MAC/Perforin domain 6 0 0 0 0
PF00354 Pentaxin Pentaxin family 9 0 0 0 0
PF00277 SAA_proteins Serum amyloid A protein 4 0 0 0 0
PF00084 Sushi Sushi domain (SCR repeat) 53 (191) 11 (42) 8 (45) 0 0
PF02210 TSPN Thrombospondin N-terminal-like domains 14 1 0 0 0
PF01108 Tissue_fac Tissue factor 1 0 0 0 0
PF00868 Transglutamin_N Transglutaminase family 6 1 0 0 0
PF00927 Transglutamin_C Transglutaminase family 8 1 0 0 0

PF00594 Gla Vitamin K-dependent carboxylation/gamma- carboxyglutamic (GLA) domain 11 0 0 0 0
Immune response
PF00711 Defensin_beta Beta defensin 1 0 0 0 0
PF00748 Calpain_inhib Calpain inhibitor repeat 3 (9) 0 0 0 0
PF00666 Cathelicidins Cathelicidins 2 0 0 0 0
PF00129 MHC_I Class I histocompatibility antigen, domains alpha 1 and 2 18 (20) 0 0 0 0
PF00993 MHC_II_alpha** Class II histocompatibility antigen, alpha domain 5 (6) 0 0 0 0
PF00969 MHC_II_beta** Class II histocompatibility antigen, beta domain 7 0 0 0 0
PF00879 Defensin_propep Defensin propeptide 3 0 0 0 0
PF01109 GM_CSF Granulocyte-macrophage colony-stimulating factor 1 0 0 0 0
PF00047 Ig Immunoglobulin domain 381 (930) 125 (291) 67 (323) 0 0
PF00143 Interferon Interferon alpha/beta domain 7 (9) 0 0 0 0
PF00714 IFN-gamma Interferon gamma 1 0 0 0 0
PF00726 IL10 Interleukin-10 1 0 0 0 0
PF02372 IL15 Interleukin-15 1 0 0 0 0
PF00715 IL2 Interleukin-2 1 0 0 0 0
PF00727 IL4 Interleukin-4 1 0 0 0 0
PF02025 IL5 Interleukin-5 1 0 0 0 0
PF01415 IL7 Interleukin-7/9 family 1 0 0 0 0
PF00340 IL1 Interleukin-1 7 0 0 0 0
PF02394 IL1_propep Interleukin-1 propeptide 1 0 0 0 0
PF02059 IL3 Interleukin-3 1 0 0 0 0
PF00489 IL6 Interleukin-6/G-CSF/MGF family 2 0 0 0 0
PF01291 LIF_OSM Leukemia inhibitory factor (LIF)/oncostatin (OSM) family 2 0 0 0 0
PF00323 Defensins Mammalian defensin 2 0 0 0 0
PF01091 PTN_MK PTN/MK heparin-binding protein 2 0 0 0 0
PF00277 SAA_proteins Serum amyloid A protein 4 0 0 0 0
PF00048 IL8 Small cytokines (intecrine/chemokine), interleukin-8 like 32 0 0 0 0
PF01582 TIR TIR domain 18 8 2 0 131 (143)
PF00229 TNF TNF (tumor necrosis factor) family 12 0 0 0 0
PF00088 Trefoil Trefoil (P-type) domain 5 (6) 0 2 0 0
PI-PY-rho GTPase signaling
PF00779 BTK BTK motif 5 1 0 0 0
PF00168 C2 C2 domain 73 (101) 32 (44) 24 (35) 6 (9) 66 (90)
PF00609 DAGKa Diacylglycerol kinase accessory domain (presumed) 9 4 7 0 6
PF00781 DAGKc Diacylglycerol kinase catalytic domain (presumed) 10 8 8 2 11 (12)
PF00610 DEP Domain found in Dishevelled, Egl-10, and Pleckstrin (DEP) 12 (13) 4 10 5 2
PF01363 FYVE FYVE zinc finger 28 (30) 14 15 5 15
PF00996 GDI GDP dissociation inhibitor 6 2 1 1 3
PF00503 G-alpha G-protein alpha subunit 27 (30) 10 20 (23) 2 5
PF00631 G-gamma G-protein gamma like domains 16 5 5 1 0
PF00616 RasGAP GTPase-activator protein for Ras-like GTPase 11 5 8 3 0
PF00618 RasGEFN Guanine nucleotide exchange factor for Ras-like GTPases; N-terminal motif 9 2 3 5 0
PF00625 Guanylate_kin Guanylate kinase 12 8 7 1 4
PF02189 ITAM Immunoreceptor tyrosine-based activation motif 3 0 0 0 0
PF00169 PH PH domain 193 (212) 72 (78) 65 (68) 24 23
PF00130 DAG_PE-bind Phorbol esters/diacylglycerol binding domain (C1 domain) 45 (56) 25 (31) 26 (40) 1 (2) 4
PF00388 PI-PLC-X Phosphatidylinositol-specific phospholipase C, X domain 12 3 7 1 8
PF00387 PI-PLC-Y Phosphatidylinositol-specific phospholipase C, Y domain 11 2 7 1 8
PF00640 PID Phosphotyrosine interaction domain (PTB/PID) 24 (27) 13 11 (12) 0 0
PF02192 PI3K_p85B PI3-kinase family, p85-binding domain 2 1 1 0 0
PF00794 PI3K_rbd PI3-kinase family, ras-binding domain 6 3 1 0 0
PF01412 ArfGAP Putative GTP-ase activating protein for Arf 16 9 8 6 15
PF02196 RBD Raf-like Ras-binding domain 6 (7) 4 1 0 0
PF02145 Rap_GAP Rap/ran-GAP 5 4 2 0 0
PF00788 RA Ras association (RalGDS/AF-6) domain 18 (19) 7 (9) 6 1 0
PF00071 Ras Ras family 126 56 (57) 51 23 78
PF00617 RasGEF RasGEF domain 21 8 7 5 0
PF00615 RGS Regulator of G protein signaling domain 27 6 (7) 12 (13) 1 0
PF02197 RIIa Regulatory subunit of type II PKA R-subunit 4 1 2 1 0

PF00620 RhoGAP RhoGAP domain 59 19 20 9 8
PF00621 RhoGEF RhoGEF domain 46 23 (24) 18 (19) 3 0
PF00536 SAM SAM domain (Sterile alpha motif) 29 (31) 15 8 3 6
PF01369 Sec7 Sec7 domain 13 5 5 5 9
PF00017 SH2 Src homology 2 (SH2) domain 87 (95) 33 (39) 44 (48) 1 3
PF00018 SH3 Src homology 3 (SH3) domain 143 (182) 55 (75) 46 (61) 23 (27) 4
PF01017 STAT STAT protein 7 1 1 (2) 0 0
PF00790 VHS VHS domain 4 2 4 4 8
PF00568 WH1 WH1 domain 7 2 2 (3) 1 0
Domains involved in apoptosis
PF00452 Bcl-2 Bcl-2 9 2 1 0 0
PF02180 BH4 Bcl-2 homology region 4 3 0 1 0 0
PF00619 CARD Caspase recruitment domain 16 0 2 0 0
PF00531 Death Death domain 16 5 7 0 0
PF01335 DED Death effector domain 4 (5) 0 0 0 0
PF02179 BAG Domain present in Hsp70 regulators 5 (8) 3 2 1 5
PF00656 ICE_p20 ICE-like protease (caspase) p20 domain 11 7 3 0 0
PF00653 BIR Inhibitor of Apoptosis domain 8 (14) 5 (9) 2 (3) 1 (2) 0
Cytoskeletal
PF00022 Actin Actin 61 (64) 15 (16) 12 9 (11) 24
PF00191 Annexin Annexin 16 (55) 4 (16) 4 (11) 0 6 (16)
PF00402 Calponin Calponin family 13 (22) 3 7 (19) 0 0
PF00373 Band_41 FERM domain (Band 4.1 family) 29 (30) 17 (19) 11 (14) 0 0
PF00880 Nebulin_repeat Nebulin repeat 4 (148) 1 (2) 1 0 0
PF00681 Plectin_repeat Plectin repeat 2 (11) 0 0 0 0
PF00435 Spectrin Spectrin repeat 31 (195) 13 (171) 10 (93) 0 0
PF00418 Tubulin-binding Tau and MAP proteins, tubulin-binding 4 (12) 1 (4) 2 (8) 0 0
PF00992 Troponin Troponin 4 6 8 0 0
PF02209 VHP Villin headpiece domain 5 2 2 0 5
PF01044 Vinculin Vinculin family 4 2 1 0 0
ECM adhesion
PF01391 Collagen Collagen triple helix repeat (20 copies) 65 (279) 10 (46) 174 (384) 0 0
PF01413 C4 C-terminal tandem repeated domain in type 4 procollagen 6 (11) 2 (4) 3 (6) 0 0
PF00431 CUB CUB domain 47 (69) 9 (47) 43 (67) 0 0
PF00008 EGF EGF-like domain 108 (420) 45 (186) 54 (157) 0 1
PF00147 Fibrinogen_C Fibrinogen beta and gamma chains, C-terminal globular domain 26 10 (11) 6 0 0
PF00041 Fn3 Fibronectin type III domain 106 (545) 42 (168) 34 (156) 0 1
PF00757 Furin-like Furin-like cysteine rich region 5 2 1 0 0
PF00357 Integrin_A Integrin alpha cytoplasmic region 3 1 2 0 0
PF00362 Integrin_B Integrins, beta chain 8 2 2 0 0
PF00052 Laminin_B Laminin B (Domain IV) 8 (12) 4 (7) 6 (10) 0 0
PF00053 Laminin_EGF Laminin EGF-like (Domains III and V) 24 (126) 9 (62) 11 (65) 0 0
PF00054 Laminin_G Laminin G domain 30 (57) 18 (42) 14 (26) 0 0
PF00055 Laminin_Nterm Laminin N-terminal (Domain VI) 10 6 4 0 0
PF00059 Lectin_c Lectin C-type domain 47 (76) 23 (24) 91 (132) 0 0
PF01463 LRRCT Leucine rich repeat C-terminal domain 69 (81) 23 (30) 7 (9) 0 0
PF01462 LRRNT Leucine rich repeat N-terminal domain 40 (44) 7 (13) 3 (6) 0 0
PF00057 Ldl_recept_a Low-density lipoprotein receptor domain class A 35 (127) 33 (152) 27 (113) 0 0
PF00058 Ldl_recept_b Low-density lipoprotein receptor repeat class B 15 (96) 9 (56) 7 (22) 0 0
PF00530 SRCR Scavenger receptor cysteine-rich domain 11 (46) 4 (8) 1 (2) 0 0
PF00084 Sushi Sushi domain (SCR repeat) 53 (191) 11 (42) 8 (45) 0 0
PF00090 Tsp_1 Thrombospondin type 1 domain 41 (66) 11 (23) 18 (47) 0 0
PF00092 Vwa von Willebrand factor type A domain 34 (58) 0 17 (19) 0 1
PF00093 Vwc von Willebrand factor type C domain 19 (28) 6 (11) 2 (5) 0 0
PF00094 Vwd von Willebrand factor type D domain 15 (35) 3 (7) 9 0 0
Protein interaction domains
PF00244 14-3-3 14-3-3 proteins 20 3 3 2 15
PF00023 Ank Ank repeat 145 (404) 72 (269) 75 (223) 12 (20) 66 (111)
PF00514 Armadillo_seg Armadillo/beta-catenin-like repeats 22 (56) 11 (38) 3 (11) 2 (10) 25 (67)
PF00168 C2 C2 domain 73 (101) 32 (44) 24 (35) 6 (9) 66 (90)
PF00027 cNMP_binding Cyclic nucleotide-binding domain 26 (31) 21 (33) 15 (20) 2 (3) 22
PF01556 DnaJ_C DnaJ C terminal region 12 9 5 3 19
PF00226 DnaJ DnaJ domain 44 34 33 20 93
PF00036 Efhand** EF hand 83 (151) 64 (117) 41 (86) 4 (11) 120 (328)
PF00611 FCH Fes/CIP4 homology domain 9 3 2 4 0
PF01846 FF FF domain 4 (11) 4 (10) 3 (16) 2 (5) 4 (8)
PF00498 FHA FHA domain 13 15 7 13 (14) 17

PF00254 FKBP FKBP-type peptidyl-prolyl cis-trans isomerases 15 (20) 7 (8) 7 (13) 4 24 (29)
PF01590 GAF GAF domain 7 (8) 2 (4) 1 0 10
PF01344 Kelch Kelch motif 54 (157) 12 (48) 13 (41) 3 102 (178)
PF00560 LRR** Leucine Rich Repeat 25 (30) 24 (30) 7 (11) 1 15 (16)
PF00917 MATH MATH domain 11 5 88 (161) 1 61 (74)
PF00989 PAS PAS domain 18 (19) 9 (10) 6 1 13 (18)
PF00595 PDZ PDZ domain (Also known as DHR or GLGF) 96 (154) 60 (87) 46 (66) 2 5
PF00169 PH PH domain 193 (212) 72 (78) 65 (68) 24 23
PF01535 PPR** PPR repeat 5 3 (4) 0 1 474 (2485)
PF00536 SAM SAM domain (Sterile alpha motif) 29 (31) 15 8 3 6
PF01369 Sec7 Sec7 domain 13 5 5 5 9
PF00017 SH2 Src homology 2 (SH2) domain 87 (95) 33 (39) 44 (48) 1 3
PF00018 SH3 Src homology 3 (SH3) domain 143 (182) 55 (75) 46 (61) 23 (27) 4
PF01740 STAS STAS domain 5 1 6 2 13
PF00515 TPR** TPR domain 72 (131) 39 (101) 28 (54) 16 (31) 65 (124)
PF00400 WD40** WD40 domain 136 (305) 98 (226) 72 (153) 56 (121) 167 (344)
PF00397 WW WW domain 32 (53) 24 (39) 16 (24) 5 (8) 11 (15)
PF00569 ZZ ZZ-Zinc finger present in dystrophin, CBP/p300 10 (11) 13 10 2 10
Nuclear interaction domains
PF01754 Zf-A20 A20-like zinc finger 2 (8) 2 2 0 8
PF01388 ARID ARID DNA binding domain 11 6 4 2 7
PF01426 BAH BAH domain 8 (10) 7 (8) 4 (5) 5 21 (25)
PF00643 Zf-B_box** B-box zinc finger 32 (35) 1 2 0 0
PF00533 BRCT BRCA1 C Terminus (BRCT) domain 17 (28) 10 (18) 23 (35) 10 (16) 12 (16)
PF00439 Bromodomain Bromodomain 37 (48) 16 (22) 18 (26) 10 (15) 28
PF00651 BTB BTB/POZ domain 97 (98) 62 (64) 86 (91) 1 (2) 30 (31)
PF00145 DNA_methylase C-5 cytosine-specific DNA methylase 3 (4) 1 0 0 13 (15)
PF00385 Chromo chromo' (CHRromatin Organization MOdifier) domain 24 (27) 14 (15) 17 (18) 1 (2) 12
PF00125 Histone Core histone H2A/H2B/H3/H4 75 (81) 5 71 (73) 8 48
PF00134 Cyclin Cyclin 19 10 10 11 35
PF00270 DEAD DEAD/DEAH box helicase 63 (66) 48 (50) 55 (57) 50 (52) 84 (87)
PF01529 Zf-DHHC DHHC zinc finger domain 15 20 16 7 22
PF00646 F-box** F-box domain 16 15 309 (324) 9 165 (167)
PF00250 Fork_head Fork head domain 35 (36) 20 (21) 15 4 0
PF00320 GATA GATA zinc finger 11 (17) 5(6) 8 (10) 9 26
PF01585 G-patch G-patch domain 18 16 13 4 14 (15)
PF00010 HLH** Helix-loop-helix DNA-binding domain 60 (61) 44 24 4 39
PF00850 Hist_deacetyl Histone deacetylase family 12 5 (6) 8 (10) 5 10
PF00046 Homeobox Homeobox domain 160 (178) 100 (103) 82 (84) 6 66
PF01833 TIG IPT/TIG domain 29 (53) 11 (13) 5 (7) 2 1
PF02373 JmjC JmjC domain 10 4 6 4 7
PF02375 JmjN JmjN domain 7 4 2 3 7
PF00013 KH-domain KH domain 28 (67) 14 (32) 17 (46) 4 (14) 27 (61)
PF01352 KRAB KRAB box 204 (243) 0 0 0 0
PF00104 Hormone_rec Ligand-binding domain of nuclear hormone receptor 47 17 142 (147) 0 0
PF00412 LIM LIM domain containing proteins 62 (129) 33 (83) 33 (79) 4 (7) 10 (16)
PF00917 MATH MATH domain 11 5 88 (161) 1 61 (74)
PF00249 Myb_DNA-binding Myb-like DNA-binding domain 32 (43) 18 (24) 17 (24) 15 (20) 243 (401)
PF02344 Myc-LZ Myc leucine zipper domain 1 0 0 0 0
PF01753 Zf-MYND MYND finger 14 14 9 1 7
PF00628 PHD PHD-finger 68 (86) 40 (53) 32 (44) 14 (15) 96 (105)
PF00157 Pou Pou domain--N-terminal to homeobox domain 15 5 4 0 0
PF02257 RFX_DNA_binding RFX DNA-binding domain 7 2 1 1 0
PF00076 Rrm RNA recognition motif (a.k.a. RRM, RBD, or RNP domain) 224 (324) 127 (199) 94 (145) 43 (73) 232 (369)
PF02037 SAP SAP domain 15 8 5 5 6 (7)
PF00622 SPRY SPRY domain 44 (51) 10 (12) 5 (7) 3 6
PF01852 START START domain 10 2 6 0 23
PF00907 T-box T-box 17 (19) 8 22 0 0

PF02135 Zf-TAZ TAZ finger 2 (3) 1 (2) 6 (7) 0 10 (15)
PF01285 TEA TEA domain 4 1 1 1 0
PF02176 Zf-TRAF TRAF-type zinc finger 6 (9) 1 (3) 1 0 2
PF00352 TBP Transcription factor TFIID (or TATA-binding protein, TBP) 2 (4) 4 (8) 2 (4) 1 (2) 2 (4)
PF00567 TUDOR TUDOR domain 9 (24) 9 (19) 4 (5) 0 2
PF00642 Zf-CCCH Zinc finger C-x8-C-x5-C-x3-H type (and similar) 17 (22) 6 (8) 22 (42) 3 (5) 31 (46)
PF00096 Zf-C2H2** ZInc finger, C2H2 type 564 (4500) 234 (771) 68 (155) 34 (56) 21 (24)
PF00097 Zf-C3HC4 Zinc finger, C3HC4 type (RING finger) 135 (137) 57 88 (89) 18 298 (304)
PF00098 Zf-CCHC Zinc knuckle 9 (17) 6 (10) 17 (33) 7 (13) 68 (91)


表19 ヒトH. sapiens(H)および、ショウジョウバエD.melanogaster(D)、線虫C.elegans(C)、酵母S.cervisiae(Y)、アラビドプシスA.thaliana(A)において、抜粋したPantherファミリーもしくはサブファミリーに割当同定された蛋白数


Panther family/subfamily* H F W Y A

Neural structure, function, development
Ependymin 1 0 0 0 0
Ion channels
Acetylcholine receptor 17 12 56 0 0
Amiloride-sensitive/degenerin 11 24 27 0 0
CNG/EAG 22 9 9 0 30
IRK 16 3 3 0 0
ITP/ryanodine 10 2 4 0 0
Neurotransmitter-gated 61 51 59 0 19
P2X purinoceptor 10 0 0 0 0
TASK 12 12 48 1 5
Transient receptor 15 3 3 1 0
Voltage-gated Ca2+ alpha 22 4 8 2 2
Voltage-gated Ca2+ alpha-2 10 3 2 0 0
Voltage-gated Ca2+ beta 5 2 2 0 0
Voltage-gated Ca2+ gamma 1 0 0 0 0
Voltage-gated K+ alpha 33 5 11 0 0
Voltage-gated KQT 6 2 3 0 0
Voltage-gated Na+ 11 4 4 9 1
Myelin basic protein 1 0 0 0 0
Myelin PO 5 0 0 0 0
Myelin proteolipid 3 1 0 0 0
Myelin-oligodendrocyte glycoprotein 1 0 0 0 0
Neuropilin 2 0 0 0 0
Plexin 9 2 0 0 0
Semaphorin 22 6 2 0 0
Synaptotagmin 10 3 3 0 0
Immune response
Defensin 3 0 0 0 0
Cytokinedagger 86 14 1 0 0
GCSF 1 0 0 0 0
GMCSF 1 0 0 0 0
Intercrine alpha 15 0 0 0 0
Intercrine beta 5 0 0 0 0
Inteferon 8 0 0 0 0
Interleukin 26 1 1 0 0
Leukemia inhibitory factor 1 0 0 0 0
MCSF 1 0 0 0 0
Peptidoglycan recognition protein 2 13 0 0 0
Pre-B cell enhancing factor 1 0 0 0 0
Small inducible cytokine A 14 0 0 0 0
Sl cytokine 2 0 0 0 0
TNF 9 0 0 0 0
Cytokine receptordagger 62 1 0 0 0
Bradykinin/C-C chemokine receptor 7 0 0 0 0
Fl cytokine receptor 2 0 0 0 0
Interferon receptor 3 0 0 0 0
Interleukin receptor 32 0 0 0 0
Leukocyte tyrosine kinase receptor 3 0 0 0 0
MCSF receptor 1 0 0 0 0
TNF receptor 3 0 0 0 0
Immunoglobulin receptordagger 59 0 0 0 0
T-cell receptor alpha chain 16 0 0 0 0
T-cell receptor beta chain 15 0 0 0 0
T-cell receptor gamma chain 1 0 0 0 0
T-cell receptor delta chain 1 0 0 0 0
Immunoglobulin FC receptor 8 0 0 0 0
Killer cell receptor 16 0 0 0 0
Polymeric-immunoglobulin receptor 4 0 0 0 0

MHC class I 22 0 0 0 0
MHC class II 20 0 0 0 0
Other immunoglobulindagger 114 0 0 0 0
Toll receptor-related 10 6 0 0 0
Developmental and homeostatic regulators
Signaling moleculesdagger
Calcitonin 3 0 0 0 0
Ephrin 8 2 4 0 0
FGF 24 1 1 0 0
Glucagon 4 0 0 0 0
Glycoprotein hormone beta chain 2 0 0 0 0
Insulin 1 0 0 0 0
Insulin-like hormone 3 0 0 0 0
Nerve growth factor 3 0 0 0 0
Neuregulin/heregulin 6 0 0 0 0
neuropeptide Y 4 0 0 0 0
PDGF 1 1 0 0 0
Relaxin 3 0 0 0 0
Stannocalcin 2 0 0 0 0
Thymopoeitin 2 0 1 0 0
Thyomosin beta 4 2 0 0 0
TGF-beta 29 6 4 0 0
VEGF 4 0 0 0 0
Wnt 18 6 5 0 0
Receptorsdagger
Ephrin receptor 12 2 1 0 0
FGF receptor 4 4 0 0 0
Frizzled receptor 12 6 5 0 0
Parathyroid hormone receptor 2 0 0 0 0
VEGF receptor 5 0 0 0 0
BDNF/NT-3 nerve growth factor receptor 4 0 0 0 0
Kinases and phosphatases
Dual-specificity protein phosphatase 29 8 10 4 11
S/T and dual-specificity protein
kinasedagger 395 198 315 114 1102
S/T protein phosphatase 15 19 51 13 29
Y protein kinasedagger 106 47 100 5 16
Y protein phosphatase 56 22 95 5 6
Signal transduction
ARF family 55 29 27 12 45
Cyclic nucleotide phosphodiesterase 25 8 6 1 0
G protein-coupled receptorsdagger ddagger 616 146 284 0 1
G-protein alpha 27 10 22 2 5
G-protein beta 5 3 2 1 1
G-protein gamma 13 2 2 0 0
Ras superfamily 141 64 62 26 86
G-protein modulatorsdagger
ARF GTPase-activating 20 8 9 5 15
Neurofibromin 7 2 0 2 0
Ras GTPase-activating 9 3 8 1 0
Tuberin 7 3 2 0 0
Vav proto-oncogene family 35 15 13 3 0

Transcription factors/chromatin organization
C2H2 zinc finger-containingdagger 607 232 79 28 8
COE 7 1 1 0 0
CREB 7 1 2 0 0
ETS-related 25 8 10 0 0
Forkhead-related 34 19 15 4 0
FOS 8 2 1 0 0
Groucho 13 2 1 0 0
Histone H1 5 0 1 0 0
Histone H2A 24 1 17 3 13
Histone H2B 21 1 17 2 12
Histone H3 28 2 24 2 16
Histone H4 9 1 16 1 8
Homeoticdagger 168 104 74 4 78
ABD-B 5 0 0 0 0
Bithoraxoid 1 8 1 0 0
Iroquois class 7 3 1 0 0
Distal-less 5 2 1 0 0
Engrailed 2 2 1 0 0
LIM-containing 17 8 3 0 0
MEIS/KNOX class 9 4 4 2 26
NK-3/NK-2 class 9 4 5 0 0
Paired box 38 28 23 0 2
Six 5 3 4 0 0
Leucine zipper 6 0 0 0 0
Nuclear hormone receptordagger 59 25 183 1 4
Pou-related 15 5 4 1 0
Runt-related 3 4 2 0 0
ECM adhesion
Cadherin 113 17 16 0 0
Claudin 20 0 0 0 0
Complement receptor-related 22 8 6 0 0
Connexin 14 0 0 0 0
Galectin 12 5 22 0 0
Glypican 13 2 1 0 0
ICAM 6 0 0 0 0
Integrin alpha 24 7 4 0 1
Integrin beta 9 2 2 0 0
LDL receptor family 26 19 20 0 2
Proteoglycans 22 9 7 0 5
Apoptosis
Bcl-2 12 1 0 0 0
Calpain 22 4 11 1 3
Calpain inhibitor 4 0 0 0 1
Caspase 13 7 3 0 0
Hemostasis
ADAM/ADAMTS 51 9 12 0 0
Fibronectin 3 0 0 0 0
Globin 10 2 3 0 3
Matrix metalloprotease 19 2 7 0 3
Serum amyloid A 4 0 0 0 0
Serum amyloid P (subfamily of Pentaxin) 2 0 0 0 0
Serum paraoxonase/arylesterase 4 0 3 0 0
Serum albumin 4 0 0 0 0
Transglutaminase 10 1 0 0 0
Other enzymes
Cytochrome p450 60 89 83 3 256
GAPDH 46 3 4 3 8
Heparan sulfotransferase 11 4 2 0 0
Splicing and translation
EF-1alpha 56 13 10 6 13
Ribonucleoproteinsdagger 269 135 104 60 265
Ribosomal proteinsdagger 812 111 80 117 256

* The table lists Panther families or subfamilies relevant to the text that either (i) are not specifically represented by Pfam (Table 18) or (ii) differ in counts from the corresponding Pfam models.
dagger This class represents a number of different families in the same Panther molecular function subcategory.
ddagger This count includes only rhodopsin-class, secretin-class, and metabotropic glutamate-class GPCRs.


7.3 ヒトゲノムと配列決定済みの他の真核生物ゲノムとの間の相違

脊椎動物分類上の分子基盤を探求するため、ヒトゲノムを他の配列決定済みの真核生物ゲノムと3つのレベルにて比較した。すなわち、分子機能、蛋白ファミリー、蛋白ドメインである。

脊椎動物に特徴的な発生学的プロセス、細胞学的プロセスを明らかにするため、分子の相違を表現型相違に関係づけることが可能である。表18および表19は、抜粋した蛋白ファミリー/ドメインファミリー(配列類似性により定義。例、セリン−スレオニン蛋白燐酸化酵素)および、スーパーファミリー(配列関連ファミリーをいくつか含むと思われる共通分子機能により定義。例、サイトカイン)に関して、配列決定済みの全真核生物ゲノム間の比較をしめす。これらの表において、非常に大きい(スーパー)ファミリー、もしくは、他の配列決定済みの真核生物ゲノムと比較しヒトでは有意に異なる(スーパー)ファミリーに焦点を置いた。最も顕著なヒトゲノムでの増幅は、以下に関与する蛋白群にて生じることを発見した。すなわち、(I)後天性免疫、(ii)神経発生、神経構造、神経機能、(iii)発生および恒常性維持における細胞間および細胞内シグナル経路、(iv)止血、(iv)アポトーシスである。

後天性免疫
ヒトゲノムとショウジョウバエDrosophilaゲノムもしくは線虫C.elegansゲノム間における最も顕著な相違点は、後天性免疫に関与する遺伝子の出現である(表18および表19)。後天性免疫応答は脊椎動物にてのみ生じる防御系であるため、これは予測された。ヒトゲノムにおいて、22個のクラスI主要組織適合性複合体(MHC, major histocompatibility complex)抗原遺伝子、22個のクラスII MHC抗原遺伝子の他に114個の免疫グロブリン遺伝子を発見した。さらに、同一起源免疫グロブリン受容体ファミリーにおいて59個もの遺伝子が存在する。ドメインレベルでは、MHC等の分子構成のために古代免疫グロブリン類が、そして免疫エフェクター細胞と細胞外マトリックス間相互作用に介在するいくつかの細胞接着分子を構成するためにインテグリン類が、拡張・補充されていることをみればこの点は例証されている。脊椎動物特異的な蛋白には、分泌型4-α螺旋束蛋白群、すなわちサイトカインおよびケモカインからなるパラクライン型免疫調節因子ファミリーが含まれる。サイトカイン受容体シグナル伝達に関連する細胞質シグナル伝達コンポーネントも、同様にハエおよび線虫にはわずかしか存在しない。これらの蛋白ドメインには、転写時のシグナルトランスデューサーとアクチベーター(STAT, signal transducer and activator of transcription)、サイトカインシグナルのサプレッサー(SOCS, suppressors of cytokine signaling)、活性化STATの蛋白インヒビター(PIAS, protein inhibitors of activated STATs)が含まれる。対照的に、Toll受容体のような先天性免疫応答に役割を果たす動物特異的蛋白ドメインは、ヒトゲノムにおいて有意に増幅して いるとは思えない。

神経発生、神経構造、神経機能
ヒトゲノムでは、線虫ゲノムおよびハエゲノムと比較して、神経発生に関与する蛋白ファミリーメンバー数に顕著な増加がみられる。これらの例には、エペンデミン、神経増殖因子(NGF)等の神経栄養因子、セマフォリン等のシグナル分子のみならず、ミエリン蛋白、電位依存型イオンチャネル、シナプトタグミン等のシナプス蛋白といった神経構造および機能に直接関与している多数の蛋白が含まれる。これらの結果は、これらの動物分類の神経系間において知られている表現型の既知相違点と高い相関を示す。顕著なものでは、(i) ニューロン数とコネクション数の増加、(ii)神経細胞タイプ数の増加(ハエ、線虫では数百タイプであるのに比較して、ヒトでは千以上のタイプが存在する)(121)、(iii)個々の神経軸索長の増加、(iv)グリア細胞の有意な増加、特に、ニューロンと同じ幹細胞から分化するが電気的には不活性な支持細胞となる、髄鞘を形成するグリア細胞の出現である。多くの顕著な蛋白増幅が神経発生には関与している。細胞接着を仲介する細胞外ドメインにおいて、コネキシンドメインを有する蛋白(122)はヒトにのみ存在する。ハエゲノムもしくは線虫ゲノムに存在しないこれらの蛋白は、細胞間チャネルの構成的サブユニットおよび、電気的カップリングの構造基盤となっている。軸索誘導および神経細胞ネットワーク形成は、エフリンのサブセット、および、それらと同一起源の、位相投射を樹立するための位置標識として働く受容体型チロシン燐酸化酵素を介している(123)。セマフォリン(ハエでは6個、線虫では2個のメンバーが存在するのと比較して、ヒトでは22個の遺伝子が存在する)およびその受容体(ニューロピリンおよびプレキシン)の生物学的役割は、軸索誘導分子であると思われる(124)。神経栄養因子や一部のサイトカインのようなシグナル分子は、神経細胞の生存、増殖、軸索誘導を調節することが示されてきた(125)。Notch受容体およびリガンドはグリア細胞運命決定およびグリア新生に重要な役割を担っている(126)。

ヒトにて増幅された他の遺伝子ファミリーは、神経構造および機能において鍵となる役割を直接的に担う。シナプス小胞の膜融合と放出に関与するカルシウムセンサー(もしくは受容体)として機能するシナプス伝達調節蛋白として当初は発見されたシナプトタグミン(無脊椎動物に比較してヒトでは2倍以上に増幅した遺伝子ファミリー)は、この様な例のひとつである(127)。神経細胞特異的アダプター分子中のPDZドメインおよびSH3ドメインがヒトにて同時増大したことは興味深い。例としては、シナプス間隙でのチャネル機能を調節すると思われる蛋白が含まれる。同様に、EAGサブファミリー(サイクリックヌクレオチド依存性チャネルに関連)、電位依存性カルシウム/ナトリウムチャネル・ファミリー、内向き整流カリウムチャネル・ファミリー、電位依存性カリウムチャネルのαサブユニット・ファミリーを含む、いくつかのイオンチャネル・ファミリーにおける増幅(表19)も指摘される。電位依存性ナトリウムチャネルおよび電位依存性カリウムチャネルは神経細胞において活動電位を生み出すことに関与している。電位依存性カルシウムチャネルと合わせ、これらは神経伝達物質の放出、神経突起の成長、短期記憶に活動電位をカップリングすることで重要な役割を担っている。最近の知見によると、カルシウムが調節するナトリウムチャネルとシナプトタグミンの結合により、神経細胞興奮性が樹立、調節されると思われる(129)。

ミエリン塩基性蛋白およびミエリン結合糖蛋白は、脊椎動物の中枢神経系および末梢神経系における主要構成蛋白である。ミエリンP0は末梢神経髄鞘の主要構成蛋白であり、ミエリン蛋白脂質およびミエリン乏突起神経膠細胞(oligodendrocyte)糖蛋白は中枢神経系に見られる。これらのミエリン蛋白のいずれかに突然変異が生じると、髄鞘の喪失および神経線維結合の重度障害という病理的に重篤な脱髄鞘が起こる(130)。ヒトでは、ミエリン形成に関与する異なる4つのファミリーに属する遺伝子が少なくとも10個(ミエリンP0 5個、ミエリン蛋白脂質3個、ミエリン塩基性蛋白、ミエリン乏突起神経膠細胞糖タンパク(MOG, myelin-oligodendrocyte glycoprotein)、そして遠縁にあるMOGファミリー関連メンバーが恐らく存在すると思われる。ハエはミエリン蛋白脂質をただ一つ、線虫は全く持たない。

発生と恒常性維持機能における細胞間および細胞内シグナル伝達経路

ヒトにおいて、無脊椎動物に比較して増幅した多くの蛋白ファミリーはシグナル伝達過程に関与する。特に、発生および分化に応答したシグナル過程に関与する蛋白ファミリーが挙げられる(表18および表19)。これらには、分泌ホルモンや細胞成長因子、受容体、細胞内シグナル分子、転写因子が含まれる。

ヒトゲノムで強化されている発生関与シグナル分子には、wnt、トランスフォーミング成長因子(TGF, transforming growth factor-β)、線維芽細胞成長因子(FGF, fibroblast growth factor)、神経成長因子(NGF, nerve growth factor)、血小板由来細胞成長因子(PDGF)およびエフリン等の細胞成長因子が含まれる。これらの成長因子は組織分化およびアクチン−細胞骨格制御および核機能制御に関与する広範な細胞学的プロセスに影響を及ぼす。ヒトにおいて、これら発生関与リガンドに対応する受容体も同様に増幅している。例えば、今回の解析から少なくとも8個のヒト・エフリン遺伝子(ハエ2個、線虫4個)および12個のエフリン受容体(ハエ2個、線虫1個)が存在すると示唆された。Wntシグナル経路においては、18個のwntファミリー遺伝子(ハエ6個、線虫5個)および12個のfrizzled受容体(ハエ6個、線虫5個)を発見した。Wnt経路の下流にある転写コリプレッサーのGrouchoファミリーは、ヒトでは13個と予測され(ハエ2個、線虫1個)、さらに顕著に増幅している。

シグナル伝達に関与する細胞外接着分子はヒトゲノムにて増幅している(表18および表19)。これら接着分子ドメインのいくつかが細胞外マトリクス・プロテオグリカンと結合することは、宿主防御、形態形成、組織修復に重大な役割を演じる(131)。これらの結合調節というヘパラン硫酸プロテオグリカンの明確な役割(132)と一致して、ヒトゲノムでは線虫およびハエに比べてヘパラン硫酸の硫酸転移酵素の増幅があることを発見した。ヘパラン硫酸転移酵素は組織分化を調節する(133)。同様にヒトでは、アクチン−細胞骨格構造蛋白にも増幅が見られる。ハエおよび線虫と比較して、ヒトで爆発的に増幅しているのは、ネブリン反復配列(蛋白あたり平均35ドメイン)、アグレカン反復配列(蛋白あたり平均12ドメイン)、プレクチン反復配列(蛋白あたり平均5ドメイン)である。これら反復配列は、アクチン−細胞骨格調節に関与し、神経、筋肉、脈管組織に著明な発現が認められる蛋白に含まれている。

配列決定済みの5つの真核生物間の比較により、細胞質シグナル伝達に関与したいくつかの蛋白ファミリーおよびドメインが増幅していることが明らかになった(表18)。特に、発生制御および後天性免疫において役割を担うシグナル伝達経路が実質的に強化されている。RasスーパーファミリーGTPaseおよび、これらに付随するGTPase活性因子(GAP)、GTP交換因子(GEF)は、ヒトにおいて2倍もしくはそれ以上の増幅をしめす。ヒトゲノムおよび線虫C.elegansゲノムには、ほぼ同数のチロシン燐酸化酵素が存在するが、ヒトでは燐酸化チロシン・シグナル伝達に関与するSH2ドメイン、PTBドメイン、ITAMドメインの増加が見られる。さらに、ハエもしくは線虫ゲノムと比較した際、ヒトゲノムでは燐酸2エステラーゼに2倍以上の増幅が見られる。

細胞内シグナル分子の下流エフェクターには、発生上の運命を伝達する転写因子が含まれる。ハエ・ゲノムと比較した際、転写因子であるリガンド結合型核内ホルモン受容体群は顕著に増幅していることが示されている。ただし、線虫と比べれば増幅程度は顕著ではない(表18および表19)。ヒトにて最も強烈な増幅があるのは、恐らくC2H2ジンクフィンガー転写因子であろう。Pfamプログラムにて、564個のヒト蛋白において合計4500個のC2H2ジンクフィンガー・ドメインが検出された。これに対し、234個のハエ蛋白では771個である。これは、C2H2転写因子数のみならず転写因子あたりのDNA結合モチーフ数(ヒト平均8個、ハエ平均3.3個、線虫平均2.3個)が劇的に拡大してきたことを意味する。さらに、これら転写因子の多くが、ハエや線虫では見られないKRABもしくはSCANドメインのどちらかをもっている。これらドメインは、転写因子の重合体形成に関与し、転写因子の結合組み合わせを増大するものである。一般的に、転写因子ドメインのほとんどは3種類の動物で共通だが、これらドメインを再分類してみると生物種特異的転写因子ファミリーがあるという結果となった。ヒト、ハエ、線虫にみられるドメインの組み合わせは、ハエおよびヒトにおけるBTBドメインとC2H2ドメインの組み合わせ、3つの動物ゲノムにおけるホメオドメイン単独もしくはPouドメインおよびLIMドメインとの組み合わせである。しかし植物では、異なるセットの転写因子が増幅している。すなわち、mybファミリーおよび、VP1ドメインとVP2ドメインを含むユニークな蛋白セットである(134)。酵母ゲノムは多細胞真核生物と比較した際、転写因子を少数しか持たず、そのレパートリーは代謝制御に関与する酵母特異的C6転写因子ファミリーの増幅に限られる。

ここまで他の真核生物ゲノムと比較した際にヒトゲノムにて拡張を示すシグナル伝達分子のサブセットについて説明してきたが、ほとんどの蛋白ドメインが非常によく遺伝子的に保存されていることを述べておくべきであろう。興味深いことに、線虫とヒトはおおよそ同数のチロシン燐酸化酵素およびセリン・チロシン燐酸化酵素をもっている(表19)。しかし、これらは単に触媒ドメインを数えあげているだけであるという点は重要である。というのも、これらドメインを有する蛋白はまた、意味のある組合せに多様性がある蛋白の結合ドメインにも、広範なレパートリーがあることを示すからである。

止血
止血は、凝固経路の血漿蛋白分解酵素および、血管内皮と血小板の相互作用により、主に調節される。脊椎動物と無脊椎動物間に知られる解剖学的および生理学的差異に一致して、止血に重要な蛋白を構成する細胞外接着ドメインは、ヒトではハエおよび線虫に比べ増幅している(表18および表19)。血球系細胞と血管マトリクス間の表面相互作用に関与するFIMAC、FN1、FN2、C1q等のドメインの進化を記しておきたい。さらに、VWA、VWC、VED、クリングル、FN3等のいっそう古くから存在する動物特異的ドメインが、止血調節に関与する多ドメイン蛋白に活発に取り込まれてきた。セリン蛋白分解酵素の総数に大きな増幅は認めないが、この酵素ドメインは血管系構成全体で蛋白分解調節を担ういくつかの多ドメイン蛋白へ特異的に取り込まれてきた。これらは、キニンおよび補体経路に属する血漿蛋白において示される。ADAM(a disintegrin and metalloprotease)およびMMPs(matrix metalloproteases)の2つのマトリックス・メタロプロテアーゼファミリーにおいて有意な増幅が見られる(表19)。細胞外マトリックス(ECM)蛋白の分解は、癌、関節炎、アルツハイマー氏病、種々の炎症状態等の疾患において、組織発生および組織分解に重要である。(135、136)。ADAMは、フィブリノーゲン分解および血球系コンポーネントと血管マトリックス・コンポーネント間の相互作用に重要な役割をもつ膜貫通型蛋白ファミリーである。これらの蛋白は、マトリックス蛋白、さらにはシグナル分子を切断することが示されてきた。ADAM-17はTNF(tumor necrosis factor、腫瘍壊死因子)―αを転換し、ADAM-10はNotchシグナル経路に関与すると考えられてきた(135)。今回、マトリックスメタロプロテアーゼ・ファミリーメンバーを19個、ADAMおよびADAM-TSファミリーメンバーを合計51個を同定した。

アポトーシス
真核生物間でアポトーシス経路構成因子の一部が進化過程で保存されることは、発生制御において、そして病原体やストレス・シグナルへの応答において、アポトーシスが中枢的役割を担うことと矛盾しない。プログラム細胞死、すなわちアポトーシスに関与するシグナル伝達経路には、細胞外ドメイン、アダプター(蛋白―蛋白相互作用の)ドメイン、エフェクター酵素や調節酵素にみられるドメインを含んだ、よく解析されたドメイン間の相互作用により仲介される。(137)。真核生物間の多様性と、ハエと線虫に対して比較した際、ヒトにおける相対的な増幅程度の推定値を出すため、アポトーシス経路にのみ存在する中枢的なアダプターとエフェクター酵素ドメインの蛋白数を列挙してみた(表18)。アポトーシス調節に限定される蛋白におけるDEDドメイン等のアダプタードメインは、脊椎動物特異的であったが、BIR、CARD、Bcl2等はハエや線虫にも存在した(ただし、ヒトでのBcl2ファミリー・メンバー数は有意に増幅している)。植物および酵母にはカスペースが存在しないが、カスペース様分子、すなわちパラ・カスペースおよびメタ・カスペースの存在が報告されている(138)。他の動物ゲノムと比較して、ヒトゲノムでは、カスペースおよびカルパイン・ファミリー等のアポトーシス・カスケードに関与する蛋白のみならず、アポトーシスに関与するアダプターおよびエフェクター・ドメインを含む蛋白の増幅がみられる。

他の蛋白ファミリーの増幅
代謝酵素: ハエもしくは線虫と比較してヒトにはチトクロムP450遺伝子が少ない。一方、リポオキシゲナーゼ(ヒト6個)は脊椎動物および植物特異的であるが、リポオキシゲナーゼ活性化蛋白(ヒト4個)は脊椎動物特異的と思われる。リポオキシゲナーゼはアラキドン酸代謝に関与し、その活性化蛋白はアレルギー応答から癌にいたる様々なヒト病理に関与すると考えられてきた。最も驚くべきヒトにおける遺伝子増幅の一つは、グリセロアルデヒド-3-燐酸脱水素酵素(GAPDH, glyceraldehyde-3-phosphate dehydrogenase)遺伝子数(ヒト46個、ハエ3個、線虫4個)である。しかし、多くの逆転写されたGAPDH偽遺伝子が存在すること(139)が、この見かけ上の増幅を説明する証拠もある。しかし、細菌からヒトにいたる全ての生物種に見られ、基礎代謝に関与する進化的に保存された酵素として長らく知られてきたGAPDHに、他の機能があることが近年示されてきたことは大変興味深い。GAPDHは第二活性(140)を示し、ウラシルDNAグライコシラーゼとして作用する。これは細胞周期調節因子として機能し(141)、アポトーシスに関与すると考えられてきた(142)。

翻訳: ヒトで著明に増幅しているもう一つのセットは、翻訳機構に関与するファミリー群にある。今回、ゲノム中にそれぞれのサブユニットが少なくとも10個のコピーをもつ28個の異なるリボゾーム・サブユニットを同定した。全てのリボゾーム蛋白遺伝子は、線虫もしくはハエに比較して平均約8〜10倍増幅している。逆転写された偽遺伝子がこれらの増幅の多くを占めると思われる(上述の考察と(143)を参照)。近年の知見では、リボソーム蛋白の多くが蛋白合成とは別個の2次的機能をもつと示唆されている。例えば、L14aおよび関連L7サブユニット(ヒト36個)はアポトーシスを誘導することが示されている(144)。
同様に延長因子1αファミリー(eEF1A、 ヒトで56遺伝子)では4〜5倍の増幅が存在する。この増幅の多くは、逆転写に由来すると思われるイントロンを持たないパラログであるようだ。さらに、これらの多くが偽遺伝子であると思われる証拠がある(145)。しかし、この延長因子の2つ目の型であるeEF1A2は筋肉で組織特異的に発現され、偏在的に発現するeEF1Aと相補的発現様式を示す(146)。

リボヌクレオ蛋白: オルタナティブスプライシングにより、単一遺伝子から多数の転写産物が生じる。従って、生物の全蛋白に付加的多様性をもたらすことができる。今回、269個の遺伝子がリボヌクレオ蛋白であることを同定した。この数は線虫リボヌクレオ蛋白遺伝子数の2.5倍以上、ハエの2倍、アラビドプシス・ゲノムで同定された265個とおよそ同じである。ヒトでのリボヌクレオ蛋白遺伝子の多様性が、スプライシング・レベルもしくは翻訳レベルで遺伝子調節に寄与しているかは不明である。

翻訳後修飾: このプロセスに関わるセットにて最も顕著な増幅がみられるのは、止血やアポトーシス等の細胞学的プロセスにおいて蛋白架橋触媒を行うカルシウム依存性酵素であるトランスグルタミナーゼである(147)。ビタミンK依存的γカルボキシラーゼ遺伝子産物は、凝固因子、オステオカルシン、マトリクスGLA蛋白に見られるGLAドメイン(ハエ、線虫には存在しない)に作用する(148)。チロシン化蛋白硫酸転移酵素は、凝集因子およびケモカイン受容体を含む炎症および止血に関与した蛋白の翻訳後修飾に関与する(149)。核蛋白の修飾に関与するドメイン数には有意な増加はないが、現時点で配列がわかっている他のゲノムには存在しないヒト予測蛋白において、ドメイン・アレンジメントが多数存在する。これらには、ユビキチン・フィンガードメインをもつHD6にて、ヒストン脱アセチル化酵素ドメインが直列的に存在することが含まれる。これはハエゲノムには存在しない特徴である。さらに重要な核調節酵素PARP(poly-ADP ribosyl transferase、ポリADPリボシル転移酵素)ドメインが、ヒトでは蛋白結合ドメインBRCTおよびVWAにそれぞれ融合するという例も挙げられる。

まとめ

ハエおよび線虫と比較した際、ヒトで見られる表現型の複雑さの差については、いくつかの解釈が可能である。これらの一部は、免疫系、止血、神経、脈管、細胞骨格の複雑性における顕著な差異に相関する。ヒトゲノムがこれまでの予測に比べ少数の遺伝子しかもたないという点は、蛋白構造や転写・翻訳調節、蛋白翻訳後修飾、翻訳後調節レベルで、組み合わせの多様さにより補われると思われる。組み合わせの多様さを増大もしくは変化させるためにドメインを混ぜ合わせることは、蛋白数の絶対数を劇的に増やすことなく、蛋白−蛋白相互作用を介在する能力を指数関数的に増大することができる(150)。明らかな新規性がある(配列解析の展望からみて)蛋白ドメインの進化、および、量的かつ質的なドメイン融合(既存ドメインへの新規ドメインの補充)によって増大する制御上の複雑性の2つが、今回、ヒトにて観察された特徴である。おそらくこの傾向を示す最良の例示となるのは、C2H2ジンク・フィンガーをもった転写因子群であろう。そこでは、KRABやSCAN等の脊椎動物に特異的なドメインと共に、蛋白あたりのドメイン数拡張が見られる。

特異的蛋白クラスの翻訳調節のため、ヒトゲノムにおいては内在性リボゾーム・エントリー部位が顕著に使用されているという近年の報告から、このプロセスが用いられる程度を完全に同定すべく、この分野でのさらなる研究がヒトゲノムにおいて要求されると思われる(151)。これら修飾に関与する蛋白ファミリーの一部に増幅例が存在することを示したが、翻訳後レベルで、蛋白プロセッシングにおける複雑性の増大と相関しているかどうかの評価には、さらなる実験的証拠が要求される。ヒトにおける転写後プロセッシングおよびイソフォーム発生の程度については、全面的な目録化作業が残っている。スプライソゾーム機構の保守的性質から、このレベルにおける調節機構を解剖するためには更なる解析が必要であろう。




1 Celera Genomics, 45 West Gude Drive, Rockville, MD 20850, USA. 2 GenetixXpress, 78 Paci_c Road, Palm Beach, Sydney 2108, Australia. 3 Berkeley Drosophila Genome Project, University of California, Berkeley, CA 94720, USA. 4 Department of Biology, Penn State Uni-versity, 208 Mueller Lab, University Park, PA 16802, USA. 5 Department of Genetics, Case Western Reserve University School of Medicine, BRB-630, 10900 Euclid Avenue, Cleveland, OH 44106, USA. 6 Johns Hopkins University School of Medicine, Johns Hopkins Hospital, 600 North Wolfe Street, Blalock 1007, Baltimore, MD 21287_4922, USA. 7 Rockefeller University, 1230 York Avenue, New York, NY 10021_6399, USA. 8 New England BioLabs, 32 Tozer Road, Beverly, MA 01915, USA. 9 Division of Biology, 147-75, California Institute of Technology, 1200 East California Boulevard, Pasa- dena, CA 91125, USA. 10 Yale University School of Medicine, 333 Cedar Street, P.O. Box 208000, New Haven, CT 06520_8000, USA. 11 Applied Biosystems, 850 Lincoln Centre Drive, Foster City, CA 94404, USA. 12 The Institute for Genomic Research, 9712 Medical Center Drive, Rockville, MD 20850, USA. 13 Faculty of Life Sciences, Bar-Ilan University, Ramat-Gan, 52900 Israel. 14 Grup de Recerca en Informa `tica Me`dica, In-stitut Municipal d'Investigacio _ Me `dica, Universitat Pompeu Fabra, 08003-Barcelona, Catalonia, Spain.

連絡先:To whom correspondence should be addressed.
E- mail: humangenome@celera.com

Copyright © 2001 by The American Association for the Advancement of Science.