The Human Genome

ヒトゲノム配列TOPページへ


0.序論  
1.DNA供給源と塩基配列解析法  
2.ゲノムアセンブリ戦略と特徴
3.遺伝子予測と注釈  
4.ゲノムの構造
5.ゲノムの進化  
6.ゲノム全域の配列変異検査  
7.ヒトゲノムにおいて予測される蛋白質コード遺伝子の概観
8.結論


8.結論

8.1全ゲノム配列解析法対BAC-by-BAC法

さまざまなゲノムサイズと反復配列を有する多様な生物に全ゲノムショットガン法を適用した経験から、我々は本法の利点と弱点を評価することができる。多数の微生物ゲノム、ショウジョウバエ、そして今回ヒトに対して用いて成功したことで、本法の有用性に疑いの余地はない。本法によって配列決定した多数の微生物ゲノム(15, 80, 152)から、メガ塩基対サイズのゲノムでは、de novoのメイト対配列以外をインプットしなくても効率よく配列決定できることが実証された。ショウジョウバエやヒトのようにもっと複雑なゲノムでは、順序よく整列化されたマーカーの物理地図情報が、配列骨格の広域にわたる整列に重要であった。配列骨格を染色体へ導入するには、マーカーの数自体よりもマップの品質(マーカーの整列化)の方がもっと重要である。このマッピングは配列解析と同時に行なうこともできたが、マッピングデータが予め存在したことが役に立った。アラビドプシス(A. thaliana)ゲノムの配列解析においては、個々のBACクローンを配列解析していくことで、動原体領域に配列がうまく延びていき、複雑な反復領域の高解像度解析がなされた。同じように、ショウジョウバエでは、反復性の高い動原体やテロメアの近傍領域でBAC物理地図が非常に役に立った。WGA法は、ゲノムのユニークな領域で高品質の再構築を行なうために有用であることが判った。ゲノムサイズと、もっと重要なのは反復配列であるが、この二つが大きく増えてくるにつれ、WGA法では反復配列の再構築が難しくなってくる。

個々のクローン配列決定法では、コストと全体の効率を考慮すると、今後の大規模なゲノム配列決定プロジェクトに対し無比の戦略として正当化することは難しい。しかし、配列アセンブリの曖昧さを解消するために、BACや他のクローンに基づくマッピングと配列解析戦略を選択して適用する方式は、コンピュータによる計算法のみで解消するわけではないが、明らかに探求する価値はある。全ゲノムショットガン段階とBACクローン配列解析段階の両段階で充分量の配列カバー倍数がある場合に限り、全ゲノム配列解析への混成アプローチはうまく機能するであろう。ヒトゲノムアセンブリにおける我々の経験では、全ゲノム配列データとBACショットガン配列データの両方で少なくとも3倍のカバー倍数が必要であることが示唆されている。

8.2. ヒトの遺伝子数は少ない


我々は、ホモサピエンスの真正染色質の約95%まで配列決定し、アセンブリを行った。さらに、新しい自動化遺伝子予測法を用いて、ヒト遺伝子の予備カタログを作成した。この結果、一つの大きな驚くべき事実が判明した。すなわち、遺伝子数はこれまでの分子予測値(5万〜14万個)よりも遙かに少ない(26,000〜38,000個)ことが分かったのである。この格差がいかなる理由であれ、詳しい注釈をつけ、比較ゲノム学(特にMus Musculusゲノムを用いて)を駆使し、複雑な表現型を注意深く分子レベルで分析することによってのみ、我々のゲノムの基本的な「パーツリスト」の重要問題は解明されるであろう。確かに、こうした分析はまだ完全なものではなく、各転写単位のより精密な構造が決定されてくれば、ここ数年以内にかなりの改善が得られると思われる。踏み出すべき第一歩は、何故ESTデータ由来の推定遺伝子数が我々の推定値とこれほどまでに一致しないのか、を明らかにすることである。EST由来の遺伝子数が大きくなってしまったのは、次に述べる理由によるのではなかろうか。1)翻訳されない3'と5'のリーダー配列とトレーラー配列に様々な長さのものが存在している、2) RNAプロセシングではしばしばイントロン領域がスプライスされずに残ってしまうような場合が生じるが、このような予測できない変動についてはほとんど分かっていない、3) ヒト遺伝子の約40%が別途にスプライスされているという知見(153)がある、4) 最後になったが、異種由来の核RNAやゲノムDNAからの夾雑物が珍しくないESTライブラリーの構築において、まだ解決されていない問題がある、ためである。もちろん、以上のことを裏づけるESTデータや蛋白質データがないため、予測されずにいる遺伝子が存在している可能性もある。ただし、この数は、遺伝子予測にマウスゲノムのデータを利用すれば、制限されるはずである。ゲノム配列決定が始まったばかりであることは真実であるが、究極的には、ある遺伝子の存在を示すために特異的な細胞種の中のmRNAを測定することが必要になるであろう。

J.B.S. Haldaneは、1937年に、生物の集団はそれが持ち得る遺伝子数に対して代価を払わねばならないであろうと推測した。彼は、遺伝子数があまりに多くなると、各接合子は大変多くの有害な新規突然変異を受け、集団自体が単純に自らを維持できなくなるとの説を立てた。この前提条件を踏まえ、さらに特定の遺伝子座における判っている突然変異の発生率とX線誘発性突然変異の発生数などを考慮したMullerは、1967年に哺乳類のゲノムは最大でも3万を超えないであろうと計算した(155)。

ヒトの遺伝子座が30,000という推定値もCrowとKimura(156)によって提唱された。D. Melanogasterに対するMullerの推定値は、遺伝子注釈付けから出されたハエゲノムの13,000に対して、10,000である。遺伝子数の最大理論値に対するこのような議論は、遺伝子負荷という単純化されたアイディアに基づいている。すなわち、全ての遺伝子には、有害な状態へ突然変異する率が、低いけれども一定レベルはある、という考え方である。とはいえ、多くのマウス・ハエ・虫・酵母のノックアウト突然変異モデルで、判別できるほど表現型が変ることは殆んどないことは、はっきりしている。

ヒト遺伝子がこの程度であったということは、ヒトの発達に固有の複雑性を生むメカニズムや恒常性を維持する精巧なシグナル伝達系のメカニズムを我々自身が別に探さねばならないことを意味している。一つひとつの遺伝子・遺伝子産物の機能を調節している機構の数は多い。例えば、クロマチン構造の「開放」の程度とそれに伴う転写活性は、ヒストンとDNAの酵素的な修飾に関与する蛋白質複合体によって制御されている。表19に、核における制御に関与すると思われる多くの蛋白質を列挙した。

転写の位置・時期・品質は、核のシグナル伝達事象と密接につながっているが、こうした多くの蛋白質の組織特異的な発現とも関係しているのである。同じく重要なのは、インシュレータ、繰り返し配列、内因性ウイルスなどを含む調節DNAエレメント(157)、刷り込み現象に置けるCpGアイランドのメチル化(158)、転写活性を変化させるプロモーター・エンハンサーとイントロン領域である。またスプライセオソーム機構は、マルチサブユニットの蛋白質(表19)に加えて、構造的・触媒的RNAエレメント(159)から成り立っており、後者は開始・終結に関するいろいろな部位とスプライシングによって転写構造を制御している。従って、さまざまなクラスのRNA分子を研究する必要がある。すなわち、小さな核小体RNA、アンチセンスリボレギュレーターRNA、X-遺伝子量代償に関するRNA、その他遺伝子発現制御で明確な役割を正当に評価できる構造的RNAなどである。RNAの編纂は、コード変化がmRNAレベルで直接生じている現象であるが、臨床的・生物学的に関連がある(161)。最後になったが、翻訳制御の例として、インターナルリボゾーマルエントリーサイトなどが挙げられる。これは、細胞周期の調節とアポトーシスに関与している蛋白質で見つかっている(162)。蛋白質レベルでは、蛋白−蛋白間相互作用の性質、蛋白修飾、局在化などにおける微小な変化が、細胞の生理的特性に劇的な影響を及ぼし得る(163)。それ故、このダイナミックな系は、活動を調整する多くの方法を有しており、そのことから考えれば、単独の遺伝子ごとに解析することによって複雑系を明らかにしていくのは、全く成功するとは思われない。

遺伝子のin situ研究から、ヒトゲノムは、<G+C>含量、CpGアイランド、および遺伝子数において非対称的に構成されていることが明らかになった(68)。しかし遺伝子は、これまで予想されていたほど不均等に分布しているわけではない(表9)。ヒトゲノムの中のG+Cが最も多い分画であるH3 アイソコアは、従来考えられていたより多くの割合を占めており(約9%)、最も遺伝子密度の高い分画であるが、予想の40%弱ほどはなく、たかだか遺伝子の25%を含んでいるに過ぎない。G+Cの少ないLアイソコアは、ゲノムの65%を占め、遺伝子は48%である。この不均一性は、哺乳類における遺伝子複製の数百万年にわたる総括的結果であるが、脊椎動物ゲノムの「砂漠化」として述べられている(71)。何故、遺伝子密度の異なるクラスター領域があちこち存在しているのであろうか。これらは、歴史上の不慮の出来事だったのか、それとも淘汰と進化によってもたらされたのであろうか。このような不毛領域が必要でないのなら、ヒトゲノムよりサイズがはるかに小さい哺乳類のゲノムを見つけ出すことができるはずである。事実、多くの種類のコウモリは、ヒトより格段に小さいサイズのゲノムを持っている。例えば、Miniopterusは、イタリアコウモリの一種であるが、ゲノムサイズはヒトゲノムのわずか50%である(164)。同じように、アジアのホエジカの一種Muntiacusは、ゲノムサイズがヒトゲノムの約70%である。

8.3. ヒトDNA配列のばらつきとゲノム全域に渡るその分布

今回のヒトゲノムは、多型についてほぼ一様な確認が完了した初の真核生物ゲノムである。我々は、300万を上回るSNPを同定しマッピングしたものの、これは、SNPを見つけ一覧表を作成する仕事が申し分なく完全であることを示唆するものでは決してない。ただ、これらのSNPは、全体としてのヒト集団中に存在しているSNPの1群を表しているに過ぎない。それにもかかわらず、ゲノム全域にわたるばらつきを初めて一瞥すれば、ゲノム全体に散らばったSNPの強い不均一性が目に付く。DNAの多型性は、突然変異・遺伝子移動・淘汰・遺伝的ドリフトなど、これまでに見られた集団の遺伝力を示すスナップショットを携えているのである。SNPの高密度アレイを用いることができれば、このような因子のそれぞれに関わる疑問について、ゲノム全体ベースで取り組むことができるであろう。SNP研究により、民族地理学的に異なる起源をもつ被験者に存在していたハプロタイプの範囲を確立することができ、ひいては民族の歴史と移住パターンに洞察を加えることもできる。こうした研究から、近代人の系統がアフリカに端を発していることが示唆されているが、ヒトの起源に関する多くの重大な疑問にはまだ答えが出ていない。さらに、このような論争に決着をつけるには、詳細なSNPマップを用いたもっと多くの解析が必要とされるであろう。民族の増大・移住・混合をうかがわせる証拠を提供してくれることに加え、SNPは、特定の遺伝子に対して働く進化抑制の程度を量るマーカーとなりうるのである。配列の多様性が損なわれた部位を同定するのに、種内と種間における遺伝子ばらつきパターンの相関関係が特に有益であると判明するかもしれない。

SNP密度の目立った不均一性が物語っているのは、多型に作用するさまざまな力が存在していることである。すなわち、SNP密度の低い領域がちらほら見られるのは、突然変異率が低いため、あるいはごく一部の受容できる変異だけ受け入れているため、新たに生じた対立遺伝子に有利なように強力な淘汰が近年行なわれた結果、それに関連する変異が集団から「一掃」されたため、と考えられる(166)。遺伝子がランダムに漂流した結果現れる影響も、ゲノム全体にわたってさまざまである。Y染色体の非組換え部は、ランダムな遺伝子漂流から最も強力な圧力をうけているが、これは常染色体と同じように約4分の1程度、集団内にY染色体が存在しており、それに応じて染色体Y上の多型レベルが低いためである。同様に、X染色体は常染色体に比べ有効な集団サイズが小さく、塩基多様性も低い。しかし、1つの常染色体だけでも、有害な突然変異の密度にばらつきがあるため、有効な集団サイズにもばらつきがある。有害な突然変異の密度が高い領域は、淘汰による排除率が大きくなり、有効な集団サイズがさらに小さくなるであろう(166)。その結果、そのような領域では、完璧な中立のSNPでさえも密度が下がると考えられる。DrosophilaのSNP密度と局所組換え率との関連については文献が豊富にあるが、同じような関連がヒトゲノムにおいてどれほど強力であるかを判定するのは、今後の重要な課題である。何故なら、疾病と関連する研究では、局所のSNP密度を設計する上でこの関連が大きな影響を及ぼすからである。地理的・民族的集団内に不均一性がどの程度あるかを判定するために、ゲノムスケールでSNPを確認することもまた、今後なすべき重要な課題である。

8.4 ゲノムの複雑性

我々は程なく、このゲノム体系の個々の成分をカタログ化する場から離れ、「これはあれと結合する、だからこれとドッキングさせ、そうすれば複合体はそちらに動く」(167)という単純な考えを超え、ネットワークの揺れという刺激的な場へ、非線形の反応や閾値へ、そしてヒトの疾患で果たしている中心的な役割へと進んでいくことになろう。

その他の「パーツリスト」を列挙していけば、複雑な神経系を有する生体では、遺伝子数、ニューロン数、細胞の種類数は、構造や行動の複雑性をはかる簡便な物差しとは(どんなに簡便なものであっても)、相関しないことが明らかになる。相関すると期待されてもいない。これは、非線形と後成の領分なのである(168)。5億2000万という普通のタコのニューロン数は、マウスの脳内のニューロン数を一桁超えている。マウスとヒトをゲノムのデータで比較し、哺乳類の比較神経解剖学を見てみると(169)、哺乳類で認められる形態学的・行動学的多様性が、同じような遺伝子のレパートリーや同じような神経解剖学的特性で支えられているのは、明らかである。例えば、ピグミーマーモセット(キヌザル、身長わずか10cm、体重約170 g)をチンパンジーと比較してみると、キヌザルの脳の容積はおよそ1.5 cm3に過ぎず、チンパンジーの大きさから2桁少ない数値であり、ヒトより3桁少ないことがわかる。しかし、この3者の脳の神経解剖学的特徴は驚くほど同じで、小さなキヌザルの行動特性は、チンパンジーの行動特性と殆んど異ならない。ヒトとチンパンジーとでは、遺伝子の数、遺伝子の構造と機能、染色体とゲノムの組織、細胞の種類、神経解剖学的特徴は殆んど識別できないが、ヒトという系統を大脳皮質拡大と喉頭の発生へと促した発達上の変化が言語をもたらし、結果的には極めて独特のものにしてしまった、すなわち、基準の最も単純なもので比べても、行動という面ではヒトをより複雑にさせてしまったのである。

ニューロンの数、細胞の種類の数、あるいは遺伝子ないしゲノムサイズの数を単純に調べるだけでは、我々が認めている複雑さの違いを説明できない。それどころか、このような大きな差をもたらしたのは、これらのセット内・セット間(すなわちニューロン同士、細胞同士、遺伝子(ないしゲノムサイズ)同士、あるいはニューロンと細胞、ニューロンと遺伝子(ゲノムサイズ)、細胞と遺伝子等)の相互作用である。さらに、全体のシステムに不均衡な影響を与える制御遺伝子ネットワークの「特殊例」が存在している可能性もある。我々は、ハエや線虫に比べて、ヒトゲノムではっきり増加している「調節遺伝子」の例をいくつか提示した。例えば、細胞外リガンドやそれらと同起源の受容体(wnt、frizzled、TGF‐β_、エフリン、コネキシンなど)、ならびに核調節因子(KRABファミリー、ホメオドメイン転写因子ファミリーなど)が含まれるが、そこでは数種の蛋白質が幅広い発生過程を制御している。こうした「複雑性」が何故生じたのかに対する回答は、おそらくこうした拡大遺伝子ファミリーの中に、ひいては古代の遺伝子や蛋白質、反応経路、細胞の調節制御における差の中にあるのであろう。

8.5 単一の成分を超えて

アインシュタインの脳がDrosophilaの脳より複雑である、と直感的に断定しても異を唱える者は殆んどいないであろうが、予測されたヒト蛋白質の組み合わせがDrosophilaのそれより複雑であるかどうか、複雑であるのならどの程度、といったもっと厳密な比較をおこなうのは簡単ではない。蛋白や蛋白のドメイン、蛋白と蛋白の相互作用などを量る物差しは、表現型の根底にある動的機能を支えている「状況に応じた」相互作用の実態を把握してはいないからである。

現時点では、複雑性について述べられた数学的理論は30編を越える(170)。しかし、遺伝子の数と生体の複雑性を関連させて数学的理論で説明していくことはまだこれからである。さまざまな異なる成分(蛋白質、蛋白質複合体、相互作用する細胞系、相互作用するニューロン群)で構成される生体システムを解析するための実用的なアプローチの1つは、グラフ理論(171)を用いることであろう。このシステムの各成分は、複雑なトポグラフィの交点で表すことができ、それらの相互作用はエッジ(辺)で表せられる。大きなネットワークを調べてみると、各ネットワークが自律的に組織化できることがわかるものの、それより重要なことは、各ネットワークがとりわけ強固になりうることである。この強固さは、成分の余剰に起因するのではなく、不均一に張り巡らされたネットワークが有する1つの性質と言えよう。こうしたネットワークのエラー寛容性には、代償を払わねばならない。各ネットワークは、ネットワークの安定性に不釣合いなほど寄与しているいくつかの結び目(交点)を取捨選択されることに、弱いのである。1例として、遺伝子ノックアウトが挙げられる。僅少な影響しか及ぼさないノックアウトがある一方、劇的変化を組織体に及ぼすノックアウトもある。哺乳類の細胞質における中間フィラメントネットワークでおそらく欠かせない一員と思われるビメンチン(vimentin)を取り上げてみよう。マウスでこの遺伝子をノックアウトさせると、繁殖面では正常であり、表現型として現れる特徴にも影響はないが(172)、正常マウスで目立つビメンチンネットワークは完全に欠落している。一方、Drosophilaとマウスでは、ノックアウトの約30%が決定的な結び目に相当しており、遺伝子産物での減少、あるいは全摘によってネットワークそのものが時間の大半をつぶしてしまう。ただし、このような場合でも、適度の遺伝的背景があれば、表現型の正常性は保たれることがある。従って、「良い遺伝子」、「悪い遺伝子」が存在しているのではなく、さまざまなレベルで、さまざまな連携を持ち、混乱に対する感度がさまざまであるようなネットワークが存在しているだけなのである。精巧な数学的解析は、特にネットワークの動的機能に焦点をあてた確固たる生物学的データセットに対して、絶えず評価されなくてはいけない。“複雑性”を把握するための試みの中で、これ以上重大な箇所はない。というのも、とりわけ、混乱を受けてヒトに疾患を起こしてしまった複雑なネットワークを解きほぐし修正することこそ、今我々が直面している最大の有意義な挑戦的課題なのであるから。

ヒトゲノム全解析によって、ヒトの生物学的研究に対する新しい戦略が切り開かれるであろう、医学に対して、ひいては医療・公衆衛生を通じて、社会に対しても大きな影響がおよぶであろうと、この15年来予測されてきた。生物医学研究への影響は既に感じられている。ヒト生物学におけるゲノムの役割を理解すべく出発した長い刺激的な旅にあって、このようにヒトゲノム配列を組み立てることは、初めてのこととはいえ、踏み出しにくい一歩であった。これが実現したのは、ほかでもない、機器とソフトウェアに革新的なものが現れ、その結果、DNA調製から注釈付けまでの過程のほぼ全ての段階で自動化が可能となったためである。次にとるべき行動は、あきらかである。すなわち、比較的中庸の数である約3万の遺伝子が発現される時、必ず生じる複雑性とは何かを明確に定義することである。今回提示した配列は、遺伝学、生化学、生理学、究極的には表現型に依存するもの全てを囲む枠組みとなる。科学的な疑問に答える最前線となるものである。ゲノムを理解するにあたっては、初期段階にすぎない。あらゆる遺伝子とそれらを制御するあらゆる因子を同定しなくてはいけない。これらの機能も、単独でも協調状態でも、確認されなくてはならない。世界中のさまざまな人種間の配列変異を記述し、ゲノムの変異と特定の表現型との繋がりも確定しなくてはいけない。今や我々は、何を説明しなくてはならないかがわかったのである。

もう1つ最重要の挑戦的課題が待機している。すなわち、今回のゲノム情報についてだけでなく、個人の健康を向上させるためにどのような可能性がゲノムにあるのか、を一般市民が議論することである。多種多様なデータ供給源から、どんな2人でも、99.9%以上同じ塩基配列を持っていることが判明した。このことは、我々ヒトという種では、個人間の遺伝子に起因しうる差は、どれほど栄光ある差であれ全て、解読された配列の0.1%に過ぎないことを意味している。ここで、避けねばならない誤った考え方は2つある。決定主義と還元主義である。前者は、個人の特性が全てゲノムによって“がっちりと繋がれている”とする考え方であり、後者は、ヒトゲノム配列に関する完璧な知識を持った今、遺伝子の機能と相互作用を我々が理解することによって、ヒトの多様性について完璧な因果関係を記載できるようになるのは時間の問題である、とする考え方である。ヒト生物学への真の挑戦は、遺伝子がどのような編成を組んで身体の驚くべき機構を構築し維持しているのかを見つけ出す仕事を超え、我々自身の存在を探究するために我々の精神がどれほど見事に考え方を組織化するようになったか、の説明を探し求めている我々の前に今や立ちはだかっている。



1 Celera Genomics, 45 West Gude Drive, Rockville, MD 20850, USA. 2 GenetixXpress, 78 Paci_c Road, Palm Beach, Sydney 2108, Australia. 3 Berkeley Drosophila Genome Project, University of California, Berkeley, CA 94720, USA. 4 Department of Biology, Penn State Uni-versity, 208 Mueller Lab, University Park, PA 16802, USA. 5 Department of Genetics, Case Western Reserve University School of Medicine, BRB-630, 10900 Euclid Avenue, Cleveland, OH 44106, USA. 6 Johns Hopkins University School of Medicine, Johns Hopkins Hospital, 600 North Wolfe Street, Blalock 1007, Baltimore, MD 21287_4922, USA. 7 Rockefeller University, 1230 York Avenue, New York, NY 10021_6399, USA. 8 New England BioLabs, 32 Tozer Road, Beverly, MA 01915, USA. 9 Division of Biology, 147-75, California Institute of Technology, 1200 East California Boulevard, Pasa- dena, CA 91125, USA. 10 Yale University School of Medicine, 333 Cedar Street, P.O. Box 208000, New Haven, CT 06520_8000, USA. 11 Applied Biosystems, 850 Lincoln Centre Drive, Foster City, CA 94404, USA. 12 The Institute for Genomic Research, 9712 Medical Center Drive, Rockville, MD 20850, USA. 13 Faculty of Life Sciences, Bar-Ilan University, Ramat-Gan, 52900 Israel. 14 Grup de Recerca en Informa `tica Me`dica, In-stitut Municipal d'Investigacio _ Me `dica, Universitat Pompeu Fabra, 08003-Barcelona, Catalonia, Spain.

連絡先:To whom correspondence should be addressed.
E- mail: humangenome@celera.com

Copyright © 2001 by The American Association for the Advancement of Science.