The Human Genome

ヒトゲノム配列TOPページへ


0.序論  
1.DNA供給源と塩基配列解析法  
2.ゲノムアセンブリ戦略と特徴  
3.遺伝子予測と注釈
4.ゲノムの構造  
5.ゲノムの進化
6.ゲノム全域の配列変異検査
7.ヒトゲノムにおいて予測される蛋白質コード遺伝子の概観  
8.結論


序論

ヒトゲノムを構成しているDNAの暗号解読作業は、ヒトの進化、疾患の原因究明、ヒトの存在条件を規定する環境と遺伝形質の相互作用を理解するために貢献できることから、幅広い期待を集めてきた。ヒトゲノムの全塩基配列決定という目標を掲げたプロジェクトが初めて正式に提唱されたのは、1985年であった(1)。その後、このアイデアに対して科学界では賛否両論が展開された(2)が、1990年には、米国で、米国立衛生研究所(NIH)と米エネルギー省の統率下、ヒトゲノム配列決定完了までに15年と30億ドルをかけるヒトゲノムプロジェクト(HGP)が公式に開始された。1998年、我々は、独自のゲノム配列解析施設を建設し、3年かけてヒトゲノム配列を決定する意向を表明した。今回、目標達成への最終段階、すなわちヒトゲノムの真正染色質のほぼ完全な配列を決定したので報告する。配列決定は、全ゲノムを断片化し、断片の塩基配列を決定した後、この断片をアセンブリするランダムショットガン法により行った。

DNA配列決定の近代史は1977年に端を発する。この年、Sangerが、DNA鎖終結(chain-terminating)ヌクレオチドアナログを用いて、DNAヌクレオチドの順序を決定する方法を報告した(3)。同年、ヒト遺伝子が初めて単離され塩基配列が決定された。1986年、Hood ら(4)がSanger方式を改良し、ヌクレオチドに蛍光色素を付着させてコンピューターに逐次読み取らせることができる配列解析法を報告した(5)。これを自動化した初のDNAシーケンサーは、カリフォルニア州のアプライドバイオシステム社が1987年に開発し、この新技術で2つの遺伝子の配列解読に成功したことが示された(6)。ヒトゲノムの部分領域の配列解読(7)が開始された初期から、ゲノム中の遺伝子の存在予測のために、配列注釈をつけ、確認評価するには、cDNA(RNAから逆転写された相補鎖DNA)塩基配列が必要欠くべからざるものであることが明らかになっていた。これらの研究は、一部は遺伝子同定のための発現配列タグ(Expressed sequence tag: EST)法を開発する基盤となった(8)。EST法は、任意に断片を選択し、高速塩基配列決定を行うことによって、cDNAライブラリーの特徴を明らかにする方法である。このEST法により、ヒト遺伝子の迅速な発見とマッピング(地図作成)が実現した(9)。さらにヒトEST配列の数が増えるにつれ、大量の配列データを解析する新しいコンピューターアルゴリズムの開発も必要になった。そこで1993 年、ゲノム研究所(The Institute for Genomic Research: TIGR)で、何十万ものESTをアセンブリさせ解析できるアルゴリズムが開発された。これによって、3万個のESTアセンブリを基に、ヒト遺伝子を特性づけ、配列注釈をつけることが可能となった(10)。1982年、ショットガン制限酵素消化法を用いて、49-kbpに及ぶバクテリオファージラムダの完全ゲノム配列が決定された(11)。その後1991年、痘瘡ウイルスのゲノム配列決定(12)にあたって全ゲノムショットガン法が検討されたが、ゲノムアセンブリに適したソフトウェアがまだなかったため、却下された。しかし1994年、微生物のゲノム配列決定プロジェクトがTIGRで企画された時には、TIGRのESTアセンブリアルゴリズムを併用すれば、全ゲノムショットガン法は使用可能とみなされた。そして1995年、全ゲノムショットガン法を用いて、1.8-Mbpのインフルエンザ菌(Haemophilus Influenza)のゲノム解読が完了した(13)。その後いくつかのゲノムの配列決定が行われ、本法の汎用性が確立した(14、15)

このようなメガ塩基対サイズ以上の大きな遺伝子の塩基配列決定法のキーポイントは、paired-end配列(メイト対とも言う)を用いることである。この相補的塩基対をなす末端配列は、挿入サイズとクローニング特性がそれぞれ異なるサブクローンライブラリーに由来し、適当な長さに処理した二重鎖DNAクローンの両端から500〜600bpの配列である。バクテリオファージラムダにクローニングしたDNAの長い断片(18〜20kbp)由来の末端配列を用いて、微生物ゲノムのアセンブリに成功したことから、150-kbpの細菌人工染色体(BAC)(17、18)に由来する末端配列を用いれば、ヒトゲノムをマップすると同時に配列決定できる筋道があることが示唆された(16)。長さが判っている配列の末端配列どうしをつないでいけば、ゲノム全体がつながる長距離連続性を与えてくれる。BAC末端配列決定(BES)法の改良法により、シロイヌナズナArabidopsis thaliana第2染色体の解読が成功裏に完了している(19)

1997年、WeberとMyers(20)が、ヒトゲノムに対して全ゲノムショットガン塩基配列決定法の適用を提案した。2人の提案はからなずしも歓迎されたわけではない(21)。しかし1998 年の初頭までには、5%に足らぬゲノムしか配列決定されていないことから、全世界におけるヒトゲノム塩基配列決定の進捗度は極めて緩慢であり(22)、目標の2005年までにゲノム解読を終了できる見込みは薄かった。

1998年早々、PE バイオシステムズ (現アプライドバイオシステムズ)社は、自動化高速キャピラリーDNAシーケンサーを開発し、やがてABI PRISM 3700 DNA アナライザーと名づけた。PE バイオシステムズ社とTIGRの研究陣は検討を重ねた結果、この3700アナライザーとTIGRで開発された全ゲノムショットガン法を用いて、ヒトゲノム配列決定を行う計画を立てた(23)。ゲノム配列解析施設における作業原則の多くは、TIGR側で確立された(24)。しかし、我々Celera社が夢に描いた解析施設は、TIGRの約50倍もの性能を有するものであり、従って試料の調製とトラッキング、および全ゲノムアセンブリ法に新規開発が求められた。H. influenzaeのゲノムに比べて複雑な反復配列を有するヒトゲノムを解読するには、150倍のスケールアップが必要であり、それは実現不可能だと論じる者もいた(25)。そこで、大きくて複雑な真核生物のゲノム上で全ゲノムアッセンブリを行えるかどうかの予備試験に、まずキイロショウジョウバエ(Drosophila melanogaster)を選んだ。Gerald Rubinとバークレーのショウジョウバエゲノムプロジェクトと協力しながら、ショウジョウバエゲノムの120-Mbp真性染色質部の塩基配列を1年かけて決定した(26-28)。この結果、重要な知見が2点明らかになった。その(i)は、アセンブリアルゴリズムによって染色体アセンブリが極めて正確な順序で行え、かつ実質的に全ゲノムの10倍以下の配列があれば、この方法で整列化が可能なこと、その(ii)は、包括的な最終アセンブリの代りに中間アセンブリを何回も行っても意味がない、ということであった。

これらの知見のためばかりでなく、Celera社のヒトゲノム解読計画に続いて国際ゲノムプロジェクトに大変化が生じたこともあって、我々はヒトゲノムへの全ゲノムショットガン法の適用計画を変更する事にした。すなわち、我々は当初、3年かけてヒトゲノムの10倍の配列をカバーし、中間アセンブリした配列データを4分の1づつ提供する予定であったが、新しい計画では、ランダムショットガン法で約5倍の配列決定を行った後、順序づけも整列化もしていないBACクローン化ライブラリーの配列断片のデータと国際ゲノムプロジェクト(30)がGenBankに公表したサブアセンブリの結果を用いて、本プロジェクトを加速遂行することにした。さらに、中間アセンブリがないため、4分の1づつ公表することも放棄した。

このやり方は、全ゲノムショットガン法で8倍の配列カバー分をアセンブリした場合の結果と一致するような妥当な結果を速やかにもたらしたものの、13倍の効果的な配列カバーでショウジョウバエゲノムが完結したようには、ヒトゲノム塩基配列決定はいかなかった。しかし、この配列カバー倍数を縮小した戦略でも、1年未満でセレラ社は正確な順序付け・整列化した骨格配列を作成できることが明らかになった。かくて、ヒトゲノム配列決定作業を1999年9月8日に開始し、2000年6月17日に完了した。同年6月25日に初回のアセンブリが完了し、今回ここに発表するアセンブリは2000年10月1日に完了したものである。ここに我々はヒトゲノムに適用した全ゲノムランダムショットガン法について記述する。我々はホモサピエンスゲノムの23対の染色体を構成している約30億塩基対の配列をアセンブリするために、2つの異なる方法を開発した。GenBank由来のデータはいずれも細かく断片化し、キメラクローンや外来DNAの夾雑物、アセンブリを間違えた連結(コンティグ)などから生じる配列偏向を、最終配列から除去した。ヒトの遺伝暗号を正確に解析するためには、ゲノム配列が間違うことなく正確に組み立てられ、コンティグが忠実な順序と整列化方向を示すことが必須条件である。そのため、本稿で我々はゲノム再構築の「品質」を立証することに細心の注意を払った。また、コンピューターによる算出法に基づいたヒト遺伝暗号の予備的解析結果についても述べる。図1(本号についている折込ページ参照)(各染色体のファイルは、Science Online のfig. 1 [www.sciencemag.org/cgi/content/full/VOL/ISSUE/PAGE/DC1]に掲載)に、ゲノムの概観図とコードされている各遺伝子群の特性をまとめて示した。ゲノムに関する詳細な手引きと解釈は始まったばかりである。(図1を本文にリンクさせてください)特定の解析セクションを読者が見つけ出しやすいように、本論文は7つのセクションに大別し、各セクションの初めに主な結果の要約を載せた。(各章の目次)

0.序論  
1.DNA供給源と塩基配列解析法  
2.ゲノムアセンブリ戦略と特徴  
3.遺伝子予測と注釈
4.ゲノムの構造  
5.ゲノムの進化
6.ゲノム全域の配列変異検査
7.ヒトゲノムにおいて予測される蛋白質コード遺伝子の概観  
8.結論

Copyright © 2001 by The American Association for the Advancement of Science.