The Human Genome

ヒトゲノム配列TOPページへ


0.序論  
1.DNA供給源と塩基配列解析法  
2.ゲノムアセンブリ戦略と特徴  
3.遺伝子予測と注釈
4.ゲノムの構造  
5.ゲノムの進化
6.ゲノム全域の配列変異検査
7.ヒトゲノムにおいて予測される蛋白質コード遺伝子の概観  
8.結論


1.DNA供給源と塩基配列解析法

要約

ここでは、DNAの抽出とライブラリー構築のための方法と共に、人種差・性差を超えて多様性が確保できるドナー選択に関する合理的・倫理的な規則について論じる。ショットガン法の重要な第一段階は、プラスミドライブラリーの構築である。DNAライブラリーが一様なサイズでなく、キメラ(起源が異なる)でなく、任意にゲノムを代表していないのであれば、この後いくら段階を重ねても、ゲノム配列を正確に再構築することはできない。我々は、高速大量処理可能な自動化DNA配列解析装置と膨大な配列情報量(2730万個の配列読み取り;149億個の塩基配列)を効率よく追跡できる大型コンピュータを用いた。コンピュータにゲノムを再構築するには、2-、10-、50-kbpの各ライブラリーから得たプラスミドクローンの両端から、配列を順次解析・追跡していかねばならない。我々の結果から、末端配列の正確な対形成率(pairing rate)は98%を上回ることが示唆された。

米国ならびに世界医学会のさまざまな政策・方針、中でもヘルシンキ宣言は、ヒトを被験者とする実験を行なうにあたって、勧告を出している。そこで我々は、機関内倫理委員会(Institutional Review Board: IRB)を召集した。IRBは、ヒトDNAを採取し使用するためのプロトコールの設定、ならびに今回のDNA配列解析研究に参加してくれる研究ボランティアからインフォームドコンセントを得る過程を確立することができるよう支援してくれた。被験者(ドナー)のプライバシーと秘密を守るためには、いくつかの措置・手順をとった。例えば、2段階の同意方式をとったこと、標本・記録用にアルファベットと数字を組合わせた無作為抽出の安全なコードシステムを採用したことのほか、研究者に対して被験者との接触を制限したこと、ドナーからの連絡は現場以外でも随意に任せたことなどがある。さらに我々は、米厚生省に申請して機密性証明書(Certificate of Confidentiality)の交付を得た。この証明書は、公衆衛生法42 U.S.C.241(d)のセクション301(d)に記載されているように、自らの自由意志でボランティアになった個人のプライバシーを守る権限をセレラ社に与えるものである。

セレラ社とIRBは、解読が完了したヒトゲノムの第1号は、多様な人種背景を持つ多数のドナー由来のものの混成体であってしかるできであると信ずるものである。期待されるドナーには、自由意志に基づき、自分が属する民族地理的範疇を自ら明らかにしてほしい旨、依頼した(すなわち、アフリカ系米国人、中国人、ラテンアメリカ系米国人、白人、など)。今回は、21人のドナーが参加した(32)

各ドナーから得た3つの基本情報項目―年齢、性別、自称の民族地理的範疇―を記録し、機密コードで供与標本とつないだ。女性からは、約130mlのヘパリン添加全血を採取した。男性からは、同じく130mlまでのヘパリン添加全血を採取したが、さらに5つの精液標本を6週にわたり採取した。Epstein-Barrウイルス不死化法により、リンパ芽球細胞株を樹立した。ゲノムのDNA配列決定のために、5人の被験者(図2)由来のDNAを配列決定のために選択した。内訳は男性2人、女性3人−アフリカ系米国人1人、アジア系中国人1 人、ラテンアメリカ系メキシコ人1人、白人2人−であった(Science Online のfig. 2 [www.sciencemag.org/cgi/content/full/VOL/ISSUE/PAGE/DC1]を参照のこと)。誰のDNAを配列解析するかについては、DNAライブラリーの品質や樹立細胞株の使用可能量などテクニカルな問題はいうまでもなく、多様性を達成するという目標も含め、錯綜する複雑な要因を踏まえて決定した。







図2 配列解析パイプラインのフローチャートSOP(標準操作手順)を遵守し、各部署内および全体を通して品質に焦点をおき、サンプルの受け取り、選別、プロセシングを行なう。各工程で、規定した品質ガイドラインに従って、サンプルとデータを内部のものと外部のもので交換できるようなインプットとアウトプットを規定した。製造パイプライン工程、製品(データ)、品質管理措置、および関係責任者を示し、本文中でさらに言及した。


1.1.ライブラリーの構築と配列解析

全ゲノムショットガン法の要は、変化に富むサイズの挿入片を含む高品質プラスミドライブラリーを作製することにある。そうすると、突き合わせ可能な配列(メイト対)が得られ、各プラスミド挿入片の両端からオーバーラップしたクローンを1つづつ読み取れるのである。高品質のライブラリーは、ゲノムのあらゆる領域から出てくる断片を偏りなく含んでおり、挿入片のないクローンが少く、ミトコンドリアゲノムや大腸菌(Escherichia coli)ゲノムのDNA由来の夾雑物がない。我々は各ドナー由来のDNAから、3つのサイズ、すなわち2kbp、10kbp、50kbpのグループのプラスミドライブラリーを構築した(表1)(33)


表1 Celeraが作製したアセンブリ・インプットデータ

Table 1. Celera-generated data input into assembly.


Individual Number of reads for different insert libraries
Total number of base pairs
2 kbp 10 kbp 50 kbp Total

No. of sequencing reads A 0 0 2,767,357 2,767,357 1,502,674,851
B 11,736,757 7,467,755 66,930 19,271,442 10,464,393,006
C 853,819 881,290 0 1,735,109 942,164,187
D 952,523 1,046,815 0 1,999,338 1,085,640,534
F 0 1,498,607 0 1,498,607 813,743,601
Total 13,543,099 10,894,467 2,834,287 27,271,853 14,808,616,179
Fold sequence coverage A 0 0 0.52 0.52
(2.9-Gb genome) B 2.20 1.40 0.01 3.61
C 0.16 1.17 0 0.32
D 0.18 0.20 0 0.37
F 0 0.28 0 0.28
Total 2.54 2.04 0.53 5.11
Fold clone coverage A 0 0 18.39 18.39
B 2.96 11.26 0.44 14.67
C 0.22 1.33 0 1.54
D 0.24 1.58 0 1.82
F 0 2.26 0 2.26
Total 3.42 16.43 18.84 38.68
Insert size* (mean) Average 1,951 bp 10,800 bp 50,715 bp
Insert size* (SD) Average 6.10% 8.10% 14.90%
% Matesdagger Average 74.50 80.80 75.60

* Insert size and SD are calculated from assembly of mates on contigs.
dagger % Mates is based on laboratory tracking of sequencing runs.


DNA配列解析工程をデザインする際に、我々は、信頼性と再現性のある方法で実施でき、モニターも効果的にできるシンプルなシステムを開発することに焦点を置いた(図2)(34)

現在行なわれている配列解析プロトコールは、ジデオキシ配列解析法(35)に基づいており、普通は1回の反応で500〜750bpの塩基配列しか読めない。読み取り長さがこのように制限されてしまうことから、真核生物の大型ゲノム解析には、処理量を記念碑が立つほど大躍進させることが不可欠であった。これを我々はセレラ社の施設内に広さ約3万平方フィートも占拠する研究室を設けて達成した。総読み取り速度は1日あたり175,000回で、連続的に配列データを吐き出す。このDNA配列解析施設は高性能コンピュータ施設で支えられている(36)

DNA配列解析の過程はモジュール方式とし自動化した。モジュール間にサンプルの未処理分を置くことで、4つの主要モジュールがそれぞれ独立して操作できた。4つの主要モジュールは(i)ライブラリー形質転換、プレート作製、コロニー採集、(ii)DNA鋳型作製、(iii)ジデオキシ法反応設定と精製、(iv)ABI P RISM 3700 DNAアナライザーによる配列決定である。各モジュールのインプット量とアウトプット量を注意して合わせ、未処理分は連続調節したため、配列解析作業は、1999年5月にショウジョウバエのゲノム解読プロジェクトを開始して以来、1日も中断することなく進行した。ABI 3700は全自動キャピラリーアレイシーケンサーで、これ自体は最少の手作業時間(現在は一日あたり15分程度と推定)で操作することができる。キャピラリーシステムでは、手動によるサンプル添加やスラブゲル(slab gel)の場合にあったレーントラッキングエラーがなくなったため、サンプルと配列解析トレースの正しい連結が可能である。約65人の生産スタッフを雇用・訓練し、4つの生産モジュール間を定期的に輪番制で移動させた。研究室情報中央管理システム(LIMS)により、独自のバーコード識別子によって全てのサンプルプレートが追跡できた。この研究施設を支えたのは、原材料および中間過程検査をおこなう品質管理チームと文書管理、バリデーション、施設監査等を担当する品質保証グループである。スケールアップ成功のために緊要であったのは、スケールアップ実施前にソフトウェアと機器のバリデーションを行ない、工程を変更した場合は製造スケールで検査したことである。

1.2.トレースプロセシング

自動化トレースプロセシング・パイプラインは各配列ファイルを処理するために開発したものである(37)。データの品質管理のため、ベクター由来の配列をトリミング(端除去)した。トリミングした後の配列の平均長は543bpであった。このため配列解析精度は急激に高まって平均99.5%となり、98%以下の精度となったのは1000回の読み取りのうち1回未満である(26)。トリミングした各配列は、ベクターのみの配列、あるいはE. coliゲノムのDNA配列、ヒトミトコンドリアのDNA配列など夾雑物と一致しないかどうかスクリーニングした。いずれかの夾雑物とあきらかに一致した配列は、読み取った全てを破棄した。計713個の読み取り結果がE. coliゲノムのDNA配列と一致し、2114個の読み取り結果がヒトミトコンドリアのゲノムと一致した。

1.3.品質評価とコントロール

配列データの塩基対レベルでの正確さは、解析対象のゲノムのサイズと反復配列などが増えてくるに従って重要になってくる。各読み取り配列は、ゲノム内で独自の位置を占めねばならない。それほどではないエラー率であっても、アセンブリの有効性を減少させてしまう。さらに配列対合(mate-pair)の情報の正しさを維持することが、下記のアルゴリズムに絶対欠かせない。配列解析反応が各工程を踏んで進んでいくに従って、mate-pair配列の正当性を維持するための手順管理法も確立した。これにはLIMSのなかに厳重な規則を組み込んだことも含んでいる。セレラ社式工程で作成した配列データの精度は、ショウジョウバエゲノム・プロジェクトの進行過程で評価した(26)。単一の研究施設内で全ヒトゲノムのデータを採取することにより、われわれは均一の品質規格を確保し、自動化・スケール経済性・工程一貫性に伴うコスト効果をあげることができた。



1 Celera Genomics, 45 West Gude Drive, Rockville, MD 20850, USA. 2 GenetixXpress, 78 Paci_c Road, Palm Beach, Sydney 2108, Australia. 3 Berkeley Drosophila Genome Project, University of California, Berkeley, CA 94720, USA. 4 Department of Biology, Penn State Uni-versity, 208 Mueller Lab, University Park, PA 16802, USA. 5 Department of Genetics, Case Western Reserve University School of Medicine, BRB-630, 10900 Euclid Avenue, Cleveland, OH 44106, USA. 6 Johns Hopkins University School of Medicine, Johns Hopkins Hospital, 600 North Wolfe Street, Blalock 1007, Baltimore, MD 21287_4922, USA. 7 Rockefeller University, 1230 York Avenue, New York, NY 10021_6399, USA. 8 New England BioLabs, 32 Tozer Road, Beverly, MA 01915, USA. 9 Division of Biology, 147-75, California Institute of Technology, 1200 East California Boulevard, Pasa- dena, CA 91125, USA. 10 Yale University School of Medicine, 333 Cedar Street, P.O. Box 208000, New Haven, CT 06520_8000, USA. 11 Applied Biosystems, 850 Lincoln Centre Drive, Foster City, CA 94404, USA. 12 The Institute for Genomic Research, 9712 Medical Center Drive, Rockville, MD 20850, USA. 13 Faculty of Life Sciences, Bar-Ilan University, Ramat-Gan, 52900 Israel. 14 Grup de Recerca en Informa `tica Me`dica, In-stitut Municipal d'Investigacio _ Me `dica, Universitat Pompeu Fabra, 08003-Barcelona, Catalonia, Spain.

連絡先:To whom correspondence should be addressed.
E- mail: humangenome@celera.com

Copyright © 2001 by The American Association for the Advancement of Science.