![]() |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ヒトゲノム配列TOPページへ |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
6A ゲノム全体の配列バリエーションの検討 要約 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 一塩基変異多型(SNP)を同定するため、コンピュータを用いた手法により、セレラ社で得た配列を他のSNPデータと比較した。その結果、2つの染色体間に見られるSNPの出現率は、およそ1200から1500塩基につき1個の割合であった。SNPはゲノム全体にわたり、ランダムではない分布を示している。コード領域と予測される部分に影響するSNPを機能面から分析すると、全SNPのうち、ごく少数(1%未満)のみがタンパク質機能に影響を与える可能性を有していた。結果として、ヒトタンパク質の構造的な多様性に寄与する遺伝的バリエーションは数百万というより、わずか数千であり得ると推定される。 完全なゲノム配列が得られたことにより、研究者が遺伝子を発見する速度は劇的に加速されると思われるが、ヒトの健康状態に関する個人差の遺伝的基礎は、DNA配列の差異を解析することによってのみ明らかにされ得る。ゲノム全体に対するショットガンシークエンシングは全ゲノムアセンブリとの組み合わせにより、配列バリエーションの検出に特に有効な方法となる。さらに今回は、以下の3つの異なる手法により同定されたSNPの分布と特性の比較を行った:(i)セレラ社コンセンサス配列のPFPアセンブリに対するアライメント、(ii)高品質で読み取られたゲノム配列のオーバーラップ部分(以下、"Kwok"と呼ぶ; 1,120,195個のSNP)(97)、および(iii)リデュースリプレゼンテーションショットガンシークエンシング(以下、"TSC"と呼ぶ; 632,640個のSNP)(98)。これらのデータは一致して、全体的な塩基多様性として約8×10-4の値を示し、また、ゲノム全体でのSNP密度の著しい不均一性および、発現されるタンパク質に変化を生じさせない非コード性のバリエーションが圧倒的に多数を占めることを示していた。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 6.1 セレラのコンセンサス配列とPFPアセンブリのアライメントにより見出されたSNP |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| SNPを見つけるには、すべての部位に対してシークエンシングを繰り返し行って品質を最大限に高め、明瞭なサンプリングモデルを用いて偽陽性判定および偽陰性判定の割合を定量的に処理することが理想的である(99)。しかし、このような詳細が得られないままコンセンサス配列を比較するためには、より特殊なアプローチが必要であった(PFPアセンブリの品質スコアは取得が困難であった)。まず、2つのコンセンサス配列間の差異をすべて同定し、その後、シークエンシングエラーと誤アセンブリングの寄与を減らすために、フィルタリング(濾過)処理を行った。今回、フィルタリング処理の有効性を測る尺度としては、トランジション置換およびトランスバージョン置換の割合を測定した。これは、哺乳類の進化(100)およびヒトのSNPs(101, 102)においては、2:1の比が典型的であると文献に記されているためである。実際のフィルタリング処理では、セレラ社コンセンサス配列中の品質スコアが30未満の部分および、バリアント密度が400bp中5個よりも大きい部分のバリアントを除去した。その結果、トランジションとトランスバージョンの比は1.57:1から1.89:1に変化した。フィルタリングを2.3Gbpのセレラ社とPFPのコンセンサス配列アライメントに適用すると、総計2,778,474個の置換差から、SNPと推定される差異が2,104,820個同定された。これらのSNPと他の手法により得られたSNPとの重複については、以下で述べる。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 6.2 公共SNPデータベースとの比較 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| PowerBlastプログラム(103)による配列類似性検索(sequence similarity search)を用いて、dbSNP(www.ncbi.nlm.nih.gov/SNP)に含まれる2,536,021個のSNP、およびHGMD(英国ウェールズ大学Human Gene Mutation Database)に含まれる13,150個のSNPをセレラ社コンセンサス配列上にマップした。dbSNPに含まれている最も大きなデータセットはKwokセットとTSCセットであり、それぞれ、dbSNPレコードの47%および25%を占めている。低いカバー倍数のdbSNP配列しかない品質の低いアライメント、およびセレラ社配列とdbSNP接続配列の間の同一性が98%未満のアライメントは除外した。また、セレラ社ゲノム上で複数の位置にマッピングされるdbSNP配列も除外した。総計2,336,935個のdbSNPバリアントが、セレラ社配列上の1,223,038個の特定の位置にマップされた。これは、dbSNPにはかなりの反復性があることを示唆している。なお、TSCセットでは585,811個、Kwokセットでは438,032個のSNPがゲノム上の特定の位置にマップされた。この解析で使用したユニークなSNPの数は、セレラ-PFP、TSCおよびKwokを含め、総計2,737,668個である。表15は、これらの方法の一つの手法により同定されたSNPは、かなりの部分が別の手法によっても見出されることを示している。Kwokとセレラ-PFPのSNP間に見られる非常に高い重複率(36.2%)は、部分的には、Kwokで使用した配列がPFPアセンブリに取り込まれたためであろう。KwokとTSCセット間の重複が著しく低い(16.4%)のは、セットの大きさがともに小さいためである。なお、セレラ-PFPで得られたSNPの24.5%が、セレラのゲノム配列から得られたSNPと重複している(46)。ヒトの集団サンプルによるSNPの検証は費用のかさむ面倒な過程となるため、複数のデータセットに基づく"in silico"(シリコンチップで、すなわちコンピュータ解析による)確認が効率的な当初検証法となるであろう。
これら3セットのSNPがヒトのバリエーションに対して同一の実態を表しているのかを評価する方法の一つとしては、各セットにおける6種類のあり得る塩基変異の頻度を調べることが挙げられる(表16)。塩基のバラツキを測定した従来の結果は、ほとんどが特定の遺伝子に対する小スケールの解析に基づくものであるが(101)、これら3つのデータセットを用いた我々の解析は、従来の結果をゲノム全体的な規模で検証するものといえる。Kwokセット、TSCセットおよび、我々の全ゲノムショットガン(46)から得られたSNPには、この塩基置換パターンに顕著な均一性が見られる。他のデータセットと比較すると、セレラ-PFP組み合わせでは他のSNPセットで観察される2:1のトランジション:トランスバージョン比から、わずかに逸脱している。しかし、コンピュータによるセレラ−PFP間の比較で同定されたSNPsの一部は、実際にはシークエンスエラーである可能性があるため、この結果は予想外のものではない。セレラ-PFPセットに見られる配列差の15%がシークエンスエラー(おそらくはランダムに起こった)によるものであると仮定すると、真のSNPに対するトランジション:トランスバージョン比は2:1となる。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 6.3 確認されたSNPに基づく塩基多様性の推定 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 同定されたSNPの数は染色体間で大きく異なっていた。これらの値を染色体の大きさと配列カバー倍数に対して正規化するため、我々は塩基の多様性の標準的な統計値である を使用した(104)。塩基多様度とは、特定部位あたりのヘテロ接合性の尺度であり、母集団から任意に選んだ一対の染色体で特定のヌクレオチド部位が異なる確率を定量化したものである。各染色体に対する塩基多様度を計算するには、塩基変異があるかが調べられた部位の塩基数が既知である必要があり、また、リヂュースリプレゼンテーションシークエンシングのような手法においては、シークエンスの品質および各部位のカバー倍数も知っている必要がある。これらのデータは容易に入手できるものではないため、TSCからは、塩基多様度を推定することはできなかった。高品質配列がオーバーラップしている部位からの塩基多様性の推定は可能であるはずだが、この場合も全アライメントの詳細についてより多くの情報が必要である。ショットガンアセンブリからの塩基多様度の推定には、マルチアライメントの各カラムに対して、2つまたはそれ以上の異なるアリルが存在することの確率、および、実際にアリルが異なる配列を有する場合にSNPを検出する確率(すなわち、正しい配列判定の可能性)を計算することが必要である。カバー倍数が大きいほど、また、配列の品質が高いほど、SNPの検出に成功する確率は高くなる(105)。カバー倍数のバラツキを矯正した後においても、塩基多様度は常染色体間で異なっていた。染色体内の変化度合いを推定するため、100-kbpの配列ウインドウに対する の推定値を使用した分散分析法により、この不均一性の有意性を試験した(セレラ-PFP比較では、F=29.73、P<0.0001)。セレラ社配列とPFPの比較から推定される常染色体の平均多様度は8.94×10-4であり、X染色体上の塩基多様度は6.54×10-4であった。X染色体は常染色体に比べ変異性が低いと予想されるが、これは、母集団中の常染色体4コピーごとに、X染色体は3つしかなく、有効母集団サイズが小さいために、ランダムドリフトによって、より速い速度でX染色体から変異が排除されることを意味するためである(106)。 ゲノム全体にわたる塩基の変異を確認した結果からいって、遺伝子サンプリングに基づいて行われたヒトの塩基多様度の従来の推定値は適度に正確であったと思われる(101, 102, 106, 107)。ゲノム全体では、我々が推定したセレラ-PFPアライメントに対する塩基多様度の値は8.98×10-4であったのに対し、10個の高密度に再シークエンシングされたヒト遺伝子を平均して発表された推定値は8.00×10-4であった(108)。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 6.4 ヒトゲノム中における塩基多様度の変動 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| このように、染色体間でのSNP密度の変化度合いが明らかに高いことから、染色体内でのより微細なスケールでも不均一性が存在するか否か、また、この不均一性が偶然から予想されるより大きいか否かという疑問が生じる。もし、SNPが無作為かつ独立な変異により生じるなら、任意の一定の大きさのフラグメントに含まれるSNPの数はポアソン分布に従うはずであると思われる。しかし、100-kbpのフラグメントに含まれるSNPの分布に対して観察される分散は、ポアソン分布から予測されるよりもはるかに大きなものであった(図14)。しかし、この極端に単純化されたモデルでは、ゲノムの各領域における異なる組換え率および集団の履歴は無視されている。集団遺伝学の理論によると、このバリエーションは中立合着(neutral coalescent)と呼ばれる数式によって説明され得る(109)。我々は、組み換えを含む中立合着をシミュレートするために、よく試験されたアルゴリズムを適用して(110)、有効集団サイズとして10,000、1塩基あたりの組換え率は変異率に等しいとし(111)、このモデルによるSNP数の分布も生成した(112)。しかし、観察されたSNPの分布はポアソンモデルまたは合着モデルのいずれよりも、はるかに大きな変化度を有しており、この差異は極めて有意なものであった。これは、ゲノム中のSNP密度には有意な変化があることを示唆しており、この観察には説明が必要とされる。 DNA配列が持つある種の特性は局所的なSNP密度に影響し得る。これには、DNAポリメラーゼがエラーを生じる頻度やミスマッチ修復の効率などが含まれる。SNP密度に関係する可能性の高い重要な因子の一つとしてはG+C含量がある。この理由の一部は、CpGジヌクレオチド中のメチル化されたシトシンは脱アミノ化を受けてチミンを形成する傾向があるためであり、このためにCpGの変異速度は他のジヌクレオチドに比べ、約10倍ほど高くなっている。我々はゲノム全体にわたって100-kbp配列ウィンドウ中のGC含量と塩基多様度を計算し、それらの間の相関性が陽性(r=0.21)かつ極めて有意(P<0.0001)であることを見出したが、G+C含量により説明されるバリエーションは全体のごく一部に過ぎなかった。
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 6.5 ゲノムクラスごとのSNP |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 機能別クラスごとのSNP密度の均一性を試験するため、我々はNCBI RefSeqデータベースから得た10,239個の既知遺伝子とセレラ社Otto遺伝子注釈から予測されるすべてのヒト遺伝子を対象とし、配列を遺伝子間領域(予測される転写単位から>5kbと定義)、5'-UTR、エクソン領域(ミスセンスおよびサイレント)、イントロン領域、3'-UTRに分類した。コーディング領域については、SNPをサイレント(アミノ酸配列を変化させないもの)とミスセンス(タンパク質産物を変更するもの)に分類した。セレラ-PFP、TSCおよびKwokセットのコーディング領域におけるミスセンスSNPとサイレントSNPの比(それぞれ1.12、0.91および0.78)は中立な期待値に比べ、ミスセンス変異の頻度が著しく低くなっており、これは、自然淘汰による有害アミノ酸変化部分の排除とよく合っている(112)。これらの比は、Cargil et al.(101)およびHalushka et al.(102)により報告されている0.88および1.17のミスセンス:サイレント比とほぼ同じといえる。同様な結果は、セレラ社のショットガン配列から得られたSNPにおいても観察された(46)。 タンパク質の機能を障害する恐れのある変更をもたらすSNPの割合がいかに小さいかは、印象的といえる。10,239個のRefSeq遺伝子中のミスセンスSNPはそれぞれ、セレラ-PFP、TSCおよびKwok SNPにおけるSNP総数の約0.12、0.14および0.17%に過ぎなかった。配列非保存的なタンパク質の変化は、ミスセンスSNPのさらに一部に過ぎない(セレラ-PFP、KwokおよびTSCにおいて47、41および40%)。遺伝子間領域は実質的にほとんど研究されていない領域であるが(113)、同定したSNPの75%が遺伝子間領域にあることは注目に値する(表17)。SNP出現率はイントロン内が最も高く、エクソン内が最も低かった。SNP出現率はイントロン内よりも遺伝子間領域の方が低く、これは、これら2つのDNAクラスの速やかな識別材料の一つとなり得る。これらのSNP出現率はセレラ社のSNPにおいても確認され、そこでも、エキソン内の方がイントロン内よりも低く、また、遺伝子外領域の方がイントロン内よりも低かった(46)。これらの遺伝子間領域SNPの多くは、連鎖および相関解析用のマーカーとして貴重な情報を提供すると思われる。また、そのいくつかは制御機能を担っている可能性も高い。
1 Celera Genomics, 45 West Gude Drive, Rockville, MD 20850, USA. 2 GenetixXpress, 78 Paci_c Road, Palm Beach, Sydney 2108, Australia. 3 Berkeley Drosophila Genome Project, University of California, Berkeley, CA 94720, USA. 4 Department of Biology, Penn State Uni-versity, 208 Mueller Lab, University Park, PA 16802, USA. 5 Department of Genetics, Case Western Reserve University School of Medicine, BRB-630, 10900 Euclid Avenue, Cleveland, OH 44106, USA. 6 Johns Hopkins University School of Medicine, Johns Hopkins Hospital, 600 North Wolfe Street, Blalock 1007, Baltimore, MD 21287_4922, USA. 7 Rockefeller University, 1230 York Avenue, New York, NY 10021_6399, USA. 8 New England BioLabs, 32 Tozer Road, Beverly, MA 01915, USA. 9 Division of Biology, 147-75, California Institute of Technology, 1200 East California Boulevard, Pasa- dena, CA 91125, USA. 10 Yale University School of Medicine, 333 Cedar Street, P.O. Box 208000, New Haven, CT 06520_8000, USA. 11 Applied Biosystems, 850 Lincoln Centre Drive, Foster City, CA 94404, USA. 12 The Institute for Genomic Research, 9712 Medical Center Drive, Rockville, MD 20850, USA. 13 Faculty of Life Sciences, Bar-Ilan University, Ramat-Gan, 52900 Israel. 14 Grup de Recerca en Informa `tica Me`dica, In-stitut Municipal d'Investigacio _ Me `dica, Universitat Pompeu Fabra, 08003-Barcelona, Catalonia, Spain. 連絡先:To whom correspondence should be addressed. E- mail: humangenome@celera.com | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Copyright © 2001 by The American Association for the Advancement of Science. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||