タンパク質構造

タンパク質構造（タンパクしつこうぞう、英: protein structure）では、タンパク質の構造について記す。タンパク質は全ての生物が持つ、重要な生体高分子の1つである。タンパク質は炭素、水素、窒素、リン、酸素、硫黄の原子から構成された、残基と言われるアミノ酸のポリマーである。ポリペプチドとも呼ばれるこのポリマーは20種類のL-α-アミノ酸の配列からできている。40以下のアミノ酸から構成されるものは、しばしばタンパク質ではなくペプチドと呼ばれる。その機能を発現するために、タンパク質は水素結合、イオン結合、ファンデルワールス力、疎水結合などの力によって、特有のコンフォメーションをとるように折り畳まれる。分子レベルのタンパク質の機能を理解するには、その三次元構造を明らかにしなければならない。これは構造生物学の研究分野で、X線回折や核磁気共鳴分光法などの技術が使われる。

アミノ酸残基の数は特定の生化学的機能を果たす際に重要で、機能を持ったドメインのサイズとしては40から50残基が下限となる。タンパク質自体の大きさはこの下限から数1000残基のものまで様々で、その平均は約300残基と見積もられている。多くのＧ-アクチンがアクチン繊維（Ｆ-アクチン）を作るように、多くのタンパク質サブユニットが集合して1つの構造を作ることもある。

タンパク質構造の階層

タンパク質の一次構造から四次構造

生化学的には、タンパク質の構造には4つの階層がある。

一次構造 - ペプチド鎖のアミノ酸の配列
二次構造 - 局所的に見られる、対称的な副構造で、1つのタンパク質分子の中に多くの種類の二次構造が含まれる
三次構造 - 1つの分子の三次元構造
四次構造 - いくつかのポリペプチドやタンパク質サブユニットの複合体

これらの構造の階層がある他に、タンパク質は機能の発現の過程で、構造が変化することがある。構造変化前後の三次構造や四次構造は異性体の関係にある。

タンパク質は翻訳からタンパク質生合成によって合成される。一次構造はペプチド結合という共有結合によって結合し、両末端はそれぞれ自由な官能基がどちらであるかに応じてN末端、C末端と呼ばれる。

二次構造の中には、その主鎖間の水素結合パターンによって定義されるものもある。しかし水-アミド基間に水素結合が形成されてしまうこともあるため、二次構造中の水素結合は定常的なものではない。つまり、二次構造は周囲の水の濃度が十分小さい時、例えば折り畳まれている時や球状になっている時にのみ安定である。

同様に、三次構造にもアミノ酸の傾向や疎水相互作用などの非特異性が残る。しかし三次構造はイオン結合や水素結合、側鎖の立体障害などの構造的特異性によってのみ固定化される。細胞外タンパク質の三次構造はジスルフィド結合によっても安定化される。ジスルフィド結合は構造全体のエントロピーを下げるが、細胞質が還元的な環境であるため、細胞内タンパク質では極めてまれである。

アミノ酸の構造

→詳細は「タンパク質を構成するアミノ酸」を参照

ペプチド結合

2つのアミノ酸の結合

アミノ酸は縮合反応により結合する。この反応を繰り返して長い側鎖の鎖が作られる。この反応はリボソームという酵素によって触媒され、翻訳と呼ばれる。ペプチド結合はによる電子の非局在化のため二重結合に近くなることからにほぼ平面構造であり、その二面角ω（C₁-N間）は180°に近い。二面角φ（N-C_α間）と二面角ψ（C_α-C₁間）は特定の範囲の間の値を持つ。これらの角はタンパク質の自由度を表し、三次構造を決める。これらの角は二次構造によっても制限され、ラマチャンドランプロット上に表される。いくつかの重要な結合長を以下に示す。

ペプチド結合	平均長さ	単結合	平均長さ	水素結合	平均 (±30)
Cα - C	153 pm	C - C	154 pm	O-H --- O-H	280 pm
C - N	133 pm	C - N	148 pm	N-H --- O=C	290 pm
N - Cα	146 pm	C - O	143 pm	O-H --- O=C	280 pm

一次構造

→詳細は「一次構造」を参照

ペプチドまたはタンパク質のアミノ酸の配列のことを一次構造という。残基は通常N末端から数える。タンパク質の一次構造はそれに対応する遺伝子によって決定される。DNAの特異的な塩基配列は伝令RNAに転写され、翻訳というプロセスによってリボソームにより読み替えられる。タンパク質の配列はそのタンパク質に固有のものであり、構造と機能を決定する。タンパク質の配列はエドマン分解やタンデム質量分析法によって解読することができる。しかし通常は遺伝子のコドンの配列を直接読むことが多い。ジスルフィド結合の形成やリン酸化、グリコシル化などの翻訳後修飾も一次構造によって決めることができると考えられているが、これは遺伝子の配列からは予測することができない。

二次構造

→詳細は「二次構造」を参照

結合長や結合角などの既知の情報に従ってペプチドのモデルを組み立てることによって、最初の二次構造であるαヘリックスとβシートが1951年にライナス・ポーリングらによって提唱された^[1]。αヘリックスもβシートもペプチド結合の全ての水素供与基、水素受容基が水素結合に関わっている。それ以来、様々なループや他の種類のヘリックスなど多くの二次構造が発見され、通常の二次構造の形を持たないものはランダムコイルと言われるようになった。これら2つの二次構造は特定の二面角ψとφを持ち、対称的な形をしている。このためラマチャンドランプロットでは特定の領域を占める。

三次構造

→詳細は「三次構造」を参照

二次構造の要素は、常にループやターンなどを介してコンパクトに折り畳まれている。三次構造の形成は、疎水性残基が水と反発してタンパク質の中に潜ろうとする力によって進み、水素結合、イオン結合、ジスルフィド結合などによっても構造が安定化される。三次構造には、二次構造に含まれなかった全ての非共有結合が含まれ、タンパク質全体の形を決定している。また通常タンパク質の機能

四次構造

→詳細は「四次構造」を参照

四次構造はペプチド結合のいくつかの鎖の相互作用である。それぞれの鎖はサブユニットと呼ばれる。それぞれのサブユニットは共有結合で結合している必要はなく、ジスルフィド結合などでも良い。全てのタンパク質が四次構造を持つわけではなく、単量体で機能を持つタンパク質もある。四次構造は三次構造と同じ要因によって安定化される。2つ以上のポリペプチドからなる複合体は多量体と呼ばれる。特にサブユニットが2つの場合は二量体（ダイマー）、3つの場合は三量体（トリマー）、4つの場合は四量体（テトラマー）と言われる。また同じサブユニットだけから構成されているものはホモ（ホモテトラマーなど）、別々のサブユニットから構成されているものはヘテロ（ヘテロダイマーなど）と呼ばれる。

側鎖のコンフォメーション

側鎖の原子には順番にα、β、γ、δ、εなどのギリシア文字の記号が付けられる。C_αはアミノ酸のカルボキシル基に最も近い炭素原子を表し、C_βは二番目に近い炭素原子を表す。C_αは通常は主鎖の一部であると考えられている。これらの原子の間の二面角はX1、X2、X3などと名付けられる。例えばリシンの1番目と2番目の炭素原子はαとβで、α-β間の二面角はX1である。側鎖はゴーシュ型、トランス型という異なった立体配座を取ることがある。また通常は水素原子の電子軌道の重なりを避けるために、X2の周りでは捩れ形配座をとる。

ドメイン、モチーフ、フォールド

多くのタンパク質はいくつかのユニットから成り立っている。タンパク質ドメインはタンパク質全体の構造の要素の1つであり、それ自体で安定化され、他の部分とは独立にフォールディングもなされる。多くのドメインは1つの遺伝子や遺伝子ファミリーによって作られるタンパク質に特有のものではなく、多くの種類のタンパク質に共通して見られる。ドメインは多くの場合、例えばカルモジュリンにおけるカルシウム結合ドメインのように、タンパク質の生物学的な機能にとって重要である。ドメインは独自に安定化されているため、遺伝子工学によって別のタンパク質のドメインを移植し、キメラを作ることができる。一方モチーフと言うのはヘリックスターンヘリックスのようなある程度特異的な二次結合の組み合わせを指す。これらは超二次構造と呼ばれることもある。タンパク質フォールドはヘリックスバンドルやβバレルのような、配列の空間的なタイプを意味する。真核生物では10万程度の種類のタンパク質が発現しているが、ドメイン、モチーフ、フォールドの種類はそれよりずっと少ない。これは、遺伝子の一部がゲノムの中で重複したり位置が変わったりという進化の結果である。これは、あるタンパク質のドメインが別のタンパク質のドメインにも導入されて新しい機能が加わってきたことを意味する。このようなプロセスを経て、代謝や機能の発現には多数の様々なタンパク質が関与するようになった。

タンパク質フォールド

→詳細は「タンパク質フォールド」を参照

高次の構造の形成過程はタンパク質フォールドと呼ばれ、一次構造に基づいて起こる。特定のポリペプチドは1つ以上の安定したフォールド状態を取りうるが、生物学的には異なる活性を持ち、通常は1つの構造のみしか有意な活性を持たない。

構造の分類

タンパク質の構造を分類するためにいくつかの手法が開発されている。分類された構造は蛋白質構造データバンクなどのデータベースで検索することができる。異なる方法を使ってタンパク質を分類した、いくつかのデータベースが存在する。その中でもSCOP、CATH、FSSPなどは最も大きいものの1つである。使われている手法は純粋に手作業のもの、手作業と自動化を組み合わせたもの、純粋に自動化のものと様々であるが、結果は最新の研究を反映したものとなっている。どのデータベースでも分類結果はほぼ同じであるが、いくつかの相違点や矛盾点も見られる。

構造決定法

蛋白質構造データバンクで得られるタンパク質の構造のうちおよそ90%のものはX線結晶構造解析によって決定された。この方法では結晶状態のタンパク質の三次元的な電子密度分布を測定することができ、ある程度の分解能で全ての原子の三次元配置を推定することができる。既知のタンパク質構造のおよそ9%は核磁気共鳴分光法に由来するものであり、この方法でもタンパク質の二次構造が測定される。またこの他に、円偏光二色性やその他の方法でも高精度で予測される。近年では低温電子顕微鏡も高分解能でのタンパク質構造の推定に用いられるようになってきた。この方法により、ウイルスの被覆タンパク質やアミロイド繊維など巨大なタンパク質複合体の構造の研究も可能になるのではないかと期待されている。

分解能別のタンパク質構造の見え方
分解能（Å）	構造の有意性
>4.0	個々の原子の座標を議論することは無意味である。
3.0 - 4.0	フォールドはほぼ精確であるが、エラーも多い。
2.5 - 3.0	フォールドは精確であるが、表面のいくつかのループの位置にエラーがある。長細い側鎖や小さい側鎖はエラーになりやすい。
2.0 - 2.5	側鎖の位置のエラーはかなり少ないが、いくつかの微小なエラーはやはり見られる。フォールドはかなり精確で、表面のループのエラーも少ない。水分子や小さなリガンドも可視化される。
1.5 - 2.0	いくつかの残基の位置のエラーがあり、やはりいくつかの微小なエラーも残る。フォールドには、表面のループに至るまでエラーはほとんどない。
0.5 - 1.5	構造的なエラーはほとんどない。ライブラリーの作成に使われるレベルである。

コンピュータによる構造予測

タンパク質の構造はタンパク質の配列よりもずっと複雑であるが、タンパク質の機能についての情報をずっと多く持っている。そのため、コンピュータを用いたタンパク質の配列からのタンパク質構造予測法がいくつも考案されてきた。Ab initio予測法はタンパク質の配列から直接構造を予測する方法である。スレッディングは既知のタンパク質構造を用いた方法である。

Rosetta@homeは分散コンピューティングのプロジェクトの1つで、数千もの家庭のコンピュータの余力を使ってタンパク質の構造を予測しようとするものである。また、2008年に公開されたFolditは、パズルゲームのようにタンパク質構造を組み合わせ、より正確であると推測される構造を構築するほど高得点になるというゲームを通して、タンパク質構造を推定する試みとして知られる。実際にコンピュータで推測するより、ランキング上位のプレーヤーの方が優秀な成績をおさめているとされる^[2]。

ソフトウェア

タンパク質の構造の可視化、分析用に、フリーソフトのSTINGなど多くのソフトウェアのパッケージが流通している。他にはウェブソフトのFeatureMap3Dなどがあり、タンパク質間のアライメントを三次元で見ることができ、イントロン/エクソンのアノテーションなども可能である。

Quantum Pharmaceuticals^[3]のものなどいくつかのソフトウェアはタンパク質の機能に影響を与えるコンフォメーションの変化の予測に使われる。

異なったタンパク質の構造同士の比較をするための方法もいくつか考案されている。またコンピュータは実験や理論モデルの間違いをチェックするためにも用いられている。

出典

[脚注の使い方]

^ PAULING L, COREY RB, BRANSON HR. Proc Natl Acad Sci U S A. 1951 Apr;37(4):205-11. The structure of proteins; two hydrogen-bonded helical configurations of the polypeptide chain. PMID 14816373
^ Eric Hand (2010) People power - Networks of human minds are taking citizen science to a new level. Nature Vol.466 685-687.
^ Quantum Pharmaceuticals software

参考文献

Habeck M, Nilges M, Rieping W (2005). “Bayesian inference applied to macromolecular structure determination”. Physical review. E, Statistical, nonlinear, and soft matter physics 72 (3 Pt 1): 031912. PMID 16241487. (Bayesian computational methods for the structure determination from NMR data)

外部リンク

ProSA-web 実験的、理論的に求めたタンパク質構造のエラーを確かめるサイト
NQ-Flipper タンパク質構造の中のアスパラギン酸とグルタミン酸の位置の間違いをチェックするサイト
servers パッキング、幾何、水分子、コンフォメーション、対称性など、タンパク質構造の200近くもの面をチェックできるサイト
Bioinformatics course この項の中でも説明されたいろいろな事をインタラクティブに教えてくれるサイト
en:Fast_parallel_proteolysis_(FASTpp)

[pauling51-1] PAULING L, COREY RB, BRANSON HR. Proc Natl Acad Sci U S A. 1951 Apr;37(4):205-11. The structure of proteins; two hydrogen-bonded helical configurations of the polypeptide chain. PMID 14816373

[2] Eric Hand (2010) People power - Networks of human minds are taking citizen science to a new level. Nature Vol.466 685-687.

[3] Quantum Pharmaceuticals software

[1]

[2]

[3]