「パーセンタイル」は、タンパク質立体構造の信頼性を相対的に評価することに使える便利な図です。
これまで「バイオケミカルTips」ブログシリーズではタンパク質立体構造の信頼性評価の指標として「分解能」と「 R因子」を紹介しましたが、いずれの指標も目安となる値を紹介するに留まりました。
「パーセンタイル」を見ると、特定のタンパク質の立体構造の信頼性評価パラメータがRCSB PDBに蓄積されている他のデータと比較してどれほど良い(もしくは悪い)のか?という相対的な評価ができます。
RCSB PDBのおいて、「パーセンタイル」は、各タンパク質の立体構造ページの「Structure Summary」タブに表示されています。
棒グラフの左側には立体構造を評価するためのパラメータが列挙されており、棒グラフ右側には対応する値が示されています。棒グラフ上の黒塗り線はRCSB PDBに蓄積されている全データにおける順位を示し、白抜き線は類似の分解能のデータにおける順位を示しています。黒塗り線や白抜き線が、右側の青色エリアにあるほど好ましい値であり、逆に左側の赤色エリアにあるほど好ましくない値であると言えます。
下図の「PDB ID=6XBI」のタンパク質立体構造の場合、R-free値は「0.221」となっています。黒塗り線はやや右側の青色エリアに位置しており、RCSB PDBに蓄積されている全データと比較すると比較的好ましい値であると言えます。白抜き線は、黒塗り線より左側に位置しているものの、棒グラフのちょうど真ん中ほどにあり、類似の分解能(上図より1.70 Å付近の分解能)のデータと比較すると良くも悪くもない値であると判断できます。
ちなみに、「PDB ID=6XBI」のデータは、COVID-19を構成するタンパク質(プロテアーゼ)のうち、UAW248という阻害剤と複合体を形成した立体構造を示しています。
なお、パーセンタイルランクで示されるパラメータの種類は以下の通りです。
<パラメータの種類>
①Rfree:タンパク質の立体構造の信頼性を示すパラメータです。モデルと実測データとの重なり度合いを示します。詳細については、前記事【バイオケミカルTips】今日のキーワード「R因子(R-Value)」をご覧ください。
②Clashscore:原子の重なり度合いを示すパラメータです。水素を含む1000個の原子につき、0.4Å以下の距離にある原子のペア数を示します。
③Ramachandran outliers:ラマチャンドランプロットに基づき、主鎖においてエネルギー的に不安定な二面角を持つアミノ酸配列の割合を示します。(ラマチャンドランプロットとは、タンパク質の主鎖においてエネルギー安定性の観点から許容される二面角の組み合わせを示した図です。)
④Sidechain outliers:側鎖においてエネルギー的に不安定な二面角を持つ原子配列の割合を示します。
⑤RSRZ outliers:簡単に言えば、PDBに蓄積されている同じ分解能における特定の残基のデータから外れる実測データの割合を示します。RSRZとは、立体構造の座標と構造因子から作成される電子密度マップと実測データとのR因子を正規化することで求められ、分解能と残基に固有の値です。RSRZにより、PDBに蓄積されているデータのうち、同じ分解能のデータにおける特定の残基タイプの一致度合を比較することができます。
各パラメータの理解は難しいかもしれません…。対象とするタンパク質の立体構造の評価基準として、まずは「パーセンタイルランク」を活用してみてください。