PDBデータ仕様変更を受けて第一歩

ecochem2007-07-03

2007/06/10に記したPDBデータの形式変更,

の試行期間が過ぎたからのかその前からなのか,RCSB Protein Data Bankのサイトでは従来形式の他に新形式データ(Remediated Data)のDLが可能になっていた。個々のIDのPDBデータへのリンクアドレスは今のところは変更になっていないのでその点は一安心。


で新形式データがDLできる(2hofの場合)

私のPDBデータ利用コンテンツの場合,最大の問題はDNAの塩基の表示変更(ATGCDADTDGDC)で,DNAを塩基別に色分けしたり,区別して表示形式変更するscriptの変更を迫られたのである。
今日は新旧双方のデータに対応できるように終日いろいろ格闘してみたのだが,Chimeではそもそも新形式のDNA部分をDNAと認識しなかったり,Jmolでは塩基別表示がうまく機能しなかったりで(DNA・RNA塩基についてATGCU以外の表記をしているデータの場合),前途多難。
その部分を除けばどうにか対応することができた成果が以下の画像。

新形式PDBデータについてのChimeとJmolの比較(上がDNA,下がRNAを含むデータ例)

これまでのコンテンツに新形式データをどう追加していくか不透明な部分もあるが,取りあえずDNA・RNAを含むデータを扱うコンテンツについてはすべてHTMLを修正した。
その過程でお世話になったのが例によって「秀丸*1grep機能とフォルダ内の全ファイルの文字列を一気に変換してくれる「ファイルから置換」,gz形式で圧縮してある新形式データを解凍してくれる「解凍レンジ」,そしてサンプル画像データ作成に必須のキャプチャ「WinShot」といったフリーウェアやシェアウェア(トップの画像はそのアイコン)。これらがなければ何かと変化の激しいネットの世界では生きていけないのだとつくづく感謝するばかりである。

*1:追記で,PDBデータのサイズを小さくする自作マクロがそのまま使えたことでも一安心。