秀丸エディタでREACHデータの可視化

ecochem2009-01-18

ARG岡本さんの最新論文,


を興味深く読ませてもらったのだが,書き出しで『秀丸エディタ』のことが出てきてついうれしくなった。私自身も毎日数十のテキストデータを開いて作業しているので,岡田さんがメールマガジンの執筆に使っている光景をつい思い浮かべてしまったのだ。
で,ここからは論文とは無関係に秀丸エディタのネタ。

を読んで,

にリストを入手に行き,CSV版(14.5 MB)とXML版(ZIP, 5.4 MB)の双方をダウンロードした。
CSV版を秀丸で開こうとすると文字コードエラーになったので,UTF-8で読み込み直しした。おまけにデータ区切りがコンマ「,」でなくセミコロン「;」になっていたので(このままでもExcelで読み込めたはずだがと思いつつ),秀丸でコロンに変換したらなんと30分以上かっかてしまった。それをExcelで開くとデータ行は144,953行で,注記行などがなければ144,953化合物という膨大なデータ。このままではExcelのxls形式では保存できず(分割する必要がある),CSV形式になっていた理由を納得。


Excelで開いたリスト(黄色の列が化合物名)

その1番目に上がっている化合物は,2,2'-bipyridine dihydrochloride(2,2'-ビピリジン二塩酸塩,CAS番号18820-87-6)で,以下で塩酸を除いた2,2'-bipyridine(2,2'-ビピリジン,別名2,2'-ジピリジル,CAS番号366-18-7)の分子モデルを参照できるようにし,トップにその画像を示した。

それにしてもこのリストだけでも約15万という化合物,いろいろな場で格闘していくことを考えると気が遠くなる。秀丸で開いて「mercury」を検索するとそれだけでも174化合物あり,もちろんchloromethylmercury(塩化メチル水銀(II),CAS番号115-09-3)も含まれている。