nrセット

多量の塩基・アミノ酸配列を解析するときには注意が必要なようで,解析方法・目的にもよるがパターン認識の多くの場合は,データの重複は偏った結果を生み出すので,Non redundantな配列セットを選び出す前処理が必要になる.

てなことで,PDBアミノ酸配列セットを解析しようとしていたのだが,PDBなんぞはミュータントの量が半端じゃないから確実に重複処理が必要.自分でBLASTしてやるかーって思ってたら,世界は広し.

A Protein Sequence Culling Serverてなもんが存在.sequence identity,PDBの分解能,R-factorなどで重複なしセットを生成してくれる模様.各閾値で計算済みのセットもあるし便利.

立体構造予測やら二次構造予測の人たちは良く知ってるところなやろけどね..