データマイニング再考

データマイニングは情報処理の一種,つまり情報の変換を行っていることになる.
変換ということは,データに含まれない情報を抽出することは出来ない.

遺伝子配列のバリエーションを考えるとき,解析用の配列データが数千程度でどの程度の解析が可能なのだろうか.

データマイニング用のデータというのは,ほとんど解析の目的を持たないまま集められたものである.つまり,後付けの解析目的に必要な情報が含まれてる可能性が非常に低いような気がする.

この状況下で,解析を成功させる一つの方法は,さらなるデータの収集と考えられる.
しかし,同種のデータを増やすだけでは効果的ではない.異種データの収集が重要なのでは?と.つまり扱う問題を限定するって感じなのか.

分子生物学では,多数の異種データを組み合わせて一つの結果を導き,補強している.さらに重要なのが,出てくるデータが生物内で必要と思われる処理がなされた形で出力されている点である.

つまり,十分な情報処理が行われ,それ以上に処理する必要が少ない.

生物系データマイニングも,ここらへんのロジックを組み込めば案外うまく行くのかもしれない…とか妄想してみた..