こんにちは、やまもとです。
先日、どこかで「データサイエンスはサイエンスなのか?」というコメントを見ました。
まあ、確かに。
科学は実証されてこそ科学なので、検証可能性がとても重要になりますが、データサイエンスを機械学習のこととすると、データが変わると結果も変わってしまう機械学習は、検証可能なのかと言われると「違うかも」と思ってしまいます。
しかし、以前、物理学会で、研究手法を分類した次のような図を見ました。
この図を見ると分かるように、既存の研究手法(理論研究・実験研究・シミュレーション研究)を、データサイエンスはちょうど補完するんですよね。
シミュレーション研究は「第3の科学的研究手法」と言われていましたが、同様にデータサイエンスは「第4の科学的研究手法」と学会では言われていました。
おそらく、これから科学としての整備が進んでいくのでしょうね。
理論研究と実験研究の関係
理論研究は、これまで積み上げてきた理論をもとに新しい理論を構築していく活動です。
当然、理論だけでは絵に描いた餅なので、実験による検証は不可欠でした。
一方、実験研究は、物事を実験や観測・観察を通して事実を積み上げ、新たな知識を体系化していく活動です。
もし実験で新たな事実が発見されると、それを説明する理論研究が行われてきました。
つまり、理論研究と実験研究は、お互いを必要とする研究手法で、補完的な関係にあります。
シミュレーション研究との関係
シミュレーション研究は、現実世界では実験できないようなケースを、コンピュータ上で再現することで、現実的な予測や極端な条件下で起こりうることを予測する活動です。
例えば、天体現象を実験するとか、地震や津波を起こして実験するとか、超高圧な条件で何が起きるのか実験するとか、本質を探るために非現実的な条件で実験するといったことは、現実ではほぼ不可能です。
そのため、シミュレーション研究は、理論や実験データをもとにして、検証あるいは予測の手段として使われています。
データサイエンスとの関係は?
データサイエンスは、既存のデータから新たな知見や推論を取り出す活動としましょう。
既存のデータとしては、SNSなどの社会的データを使うこともあるでしょうが、実験研究ではこれまで多くのでデータが蓄積されており、これらを使うこともできます。
例えば、物質材料科学の個体物性や、製薬で使われる化合物やタンパク質、生物学における塩基配列などは、データベース化されています。
そのため、データサイエンスは、実験研究からデータをもらい、推論結果を理論研究に返すような役割になるのではないでしょうか。
データサイエンスは科学なのか?
個人的な見解ですが、データサイエンス単独では科学と言い切るのは難しいと思います。
ただ、データサイエンスは科学的研究手法の1つとして確立していき、シミュレーション研究と同様に、実験研究や理論研究と組み合わせることで、科学の一部になっていくのではないでしょうか。