business charts commerce computer

データサイエンティストにしてもらいたいこと

こんにちは。やまもとです。

研究者なんてやっているとデータ分析をする機会はとても多いです。でも、試行錯誤の連続でとても時間がかかります。だから、専門に取り組んでくれるデータサイエンティストがいるととても助かります。

データサイエンティストと言っても、AIアルゴリズム研究者とか統計学者とか数学者とかも含まれていそうですが、ここでは実務的にデータ分析を生業にしている人という意味で用いることにします。

完全に個人的な要望ですが、データサイエンティストには分析以外にも色々やってもらいたいことがあります。では、何ができて欲しいのかという点を、分析を依頼する側の視点で書いてみようと思います。

情報ではなく知識を!

DIKWピラミッドについてnoteで記事を書いています。この中で、「データ」とは意味をなさないもの、「情報」は意味を成したもの、「知識」は情報を体系化したもの、「理解」を知識を論理づけたものと説明しました。個人的に、データ・サイエンティストには「知識」の階層まで、階層を引き上げてもらいたいと思っています。

「情報」までだと、その情報単独では意味を成しているけれど、目的に対して意味がないことがあるんですよね。

例えば、「鈴木さんの身長は168cmで、体重は60kgで、手の大きさは16cmで、足の大きさは27.3cmで、復位は68cmで、股下の長さは77cmでした!」と言われても、困ってしまいます。だから、何なの?と。鈴木さんの身長・体重・手足の大きさ・腹囲・股下は全て「情報」ではあるのですが、例えば健康状態を知りたいのであれば、手足の大きさや股下の長さは「ほとんど必要ない情報」になります。分析しても報われないので、目的が重要ということなのかもしれません。

統計分析で言えば、「平均値は84、相関は0.87、回帰係数は0.34、RSMDは0.11、χ2は1.339でした!」みたいな感じです。あまり詳しくないのですが、機械学習で言えば、「正規分布を使って、ハイパーパラメータを0.3に、ペナルティを13.4にしたら、89%分類できました!」みたいな感じでしょうか。できれば、もう一歩先が欲しいんですよねぇ・・・。

そう考えると、データ・サイエンティストには、分析スキルだけではなく「分析結果から構造を見抜く力」とか「目的をデータに分解する力」とか「他の情報と組み合わせる力」とか「目的に対する妥当な結論を導く力」とかが必要になる気がします。分析手法をよく知っていることは前提になりますが。

データ・デザインも!

上記のように、目的に沿わないデータ分析をしてしまうと時間がもったいないので、目的に合わせたデータのデザインもしてくれると助かります。AI案件の場合は、既存データが存在することが前提になるから、「データ・デザイン力」は不要かもしれませんね。あ、でも、目的に対して既存データで達成可能かを判断するために必要かもしれません。研究の場合は、データを取得するところから始めることが多いので、どういうデータをとればいいかを考える「データ・デザイン力」が必要になります。

研究の場合のプロセスで見てみると、データ・デザインは「データ収集前」の段階を指しています。

必要だと思う工程は、次の通りです。

  1. 仮説を検証するのに適切な分析方法を選択する(分析方法設計)
  2. 選択した分析方法で必要なデータ形式を決める(データ設計)
  3. 決定した形式のデータを集める方法を決める(収集方法設計)

まず、分析方法は数多くあるので、全てを試す時間はありません。仮説を検証するために適切な方法を選んでおく必要があります。

分析方法の次にデータ形式を決める必要があります。簡単にいうと「どういうデータが必要なの?」を考えなければいけません。例えば、時系列分析をするには時系列データが必要で、ある時点の状態データだけだとそもそも分析ができません。

データ形式を決めたとしても、そのデータを集める手段がなければ意味がありません。もし収集方法がなければ、分析方法を変える必要があります。

結局、「分析方法」「データ形式」「収集方法」の適切な組み合わせをデザインしなければならず、データ・デザインもできてくれると嬉しいわけです。

できたらデータ・コンサルティングも!

仮説の設計はデータ・サイエンティストの領分ではない気もしますが、そうは言ってもデザインのしようがない無茶な仮説を立てていては先へ進めません。そのため、仮説を作る段階から、協力してもらえると助かります。

データ・デザインを見越した意見をもらいたいので、業務としてはコンサルティングになるのかなと思います。その意見を言うためには、データ分析力もデータ・デザイン力も必要になるので、かなりハードルは高めですが・・・。


ということで、やまもとが考えるデータ・サイエンティストにやってもらいたいことをまとめてみました。

なんだか、途中から「これは、データ・サイエンスなのか?」という気もしてきましたが、あくまで個人的な意見なので見逃していただければ。。。

この記事は、データ・サイエンティストを目指す方の指針になればいいかなと思っています。

参考記事(note):情報と知識の違いとは?ーDIKWピラミッドー

コメントを残す