データサイエンティストに求められる力


現在データレイクと呼ばれるデータの湖がそこかしこに存在します。
データレイクとは言わないまでも
共有のファイルサーバーはどこの会社にも存在するかと思います。

フォルダ構成が定義されていない
どこに何があるかわからないファイルサーバー等は、
誰しも思い当たる節があるのではないでしょうか。

データレイクやデータベースなど専門性の強いデータ置き場も同じで、
様々なシステムや人が好き勝手に利用するので、
そこに秩序はなく欲しいデータを取り出すことも、ままなりません。
どこに何があるかを把握していることすら稀でしょう。

「無秩序なビッグデータを資産」という姿は
「ゴミ屋敷のゴミを資産」と言っている姿と被ります。

データサイエンティストの仕事は
手の付けられなくなった大量のデータゴミを上手く処理することであると考えます。

ゴミ屋敷のゴミに資産価値のあるものはあるのか?

昨年末でしょうか。
家ついていって良いですか?で
面白い企画をやっていました。

通常のゴミ屋敷特番は
社会の底辺を冷かして愉悦に浸り、汚い映像を肴に飯を食う
結構心地の良い番組ですがテレ東は違います。
それだけでは留まりません。

ゴミ屋敷のゴミを片付けるのです。
何だかワクワクしますね。
ゴミの中から価値があるものが出てくるかもしれない期待。

埃だらけの部屋で寝泊まりし
得体のしれない黒い液に浸った食べ物を口にするスタッフのプロ根性は最早狂気。
本当にお疲れ様です。

残念ながらゴミの中から出てくるのは
生き物の死骸などで価値のあるものは出てきませんでした。
ゴミ屋敷の中にあったほとんどのものは
お金を払って回収業者に引き取られていきます。
まぁ、そんなもんですよね。

ゴミ屋敷程ではないにしても
江戸時代から開けてない蔵の天日干しとか
開かずの金庫を開ける番組もグッときますね。

中から木箱が出てきて中身が空だったり
金庫の中身が無価値な明細の束だったりした時はもう最高。
先祖から資産を譲り受けた勝ち組が、良い感じに落ち込んでくれるので結構スッとします。
この類の番組もまた、価値のあるお宝が出てくる確率は低いように思えます。

貴方の企業のビッグデータが
ゴミ屋敷なのか江戸時代から開けてない蔵なのかはわかりませんが、
そこに手を入れる行為は、かなりリスキーであると言えます。
労力に見合わない結果と絶望なんてザラです。

データサイエンティストに求められる能力

では本題です。
データサイエンティストに必要な能力ですが、
僕は以下であると考えています。

①巨大で無秩序なデータを取り出す技術
②大量の情報から何らかの傾向を見出すことができる分析力
③どういう風に見せれば良いかの知見
④可視化する技術やプログラミングの技術
⑤統計などの数学的知識
⑥AI関連にも造詣が深い

少し詳しく説明します。

①巨大で無秩序なデータを取り出す技術

やはり筆頭はこれです。
データ構造がちゃんと管理されていることなんてまずありません。

一般的なリレーショナルデータベースだと
構造を先に決定しないといけないのでテーブル定義書はありますが、
「情報は古いけど最新版」の定義書とか
「****区分」とだけ説明に書かれた区分の説明が欲しい定義書だったりします。

そもそもリレーション図が欲しい。
だってリレーショナルデータベースなのですから。

主キーの意図が不明なやつもきついですね。
つないで良いのかどうかもわからない。
カラム名も統一されていないとか絶望しかありません。

例えばずっと経過時間が入っていたのに
ある日を境に数量が入り始める項目とかムリです。
殺意。

SQLServer,Oracle,PostgreSQL,MySQL(MariaDB),DB2,Access,Excel,MongoDB,Hadoop
保存先がバラバラで、結構こみ上げるものがあります。

クエリやHttp(RESTやSOAP)等という一般的なプロトコルで取り出せるものはまだましで、
独自プロトコルは説明書が残っていないと心臓が止まりそうになります。

場合によってはソースコードを読まなければなりませんし、
ソースコードが無ければ通信コマンドをかすめ取って推測する事も必要になります。

②大量の情報から何らかの傾向を見出すことができる分析力

設備のログデータとエラー情報が残っている場合は
エラーが出る兆候を探すという結構まともな目標を設定できます。
しかしただ時系列にならんだ電力量やモーターの回転数など一体どうすれば良いのか。

精々わかっても午後四時くらいに電力量が高い気がする・・・程度。
でもすべての日でそういうわけでもないし・・・と迷いが生じます。
そもそも使用電力量が高い時間を押さえて何に活用できるのか。

しかし諦めてはいけません。
設備のログデータの良いところは無駄に項目数が多い事です。
データ同士の組み合わせを考えれば何か見えるかもしれません。

そう、組み合わせは無限大。

我が社では設備から1500項目を500ミリ周期で取ってます。
2種類のデータの組み合わせだけでも1,124,250通り。
一日一個のペースで消化しても
僕が定年の頃に完了しているのは約0.5%です。

もしかして積んでる?
疑問は残りますが今求められているものです。

③どういう風に見せれば良いかの知見

最近のBIツールは柔軟かつ多彩なグラフを用意しています。
Web公開も簡単ですし多少の分析もできます。
傾向線もワンクリックで出せて、
一見何でもない折れ線グラフにも付加価値が尽きます。
条件を絞り込んだりドリルダウンによる詳細の表示も簡単で
非プログラマーでも動きのあるカラフルなグラフのWebアプリが作れます。
作業自体は結構楽しいです。

しかし、グラフの作り方や色使い、ハイライト、ドリルダウンの仕方次第では
同じ情報のダッシュボードでも使いづらいものに成り下がります。

君のグラフ、何か見づらいよね

たぶんエクセルの報告書などでも
言われると思いますが
BIツールも同じで個人のセンスが問われます。

特にドリルダウンみたいな動きとの組み合わせは
かなりのセンスが必要です。

④可視化する技術やプログラミングの技術

レスポンスなどが気になり始めると当然集計バッチがなどが必要になります。
多少なりとプログラムを書く必要があります。
また、BIツールにはそれぞれ制約事項があり
その範疇外であれば残念ながら、
やはりアプリケーションを自作する必要があったりします。

多少なりとプログラミング技術が必要ということです。

他にもR言語なども使いこなせれば面白いかもしれません。

⑤統計などの数学的知識

僕も最近高校の数学のページを見たりします。
数学は得意な方だったのですが
さすがに20年も離れているとさび付きますね。
たすき掛け算も忘れていました。
行列なんてもう無理かもしれません。

他にも分散や標準偏差はグラフ化において重要なツールとなってきます。
僕には未知の領域ですが色んな統計手法があるのでしょう。
頭の良い方々が様々な公式を出してくれているので
これを利用しない手はありません。

ひとたび数学の公式フィルターを通すと
違う傾向が見えるのですから数字は面白いです。
数学とはこれからも付き合っていかないといけないのだなと実感しています。

⑥AI関連にも造詣が深い

数学と同じで所詮はツールの一つです。
先ほどのデータの組み合わせの例だと
僕が定年までの時間を費やしても0.5%しか分析を終えられないのですがそこはAIに期待。
何となく大量のデータを食わせれば文句も言わずに何らかの結果を出してくれます。

さすがにおかしいでしょ。と思うものもあれば
ん?ちょっと待てよ。一理あるかも。
というものもあります。
こういうツールも使えればデータ活用の幅が広がります。

まとめ

データサイエンティストは多くの技術が求められます。
但し、仕事の内容はゴミあさり。

21世紀最もセクシーな職業も形無しです。

ただ、必要であることは間違いありません。
だってできる人がいないのですから。

おわり


コメントを残す

メールアドレスが公開されることはありません。