DXの設計書⑮ – DXで覚えておいた方がよいツールと技術

世間のデータに対する期待値は大きいです。
おおかたの認識は「データをうまく使えば何かすごいことできるんでしょ?」です。
昨今、機械学習やら深層学習やらデータを有効活用してくれそうなワードが並びます。

僕はデータ分析技術に関しては保守派で、
ナウい技術に頼らないヒストグラムなどを使った地道なデータ分析が好きです。
状況に応じて使い分けるべきだとは思いますが、僕の職場環境では機械学習や深層学習を使う必要がありません。
普通の分析でどうにでもなります。

ここでは、僕好みの地味で愚直なデータ周りの技術をご紹介します。
覚えて損はないと思います。


  • 覚えた方が良い言語
    • SQL文
    • Jupyter Notebook(or Jupyter Lab) + Python
    • Rstudio + R言語
  • 覚えた方が良いツール
    • BIツール
    • Data Preparation Tool

後生大事にとっているデータを何故か使わずに
まずデータを取りましょう。
と、勧める人達がいます。危険ですね。

大半の会社は既に多くシステムが動作しており重要なデータを溜め込んでいます。
ここに着目します。そこからデータ取り出せませんか?

もしデータの保管方法がリレーショナルデータベースであればSQLが技術として必要になります。
説明は[Wikipedia - 関係データベース]に任せます。
例えば以下のようなものがあります。

  • SQLServer
  • Oracle
  • PostgreSQL
  • MariaDB
  • MySQL
  • SQLite
  • Access

まずBIツールでデータ分析に入門します。
データベースからデータを取ってきて直接可視化作業が行えます。

有名なところでは以下が有名です。

僕はTableauを使用しています。
もう集計作業でEXCELには戻れません。

BIツールの範囲だけでは丁度いいデータの形になってくれない場合、SQLを使用します。
SELECT文だけならそれほど難しくありません。

使用するデータベースによってクエリが少しずつ異なりますが、どれも似たようなものです。
僕はA5:SQL Mk-2などを使ってデータの抽出を行います。
使いやすくて便利です。


データ分析の敷居をぐっと下げてくれるのでBIツールは非常にありがたい存在です。
しかし、BIツール + SQLでは計算処理はそこまで強くありません。
少しでも複雑な計算処理をさせようと思うと、可読性の悪い巨大なSQLになってしまいます。
SQLパズルはなかなか難問ぞろいです。
案外単純なものでもSQLでは表現しづらかったりします。
これなんかシンプルですけどそそります。

そういう場合はData Preparation Toolと呼ばれるものが便利です。
ETLの亜種とも言えます。

などが有名です。
昨今は直観的に操作できるようになってきています。


データの外観を一気にみたいとか相関を算出したいとなると、
PythonやRが必要になってきます。

僕はある程度のデータの特徴が捉えられるまで、
Jupyter Notebook + Pythonや
Rstudio + R言語を使って
データの外観確認 ⇔ ゴミ取り
をひたすら繰り返します。

僕の場合、この方法である程度方向性が定まったら、
Tableau Prepを使ってデータを整形したり、
Tableauでダッシュボードを作成したりしています。


ざっと、僕がDXでおススメする技術を書いてみました。地味ですね。

プログラマーとデータサイエンティストは全く別のアプローチで問題解決にあたります。
要求を定義して具現化するプログラマーとデータから要求を探すデータサイエンティスト。
前者は成果物が明らかにしやすい
後者は成果物が不明確で不確実性も高い

日本の仕事の契約形態を考えると後者と契約することはあまり考えられません。

DX構築はプログラマー寄りの仕事ですが、データ活用はデータサイエンティストの仕事です。
一般的なプログラマーにそこは期待できません。
データ活用技術はご自身で持っておいた方がよろしいかと思います。

DXの設計書⑮ - DXで覚えておいた方がよいツールと技術

おわり

コメントする

メールアドレスが公開されることはありません。