バス弾き会社員の技術士受験記録

コンサル会社員技術士の受験記録と雑記

総監キーワード ビッグデータ分析(1)

総監キーワード、今日は「ビッグデータ分析」です。

ぶら下がっているキーワードが多いので、2回に分けます。

データ収集

これは言葉通りですが、データを収集し、分析ソフトで読み込める形に加工すること。

ビッグデータがもてはやされている中で、個人的に一番課題になるのはまずここかな、と思います。
IoT では、データ収集で各種センサーを取り付けることがトレンド(?)なんでしょうか。とにかく、ビッグデータと呼べるほどの膨大なデータを集めるのに、これから集めるのか、既にあるデータを使うのか、初っ端から大きい課題にぶつかるような気がします。

データクレンジング

データベースなどに保存されているデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などを行ってデータの品質を高めること。

これもある意味データ収集の一部かな、とは思いますが、生データと整理されたデータを分ける作業として、一つ重要なステップでもあるというのも理解できます。

機械学習

明示的な指示を用いることなく、その代わりにパターンと推論に依存して、特定の課題を効率的に実行するためにコンピュータシステムが使用するアルゴリズムおよび統計モデル。

これ、わかるようでわからないんです。。。特に、教師のあり/なしで分けている辺り、説明だけ聞けばわかるような気がするんですが、実際に何をやっているかを考えると難しい。そこに、強化学習も入ってくると、本当に難しいです。

キーワード集には、教師あり/なしや強化学習などは入っていませんが、試験までに概要くらいは理解を深めようと思います。

データマイニング

統計学パターン認識人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のこと。

マイニングは、Mining(採掘)ですね。ビッグデータとして集められた、ぱっと見では意味のある情報が含まれるかどうかわからないような情報群から、有用な情報を浮き上がらせるようなイメージでしょうか。

参考

>> 機械学習 - Wikipedia
>> データマイニング - Wikipedia