世の中は非構造化データばかり?構造化データとの違いとは

本記事はスキルチェックリストの[データエンジニアリング力 No.47]「扱うデータが、構造化データ(顧客データ、商品データ、在庫データなど)か非構造化データ(雑多なテキスト、音声、画像、動画など)なのかを判断できる」に対応しています。

構造化データと非構造化データ

アイ

ただいま〜…
おかえりなさい
何だか今日はだいぶお疲れですね

ロボ千代

アイ

1日中Excelでデータの集計や分析してたの
目は疲れるし、頭は痛いし…

皆さんも仕事でよくExcelを使うことがあるのではないかと思います。
「データ」というとExcelのような2次元の表形式の情報を想像するのではないでしょうか?

でも、データは必ずしもこのように表形式ではありませんね。

アイ

どういうこと?
例えば、ハンバーグを焼くシーンを想像してください

ロボ千代

よく熱したフライパンにハンバーグを入れます。
ジュゥーー!という音。火加減が強すぎたかな?と思い、少し火を弱めます。
1分焼いてひっくり返すと美味しそうに焼き目が付いて、いい香りがしてきました
蓋をして3分蒸し焼きに。
蓋を取って、少し肉を押してみると溢れる肉汁、中まで火が通っていい感じのようです。
さあ、皿に盛り付けたら出来上がり!

アイ

お腹空いてきたわ
ハンバーグを焼く過程で得られるデータは、画像や音、香り、触感など表形式では表せないデータばかりです

ロボ千代

構造化データ


「行」と「列」で表現されるデータを「構造化データ」といいます。

私たちが普段業務で扱うデータもこの構造化データであることが多いです。

顧客データ、商品データ、売上データなど、Excelの表形式になっているデータを想像してもらうとよいでしょう。

構造化データの場合は、たとえば「2行目の7列目」のようにデータのある場所を明確に指定することができるので、定型的に処理しやすいのが特徴です。
Excelでマクロを組んだことがある方もいるかもしれませんが、あれもデータの位置を明確に指定できるからできることですよね。

また、扱うデータ自体も数値や文字列であるため、演算処理が簡単です。

非構造化データ


一方、私たちの身の回りにある情報は、表形式のデータばかりではありません。

文書(メール、ブログ、Wordドキュメントなど)、音声、画像、動画など表形式では扱うことができないデータばかりです。

このように、表形式で表せないデータを「非構造化データ」といいます。

この非構造化データは扱いが難しく、なかなか活用が進みませんでいた。

Excelデータの中の「ネコ」を「イヌ」に変えるのは簡単ですけど、動画の中の「ネコ」を「イヌ」に変えるのは難しいですよね

ロボ千代

しかし、AI技術の発展により、近年ではこの非構造化データを効率的に分析・活用できるようになってきています。

例えば、写真をそのシーンや人物ごとに自動的にタグ付けするなどです。

さらに、IoT(モノのインターネット)の浸透し、あらゆるモノにセンサーが取り付けられ、インターネットを通してデータを送り続けています。
そのため、非構造化データが飛躍的に増加してきており、現代では構造化データと非構造化データの割合は2:8程度と言われています。

これからはいかに非構造化データを利活用できるかが鍵になるといってよいでしょう

ロボ千代

構造化データと非構造化データ

今夜はワタシが「非構造化データ」をフル活用して作ったハンバーグですよ♪

ロボ千代

アイ

やったー!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です