ディープラーニングにおける予測のための学習データの集め方

ディープラーニングの学習データ集めを「次元」で考える


ディープラーニングにおいては、そのデータ集めが仕事の大半といっても過言ではありませんよね。

無駄な項目や重複する項目が増えるとデータ学習に時間やコストをかけてしまうだけでなく、予測の精度さえ悪化させかねません。

このページでは、手前どものディープラーニングの経験をもとに、学習データの質を高めるポイントをあげています。


次元が増えればより実態を明かにできる


私たちが学習データから予測・判別を行う対象は様々です。

画像であったり、音声であったり、あるいはデータベースやエクセルデータを元にしてディープラーニングを行なうと思います。

そこで、上に書いたように次元を頭に浮かべながらデータ集めをするとよいと思います。

ディープラーニングによる予測・判別は、最終的に私たち人間が可視化できる形にして結果を出す必要があります。

私たちの世界は2次元の平面の世界ではなく、3次元で成り立っていますよね。

ですからたとえば、元となるデータが縦横だけの2次元のデータしかないとしたら、それは元のデータが十分に実態を表していないともいえます。データがまだ足りない。

これに高さの項目を追加すると3次元のデータになります。こちらのほうがより実際の世界をよく表した学習データに強化されているのではないでしょうか。

もう1つ次元を増やして、例えばその次元を "時間" としてみます。

こうすることで、静止した立体の三次元から、動くデータが元データとなるわけです。予測や判別がより緻密になります。

分かりやすく例えると、猫ちゃんを画像認識したいときに、2次元の写真よりも3次元の立体の方が正しく識別できますし、更には顔を洗うため手をこすっている動きが加われば、元データとして優秀ですよね。

これをお読みの方はご存知の通り、むやみやたらと項目ばかり増やしてもかえって計算時間を浪費したり予測精度が上がらなかったりしますので気をつけたいところですが、次元という考え方は1つ覚えておくとよいかと思います。

次元を増やす、という趣旨からは逸れるかもしれませんが、次にあげるような項目が学習データの質の向上に貢献できると思います。


【温度】その温度、周囲の温度、気温、他の何かとの温度の差

【色】

【時間】その時刻、経過した時間、他の何かとの時間の差

【その他】降水量、風向き、風速、日経平均



新規開拓データに限らず、このディープラーニングによるデータ分析と未来予測を自社以外の他の企業様でも活用していただきたいと考え

今このページを御社にご覧いただいている次第です。


社内データをディープラーニングによってより良い経営判断の材料とし、御社の競争力の源泉とするお力添えをさせて下さい。

御社の手元にしかないデータを活用できるのは御社以外にはありません。



  ⇒ こちらよりお問い合わせを賜れます

  ⇒ コロナ禍でのディープラーニングの活用はこちらのページをご覧ください