機械学習で必要とされる大量のデータが得られない状況でも、機械学習を活用することができる複数の技術をNECが開発しました。学習用のデータ量が十分に得られていない段階からでも機械学習の活用を可能にするとしています。
近年はあらゆる産業分野で豊富なデータを使ってディープラーニングなど機械学習技術が活用されています。しかし、データ収集の初期段階やデータ収集のコストが高い環境など、学習データが大量に得られない状況ではこれらの技術を十分に発揮できませんでした。
そこで今回、NECは少量のデータから機械学習が可能になる3つの技術を開発しました。
1つ目は人のノウハウを活用した学習技術です。
実世界で起こる状況を把握するためのフィールド調査ではデータ収集に大きなコストが発生するため、より少ない実験回数での学習が求められています。
そこで各領域の専門知識をもつ人のノウハウを数値化して活用し、学習効率の高いデータを能動的に収集することで、少量のデータでも学習が可能となります。
2つ目は類似度に基づいてパラメータを推定する技術です。
複雑なシミュレーションを実行するためには多数のパラメータが必要で、実データに合わせて正しくパラメータを調整する必要があります。しかし実データが少ないとパラメータの推定ができず正確なシミュレーションが行えませんでした。
そこでこの技術では、パラメータ値の異なる複数のシミュレーション結果の類似度に基づいてパラメータ値の修正を繰り返すことで、正しいパラメータ値の推定を行います。
3つ目は複数分割による効果見積もりの技術です。
データから学習した結果に基づいて人が意思決定をする場合において、学習データが少ないと意思決定による効果を大きめに見積もってしまうという課題がありました。
そのため、この技術では収集したデータを学習用と効果評価用に、複数の分割パターンを準備します。それぞれの評価効果結果を平均することで、より正確な効果見積もりを実現します。
これにより、少数データによる偏りに影響されにくく、より正しい意思決定が可能になります。
NECはこれらの技術によって、機械学習を活用できる場面を拡大することが可能になるとしています。