画像認識一般

目次

食品班

深層学習班

食品班

近年の労働人口の減少により,食品産業界ではロボットによる作業の自動化が求められています。しかし、工業製品と異なり食品は形状がそれぞれ異なるため、人が設計した一連のアルゴリズムで操作を行うことは困難とされています。

そのような操作を自動化するには、まず画像から必要な情報を取り出し、その情報を元にロボットを動かす必要があります。本研究では深層学習を用いて画像から必要な情報を取得することを目標としています。

これに際して、株式会社ニップンさん、株式会社味の素冷凍食品さん、本学理工学部のソフトロボティクス研究室(平井研)と共同で研究を行い、把持作業の自動化に取り組んでいます。

1.粒状食材の定量把持

この研究は株式会社ニップンさんと本学理工学部ソフトロボティクス研究室(平井研)との共同研究です。

1-a 重量推定深層学習モデル

トッピングとして使われるネギやコーン、グリーンピースなどの粒状食材が積まれた容器から指定された量を掬い取るために、どの場所に、どの程度のロボット動作量で動作させればよいかを推定しロボットを自動で制御します。

粒状食材の定量トッピング作業を自動化するために、本研究では深層学習モデルを用いて、表層の状況を表すRGB-D画像とロボットの動作量を入力に把持重量を推定します。把持重量が推定できれば、推定した把持重量からロボットの動作量を逆算することができるようになります。

しかし入力となるのは表層の状況を表すRGB-D画像であり、食材の内部の状況や粒状食材同士が起こす偶発性などによって、入力画像以外の要素が把持重量に影響してしまいます。

これらの影響は食材状況によって小さい箇所と大きい箇所があるはずです。そこで把持重量の代わりに把持重量の確率分布を推定します。実際に掬いに行く場所は、目標把持重量と推定把持重量期待値が等しく、推定把持重量の分散(ばらつき度合い)が小さい状況を選択すればよいことになります。

株式会社ニップンさんから頂いたデータで深層学習を行い、深層モデルを作成しました。このモデルが番重全体のRGB-D画像に対して、把持重量のばらつき度合いをどのように推定しているか確認しました。以下の図は20[g]の把持条件のときに、ある番重全体の画像から推定した把持重量の標準偏差を可視化した図です。

この番重全体画像は既にいくらか把持実験を行っており、食材をえぐり取った複数のくぼみが存在します。これに対して把持重量の推定標準偏差は入力深度画像と関連があることがうかがえます。

くぼんだ箇所のふちにあたる傾斜が大きい場所での把持重量の推定標準偏差は大きく出力され、その場所での把持重量は信用できないと推定しています。この推定は、私たちがネギを上から把持しようとしたときの直感に近い標準偏差の推定が行われていることを示しています。

今後の展望は、ドメイン適応の技術を用いてネギの情報を他の粒状食材にも適用することです。すると、同じレーンで多くの種類に対して決まった重量を把持するロボットハンドを作成できるかもしれません。

深層学習モデルで確率分布を推定することは行われてきたものの、これをロボット制御に適応した例は少ないです。実用化に向けて研究を進めていきたいと思います。

1-b 多拠点間統合学習を見据えた食品の定量把持システム

多拠点間統合学習を見据えて食品の定量把持を行うためのROS2システムを実装しています。多拠点間統合学習とは、異なる物理的な場所に配置された複数のロボットが同じシステムや画像認識モデルで動作し、その収集されたデータを中央の場所に統合して学習を行う手法です。すべての工場の環境(ロボットアーム、カメラ位置や食品の状態など)を完全に一致させることは不可能であることから、全国各地の工場がネットワークで接続され、各工場での学習用データを中央サーバーで管理し、学習するような多拠点間統合学習が可能なシステム開発を目指しています。

システムの構造はこのようになっています。ROS2を使うことでメッセージ型が同じノードは交換することができ、拡張性のある構成となっています。

このような環境で1-aの深層学習モデルを使用して実験を行っています。

また、ロボットアームを変更しての適用も行いました。国際ロボット展2023で展示を行いました。4日間にわたる運用も達成し、このシステムでの長期間動作に対する可能性も示されました。

2.パッキング作業自動化のための画像処理

この研究は株式会社味の素冷凍食品さんとの共同研究です。

ロボットハンドによる食品把持のために、コンベア上の食品の位置と各食品の把持するべき点を画像から推定します。このためには、以下の2つの情報が必要となります。

  1. 対象となる食品が画像上の何処に写っているかという情報
  2. その食品を把持するのに適した点は何処かという情報

この2つの情報を食品が写った画像から推定をする試みを行っています。

3.良品不良品判別作業自動化についての画像認識

「2.パッキング作業自動化のための画像処理」の研究内容を応用して、コンベア上に流れる食品が良品か不良品かを深層学習を用いて判別する試みを行っています。

仮に食品が不良品であった場合はハンドで把持動作を実行し、コンベア上から排除するようにしています。

4.食材盛り付け画像と生成手順の想起

弁当食材の画像と少数の盛り付け例データセットを用いて、弁当や皿上に食材を盛り付ける配置と盛り付け手順を想起する手法について研究します。

各食材の置いた手順及び位置をロボットに指示することが重要です。

そのため、お弁当の画像内のオブジェクトおよび関係を学習し想起できる方法について研究を進めています。

深層学習班

近年、深層学習の著しい進歩によって、ネットワークの性能が大幅に上昇し、以前想像も付かない場面で応用できるようになりました。

特に、Deep Convolutional Network、Attention Mechanismを代表としたネットワーク構造の発展に伴って、深層学習が画像認識・画像生成で活用することが段々多くなりつつあります。

このように発展された深層学習の能力を実際の応用に発揮することを目的として、本研究室は深層学習班を設けました。

5.キャラクターデザイン支援

GANを用いたキャラクター画像の姿勢変換

キャラクターの画像と変換先の姿勢画像(PoseMask)を入力

キャラクターが変換先の姿勢をしている画像を出力

目標として、キャラクターデザインをする時、ラフスケッチ一枚でキャラクターの様々な姿勢をする姿を確認できるようにしたい

6.Compositional GANに基づく眼鏡を装着した顔画像の生成

 既存研究に基づいて、横を向いた顔にも対象として、眼鏡のサイズが合わない、位置をずらす問題を改善を行います。

そして、もとのデータセットの中で、主には前向きの顔画像なので、横顔に適用できません。  

それで、データセットの顔画像に対する前処理を行って、顔の68点のランドマークを得られます。

そして、各画像のランドマークは画像情報と繋がって、眼鏡の平行回転パラメータを計算します。

7.時空間特徴抽出に基づくの手話翻訳

・世界のさまざまな国の言語は基本的に相互に翻訳できる。これを実現できる翻訳ソフトウェアはたくさんある。     

Google翻訳のように人工ではない方法で手話を翻訳することはできない

・手話は、手の動き、口の形、表情を組み合わせた言語。国によって手話の表現にも違いがある。同じ国でも手話に違いがあるかもしれない。 

手話の翻訳を困難にする

手話を可能な限り正確に健常者が使用する言語に翻訳することを目的とする

8.オノマトペにおけるクロスモーダル分散表現の空間構築

近年ではamazonや楽天といったwebマーケティングサービスの需要が高まっています。そしてWEBマーケティングにおいて商品を検索する際、物質の質感を表す表現の総称であるオノマトペをクエリとした検索は困難です。

そのため日常生活において標準的に用いられるオノマトペを検索クエリの1つとすることができればより詳細な検索が可能になると考えられます。

本研究ではそのようなオノマトペをクエリとした画像の検索、生成またはその逆を行うクロスモーダル分散表現の空間構築の研究を行っています。

本研究では入力画像のテクスチャが復元されるように画像を生成する際に用いられる埋め込みベクトルををオノマトペが得られるオートエンコーダの埋め込みベクトルに近づけるように学習します。これにより、あるオノマトペ音素からそれに適したテクスチャ画像の生成とあるテクスチャ画像からそれに適したオノマトペ音素の生成を実現し、オノマトペにおける単語と画像のマルチモーダル空間の構築を目指しています。
 

9.深層モデルを用いた環境音からのオノマトペ生成

近年、GPT-4を始めとした多くの生成モデルが存在しますが、オノマトペのような言葉とパターンの中間的な表現を用いたものは数が少ないです。

オノマトペと音声に着目した先行研究として、オノマトペから環境音を生成するモデルが存在します。

本研究では、先行研究とは対照的に、環境音からのオノマトペ生成を行う深層モデルの作成を行っています。

モデルの作成には学習済みの音声認識モデルと音声読み上げモデルを用いています。CTC損失関数を用いて、モデルから出力されるオノマトペを答えのオノマトペに近づけるように学習することで環境音からオノマトペの音素を得られるかを研究しています。