目次
背景と目的

室内環境、例えば、研究室や社内オフィスといった場所は多くの人が出入りするので、誰が物を[持ち込んだ/持ち去った]のか特定することは困難です。さらに、室内の映像が保存されていたとしても、長時間の記録映像から目的のシーンを探し出すのは労力を要する上に見逃しの問題もはらんでいます。
そこで、このような大量の映像データをシステムが自動整理して効率よく保存しておき、ユーザは必要最低限の指示を行うだけで目的のシーンを検索できれば非常に便利です。
室内監視班では、監視映像下に起こる「物体の持ち込み/持ち去り/移動」といったイベントを自動的に検知・整理しておき、実シーン中で直接ジェスチャによって物体や空間を指し示すことで「これを持ってきたのは誰?」等と直観的に問い合わせできる検索操作システムを開発しています。
過去のシステム

この室内監視の研究は長期間にわたって開発されているものです。
上図は、過去に用いられていた室内監視の概要図です。
室内シーン変遷ロギングシステム
システム概要

現在のシステムの概要は上図のようになっており、主な機能は以下の4つに分けられます。
1. 入力部
2. 人物検出部
3. 物体検出部
4. イベント検知基幹システム部
以下にそれぞれの機能について説明します。
1. 入力部


入力部では、室内の情報をカメラデバイスを用いて取得し、その情報を処理サーバーへ提供しています。
提供している情報は、上図のようなカラー画像と深度情報です。
2. 人物検出部

人物検出部では、入力部から提供された情報を受け取り、人物の検出を行っています。人物の検出には外部ライブラリのOpenPoseという深層学習モデルを導入しています。このOpenPoseによる骨格推定の様子が上図です。

また、OpenPoseで取得した骨格情報から人物をトラッキングすることができます。人物にIDとBounding Boxでトラッキングをした様子が上図です。
3. 物体検出部

物体検出部では、入力部から提供された情報を受け取り、物体の検出を行っています。物体の検出にはYOLOXを用いており、上図のようにカラー画像から物体を検出し、物体名とBounding Boxで範囲を推定しています。
4. イベント検知基幹システム部
イベント検知基幹システムでは人物検出部、物体検出部で検出した人物と物体の情報を元に「持ち込んだ」「触れた」「持ち去った」といった人物と物体間に起きたイベントを検知しています。イベントを検知するとイベント情報を画面に表示したり、情報を保存し蓄積したりしています。動画では、上部でイベントを検知しており、下部で物体のトラッキングの様子を示しています。
関連研究
1. 物体の位置姿勢を考慮した片付けの想起
研究室や会社のオフィスといったローカルな空間では,独自の習慣や文化が形成され,その一つに片付けがあります.「何が」「どこに」「どのように」配置するかはその空間に属する人間や物体によって決定するため,前もって学習させたモデルでは対応することが困難です.そこで,設置したカメラから得られる情報を用いて随時学習させることで解決できるのではないかと考えました.
本研究では,カメラから得られる情報をもとに複数の物体の位置姿勢を学習し,予測するモデルの構築に取り組みました.

実験では,複数のユーザの片付け方を訓練させ,散らかっている配置に対してより適切な片付いた配置が提案されるかを検証しました.

本研究では物体の位置姿勢に着目しましたが,私達が実際に片付けを行う際に,外観特徴(形状や模様)が似た物体を集めて配置することがあります.よって,画像のテクスチャを用いた片付けの実装に今後取り組みたいと思います.