【メイアライブ】VR機器(Oculus・HTCVive)を使ったリアルタイムモーションキャプチャーを使った問題点『生きているように自然に動かす』ための3つのポイントとは?

カメラもVR機器も使わないでバーチャルYoutuberになる専用アプリ『メイアライブ』の設計をしたときに考えたことです。メイアライブは、『シンプルな操作で、生きているように見せる』のがコンセプトのアプリですが、既存のVTuberアプリとはちょっと違う特徴があります。

2018年6月時点では、VR機器を使ったモーションキャプチャーにおいて、手や腕の動きのトラッキングは、Oculus Touch や Viveコントローラー を使うのが一般的です。
(※HTC Viveの場合はトラッカーをつけるという選択肢があったり、個人向けモーションキャプチャーとしてはパーセプションニューロンなどもありますが、オプション的な選択肢なので今回は省きます)

この『コントローラー型モーションキャプチャー』を採用すると発生する問題は、『コントローラを手に持つと配信者の意識が手にいきがちになり、手を動かす動画が多くなるのではないか』という点です。

道具は、その道具を持つ人の身体性に大きな影響を及ぼす。

人は何かを持っているとき、その持っているものを動かしたいという衝動が出てきます。
持っているのに、持っていないときと同様に振る舞うのは訓練が必要であり、手のモーションキャプチャーはコントローラーを使うものが一般的になった場合は、プロの演者や、壁がない空間で壁があるように見せるパントマイム芸人のような技術が必要とされてくるかもしれません。

しかし、2018年5月現在、VTuberは2,000人程度いるようですが、多くの配信者は素人です。

竹刀を持っていたら、ふりたい衝動に駆られるでしょうし、手持ちマイクを持っていたら、口元に近づけたくなるものです。
ユーザーエクスペリエンスデザイン(UX)の考えでは、アフォーダンスやシグニファイアなどがこれにあたります。

人間には身体性があるので、道具を持てば、その道具自体が行動生成のトリガーとなり、その後のインタラクション(行動生成)が、トリガーとなる道具に引っ張られがちになるという特性があります。

幼児性の高い低年齢なキャラクターの場合はコントローラー型モーションキャプチャーを使い、そうでない場合は、付けるタイプのモーションキャプチャーか、非接触型のモーションキャプチャーを使うのが良いと考えています。

また、コントローラ位置とキャラクターの手の位置は連動させるべきなのか?

についても、疑問が残ります。

このような理由から、メイアライブ雛乃木まやエディションの場合は雛乃木まやさんというキャラクターが22歳であることから、既存のモーションキャプチャーによる仕組みは見送るという判断になりました。

コントローラ型モーションキャプチャーは、幼児性の高いキャラクターでは大きなメリットになる。

しかし、このようなコントローラを手に持つことでの行動誘発の特性は、キャラクターによっては大きなメリットになり得ます。

特に、子供のような幼児性の高いキャラクターはバーバルな言語表現よりも、ノンバーバルな身体的な表現を頻繁に行います。そのため、 東雲めぐさんのような若年層・子供向けのキャラクターを演じるのであれば、デメリットではなく、キャラクターの実在感を高めるための大きなメリットになるでしょう。

「持つ」と「付ける」では、体験も行動生成もまったく変わってきます。

接触型デバイス(持つ・付ける)と非接触型デバイス(カメラ・空間認識)のどちらを使うかでも、配信者の行動にも大きな影響を及ぼすでしょう。

コントローラーデバイスに限らずどのような道具であったとしても、『道具の本質は身体性の拡張』であると考えており、どのように身体性を拡張していくべきかなどを考慮しながらUIのデバイス選定する必要があると考えています。

Kinect や OculusRift, HTC Vive などのVR機器を使ってモーションキャプチャーを行いそのままキャラクターを動かすと、配信者の微細な動きもキャラクターに反映されることになります。モーションキャプチャーの精度が高ければ高いほど、配信者のちょっとした動きがキャラクターに反映されやすくなり、ブレが生じ、キャラクターによっては、この微細な動きがクオリティを下げる要因になることがあります。

フェイスリグなどのように、カメラで顔表情を取得し、それをリアルタイムキャラクターに適用させるだけでは、まだまだ自然なキャラの表情にはなりません。

いわば、視聴者にとって不必要な情報(微細なブレ)もトラッキングしてしまうわけです。

Facerig にせよ iPhoneX にせよ、入力デバイスは一般の市販カメラとデプスカメラ(深度センサー付きカメラ)という違いはありますが、そこから入力された顔の特徴点抽出、画像処理のアルゴリズム、実装においては、OpenCV や Dlib などが使われるのがメジャーです。

つまり、

  1. (できる限りユーザーの身の回りにあるもので)センサー入力をいかに精度高く行うか?
  2. 入力されたセンサー情報から不要な情報を削ぎ落として(フィルタ)して、表情データの生成や加工をするか?
  3. 刻一刻とリアルタイムで表情変化する状況において、上記の1,2をどのタイミングや頻度で行うべきか?

などが、キャラクターの顔の表情クオリティを高めるためには、本質的な問題であると考えています。

2018年3月1日、AniCastを採用した東雲めぐさんがSHOWROOMで初生配信を行なったとき、そのクオリティの高さに多くの人が驚きました。どの部分にインスピレーションを感じたかは人それぞれでしょうが、私自身は『リアルタイムでモーションキャプチャーを行なっているのに、とても自然なアニメのように見えるクオリティ』に既存のものとはまったく違う、パラダイムシフトの予兆を感じました。

このような自然な表現をするためには、カメラの手ブレ防止のような機構や非常に繊細な微調整が必要になるのではないかと思います。
モーションキャプチャーにおいても、モーションキャプチャーのブレを軽減し、リアルタイムでキャラクターに適用させるスタビライザー(安定器)のような調整機構がモーションのクオリティを高めるには必要だと考えています。

私自身、日進月歩で進化し続けているVR・VTuber業界で試行錯誤中なので、現在までのところ明確な答えは持ち合わせていませんが、日々、実際に試行錯誤をやってみて開発者として気づいたことをまとめました。これらの気づきから、ユーザーのみなさんにとってより良い最適化ができるようにしていきたいと思っています。

メイアライブ無料版の登録は、こちらで受け付けています。

メイアライブにご興味のある方は、ぜひお試し下さい。

メッセージ:
F C C M B