海外『あと5年でアニメの制作方法は全てこれになるのでは?』『いや3か月だw』

AIのとんでもない進化スピード

今回は、最新のAIにより作成された動画を紹介した
reddeit
のコメント欄を翻訳して紹介します。

画像生成AIであるStable Diffusionと、
それをサポートするソフトMultiControlNet
を使ったAIアニメーション技術のようです。

Stable Diffusionなどの事前学習済みモデルに対して、
輪郭線や深度、画像の領域区分(セグメンテーション)情報などを追加して出力をサポートする技術が「ControlNet」です。

このControlNetを使うことで、別途に読み込ませた画像に写っている線画や人の姿勢などを出力結果に強く反映させることが可能です。
このControlNetを複数使用する「Multi ControlNet」で実写の映像を忠実にアニメ化したムービーが、オンライン掲示板のRedditで公開されました。

引用元:画像生成AI「Stable Diffusion」をMulti ControlNetで制御して「実写映像を忠実にアニメ化」したムービーがすごい

そんな最新技術に対するコメントをご覧ください。

海外の反応

現実の女の子のダンスを、Stable DiffusionとMultiControlNetを使ってアニメーションに変換してみた

これまで見た中で一番安定したディフュージョンのGIFで、フリッカーが少ないね。
アニメーションも一定で、一部の変形があまり目立たないし(他の動画と比べて)すごく自然だよね。+851

↑同感!これがここで見たものの中で一番オリジナルに近いかも。
OPは良い仕事をしたし、ソース動画も良い選択だった。
背景を除いて、ウォッチや手、へそ、服のディテールなど、フィルタが細かく捉えられない部分を隠すために動きが常にあるんだ。

OPがオリジナルの動画を作ったら、ウォッチを外して撮影し直すことをお勧めするかもしれないし、
もっと長いシャツを着るとかね。

でも、スムーズでセクシーな部分に気を取られて、誰も気にしないかもしれない。
それから、特にトップの部分で色がコロコロ変わるのも気になるね。
伝統的なフィルタでは、静的に/手動で設定するのは難しくないはずだけど、AIアルゴリズムについてはわからないね。+211

↑OPがロトスコープ/モーションキャプチャーを再発明したみたいだね。
最終的な製品が素晴らしい!本当にいい仕事したよ!+45

↑Corridor Crewをチェックしてみて、
彼らがやってる安定ディフュージョンやAIアニメーションは本当にすごいんだ。+6

↑なんで最高のSDアニメーションが、スナップチャットやTikTokのアニメフィルターにさえ近づけないんだろう?
顔や動きを追跡できて、フリッカーもなく、スマホだけで動くのに。
SDでこれをやるには超GPUやたくさんのスクリプトが必要だけどね。+27

↑Corridor Digitalのやつ見てみてよ。+2

ロトスコープをまったく新しいレベルに引き上げたね、本当に素晴らしい!+350

↑実際、最近ではNNのおかげで簡単にできるんだよね。
davinci resolveでは、オブジェクトを選んでトラックボタンを押すだけで、ビデオ全体の内容が追跡されるんだ。+68

↑確かに昔のロトスコープっぽい雰囲気があるね。+1

最初に、私の下手な英語を許してください。
私は4つのControlNetを使ってシーンを制御しています。

最後の部分はパラメータを調整することです。
背景が固定されていて、女の子の動きもスムーズだから、滑らかに見えるんだ。

チェックポイントはanimeLike25D。
このチェックポイントでは、低ノイズでリアルな人物を簡単にカートゥーンキャラクターに変換できます。
大規模なスタイル変換には向かないと思いますが、服や人物の輪郭がほとんど変わらないのが分かります… +269

↑>最初に、私の下手な英語を許してください。
気にしないで、大事なのはみんなが理解できることだよ。
君の作品は素晴らしいよ。+55

↑どうやって顔をクリアで一貫したものにしたの?
ControlNetがあるのかな?
私のはぐちゃぐちゃで悪夢のようなものになっちゃうんだ。
Restore Facesを使っても使わなくてもね。

編集:アニメ風にしようとしているのを忘れていました。
カメラから遠くて小さいのが問題かもしれないけど、細かいことは求めてないんだ。
顔の機能がない、真っ白な顔でいい。

でも、せめて肌の色を保ってほしいんだ。
代わりに、穴のようなものが出来るんだ。
黒くてぐちゃぐちゃ。+38

↑どのControlNetを使って、どれくらいのノイズ除去の強さで作業してるの?
常に同じパラメータを使ってるのか、それともアニメーションのニーズに応じて変更してるの?
すべてが素晴らしく見えるよ、お疲れ様 +3

すごくスムーズだね。
ワークフローはどんな感じ?
ControlNetで何を使ってるの?+116

↑OPは違うことをやってるかもしれないけど、
corridor digitalはこのビデオで彼らのワークフローを説明してるよ。+32

↑正確なワークフローは分からないけど、
一般的にはこれらのビデオプロセッサで見られる傾向は、
ソースにできるだけ依存して、
目的の外観を実現するために必要な最小限のフィルタリングを使用することだと思う。+33

ひゃあ、もう少しでフレームごとに一貫した服とかが出来るようになるんじゃないかな?
人生最高の時代だね!+84

↑今、めっちゃ興奮してるんだ😩 +30

↑YouTubeの参照がいいね +8

↑この技術で一貫性が出るんだよ。
 Video To Anime – youtube 
踊る女の子ではないけど、全体のワークフローチュートリアルを共有したよ。
 reddit +1

すごい印象的だね!
ControlNetのビデオで分からないのは、背景もフレームごとに処理する必要がある理由だけど。
実際のアニメを見ても、ほとんどの場合、背景は静かなペイント画像が多いんだ。
キャラクターを少しカメラの動きに合わせてパンさせる静止背景に配置するだけで、より現実的に見える気がするんだ。
それに、元のビデオはすでに背景から抽出されている(もともとグリーンスクリーン?)ので、
すでに半分くらいできてるよね!
そんな例があるかな?+87

↑できるけど、環境のトラッキングがあるblenderや何かで合成する必要があるんだ。
カメラが動いて背景が変わるから、オリジナルを使わないと2つのもの(環境とダンサー)を合成しないといけないんだ。
このタイムスタンプでは、彼がリアルなカメラとblenderの3Dカメラを一致させて合成しようとしてるのが分かる。
見なくてもいいけど、数秒だけ見てもらえればどれだけ複雑になるか分かるよ。
Quickstart guide to blender tracking – Youtube +38

Another quick attempt at higher resolution 2:1 video… – Youtube +14

↑SDは透明なpngをエクスポートしないといけないから、
ダンス+背景を取得するためには、両方を含んだフレームをそれぞれレンダリングする必要があるんだ。+3

本当にすごいね。
他の似たような動画と比べても、フレームがずっと整ってる。+4

↑Midjourneyの学習は終わったから、次はみんなから学ぼう✌️ +24

実は先週同じことを考えてたけど、かなり難しいんだよね。

初めてのビデオアニメーションは作ったけど、滑らかにするのは大変だし、結局入力ビデオにかなり依存する。
だからほとんどの動画が踊るアニメの女の子なんだろうね、描画や検出が比較的簡単だから。

まず背景を消してモデルを実行して、背景を別々にしてから再度合成するといいよ。

それからアフターエフェクトとかトパーズでフレーム補間やアップスケーリングをするとかね +9

↑あと5年もすれば、これがすべてのアニメや漫画の制作方法になるんじゃない? +18

↑将来のゲームにもすごい可能性があるよね。+8

↑3ヶ月でいけるかもw +22

↑Corridor Digitalのじゃんけんアニメもチェックしてみたら? +2

↑正直言って、ちょっと疑ってるけどね。+2

↑‘モーションキャプチャ’はもう終わりだね。+1

アニメの女の子のレンダリングはA+だね。すごく滑らかだ。
ただ、背景の不安定さに関してはまだ改善の余地があるね。
各フレームでMeta AIの新しいSegment Anything Model(SAM)を使って生成された女の子を抽出して、
少し拡大して、元の動画のフレームの元の女の子の上に貼り付けるっていうアイデアはどう? +18

↑完全に同意! +1

これを達成するのはどれくらい難しいの?
もう適切なソフトウェアがあればほぼ完全に自動化されているの?
それともまだたくさんの手順が必要? +8

↑完全に自動化されていないよ。
これを作るのに多分たくさんの試行錯誤があったんだろうね。+14

↑全然自動じゃないよ。
今のSDの仕事は、たくさんの反復を生成して途中で細かい調整をすることが含まれている。
これらのツールがどう機能するのかも理解する必要がある。+3

↑同じプロジェクトに5日間取り組んで、
まだ4秒の映像で一貫性のあるキャラクターができてないよ。
始めたときは何も知らなかったから学ぶことがたくさんあったけど、
基本的にどのツールを使うべきか理解したら、6〜8の変数を調整できる大きな試行錯誤のゲームになるんだ。

運が良ければ、スタイルを追求することに開放的になることが重要で、
ずっと当て推量して1つの正確なスタイルを見つけようとするわけじゃない。+2

おすすめ新着記事

1日1クリックして頂けると大変励みになります!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント※現在コメントは承認制となっており、個人への誹謗中傷や人種差別発言は承認されない可能性があります。予めご了承のほどお願い致します。

コメントする