Как выглядит захват движений в самой продвинутой нейросети

Krasin

884k

3 года назад · 1 фото · 2948 просмотров · 32 комментария

Метки: #Stable Diffusion #Видео #Нейросеть #анимация #захват движений #интересно

Преобразование танца человека в анимацию с помощью расширения Milti-ControlNet для нейросети Stable Diffusion. Можно отметить плавную анимацию и относительно небольшое количество глитчей и других ошибок.

Как выглядит захват движений в самой продвинутой нейросети

Как на данный момент выглядит захват движений в нейросети Stable Diffusion через Milti-ControlNet.

Источник

Метки: #Stable Diffusion #Видео #Нейросеть #анимация #захват движений #интересно

Krasin

884k

· 5695 постов в горячем

32 комментария

Сначала новые | Сначала лучшие | Сначала старые

ssdeep

· Эксперт

3 года назад

ну вроде и круто только пупок у нее прыгает

Ответить

Звёздный странник

· Падаван

3 года назад

Так это не захват движений, а простая обработка оригинального видео под рисунок и наложение мультяшного лица на оригинальное.
Или я один заметил, что девушка на оригинале и мультяшка одеты одинаково?
Захватом считалось бы, если персонаж на обработке абсолютно внешне отличался бы от оригинала и сохранил только лишь движения. Помните танцующего малыша? Вот это было сделано через захват движений.
А тут обыкновенная техника ротоскопирования. То же самое сделали с фильмом "Помутнение" 2006 года с Киану Ривзом.

Ответить

VFRCBVEC

· Падаван

3 года назад

Вот и без говносетей ваших

Ответить

Billi_Bons

15k

· Падаван

3 года назад

Ответить

ВСЕМ БОБРА и ПЕЧЕНЕК

76k

· Гигант мысли

3 года назад

вот теперь анимешки китай начнёт клипать как не всебя.

Ответить

Godwine Æþelræd

· Эксперт

3 года назад

с анимациями пока есть одна не решённая проблема - стабильность картинки от кадра к кадру. Нейронки пока не умеют соблюдать сохранность деталей между кадрами. ControlNet тут помогает, но далеко не идеально.
Вот ещё пример попытки сделать короткометражный мульт с помощью нейронки.

Ответить

Михаил Сметанкин

29k

· Гигант мысли

3 года назад

Ответить

Михаил Сметанкин

29k

· Гигант мысли

3 года назад

Если честно потенциал нейросетей настолько огромен, что даже мне уже страшно становится. Она развивается СЛИШКОМ быстро. Пол года назад она не умела рисовать руки на картинах, а теперь делает целые видеоролики! Уже сейчас художники бьют тревогу, а теперь вот очередь дошла и до анимационных студий.

-3

Ответить

Godwine Æþelræd

· Эксперт

3 года назад » Михаил Сметанкин

Но руки - до сих пор проблема) Для устранения этой проблемы есть костыли, как упомянутый Control Net, и фактически все надстройки на Stable Diffusion, это костыли которые помогают ему работать лучше. Сама модель за пол года не изменилась.

-1

Ответить

Михаил Сметанкин

29k

· Гигант мысли

3 года назад » Godwine Æþelræd

Ну в целом все как у людей. При создании анимации один человек делает раскадровку, другой контуры, третий закрашивание, четвертый фоны и т.д.
Например есть даже В-тубер - Нейро-сама. Она тоже состоит из нескольких нейросетей, где одна говорит, другая играет в игры, третья отвечает за анимацию и т.д.
Но прогресс в развитии нейросетей прям совсем уж дикий.

-1

Ответить

Godwine Æþelræd

· Эксперт

3 года назад » Михаил Сметанкин

если брать последние года 2, то да, прогресс огромный. Но видно его больше за счёт того, что сейчас нейросети стали продктом, а не научными программами в институтах

Ответить

Михаил Сметанкин

29k

· Гигант мысли

3 года назад » Godwine Æþelræd

Весь научный прогресс сейчас завязан на капитализме. Те же нейросети не появились бы без смартфонов, соцсетей и интернета, благодаря которым они и учатся.

Ответить

Bronetazik

· Эксперт

3 года назад

А еще вот тут вот описано как именно это делается.
https://dtf.ru/howto/1654957-sozdaem-animaciyu-s-pomoshchyu-controlnet-gaydhttps://dtf.ru/howto/1654957-sozdaem-animaciyu-s-pomoshchyu-controlnet-gayd
Но статья старая (дожили кстати - ей двух месяцев нет) и там делается с одной маской по одному фильтру, а тут сразу несколько масок по нескольким фильтрам

Ответить

Bronetazik

· Эксперт

3 года назад

А еще тот же мультиконтрол умеет картинки раскрашивать :) Вот у меня например так получилось - до и после

Ответить

turyst

98k

· Гигант мысли

3 года назад » Bronetazik

Главное, не перестараться! :)

Ответить

Past

· Эксперт

3 года назад

Извините за вопрос, а есть в принципе не самая продвинутая нейросеть? Просто, как не новость так: Самая продвинутая нейросеть сделала то, сделала сё, показала это, а потом другое...

Ответить

Михаил Сметанкин

29k

· Гигант мысли

3 года назад » Past

Потому что нейросетей навалом, и каждая из них была научена по разному и для разных целей. По этому в каждой отдельной сфере есть лидеры.

-1

Ответить

Godwine Æþelræd

· Эксперт

3 года назад » Past

конечно есть, но про них не говорят))

Ответить

Андрей

710

· Эксперт

3 года назад

А и без нейросети получалось не плохо.
https://pikabu.ru/story/pochemu_prince_of_persia_sozdavalsya_4_goda_4817379https://pikabu.ru/story/pochemu_prince_of_persia_sozdavalsya_4_goda_4817379

Ответить

Бука Сyка Димка

80k

· Гигант мысли

3 года назад

круто че)

-1

Ответить

Yury

285

· Эксперт

3 года назад

Пальцев не больше 5-ти.. фейк )

Ответить

Godwine Æþelræd

· Эксперт

3 года назад » Yury

в половине кадров руки заретушированы, чтоб скрыть тот ужас что с пальцами творится)

-1

Ответить

Михаил

· Эксперт

3 года назад

Симпатично конечно, но это точно "захват движений" ? Больше похоже не фильтр. Пост обработку видео.

Ответить

Copycat

15k

· Падаван

3 года назад » Михаил

согласен - простой народ этим можно удивить, они таки уши развесили и "огооооо вот это прогресссс!" - но человек как я который ещё года 3 назад знал о существовании такого вот приложения, только смех вызывает такое

-1

Ответить

эмосурикат прямоползающий

16k

· Падаван

3 года назад » Михаил

ну рисованная рот открывает ни разу не синхронно, и в данном случае если это и фильтр то уж точно не простой, и скорее всего на основе нейросетей таки, потому что придумывать математическую модель подо все это долго, проще нейросеть натренировать. Ну и да, можно это назвать фильтром с нейросетью, а можно и захватом движения, ибо все таки преобразуется двигающийся человек

Ответить

Bronetazik

· Эксперт

3 года назад » Михаил

Это действительно как бы захват. Видео разбивается на отдельные картинки, потом для каждой картинки плагином ControlNet делается маска (иногда даже несколько - pose, scribble, hed, canny и т.д.) и по маскам с одним и тем же запросом и сидом генерится отдельная картинка. Потом они обратно склеиваются в видео. Засада в том, что даже с одинаковым запросом и сидом, но с разными масками результат всегда будет немножко "плавать", а каждый последующий кадр ничего не знает о предыдущем. Отсюда мерцание и скачки фона. Для дифужена уже есть какие-то наметки видео с плавным движением, но они еще в жутчайшей альфе (типа 3 секунды видео 240 на 360 пикселей), но надежда на улучшение есть :)

Ответить

Михаил

· Эксперт

3 года назад » Bronetazik

"Видео разбивается на отдельные картинки, потом....." - так это разве не пост обработка? Отдельные картинки "омультяшиваются" и на выходе склеенный мультик.
А "захват", это когда есть модель (каркас) и ты ей управляешь в онлайне.

Ответить

Saplus

· Падаван

3 года назад » Михаил

По большому счету да, фильтр. Ну видно же по волосам - просто обработанное покадрово видео. Хотя, сама штука хорошая и полезная - сделать говорящую голову из фотки, к примеру - быстро, с поворотами, мимикой итп...

Ответить

Bronetazik

· Эксперт

3 года назад » Михаил

Это не совсем постобработка :) Это генерация картинки прямо все как обычно. Конкретно в этом примере было
painting of anime girl wearing gray t-shirt and jeans shorts, long black hair, masterpiece, dynamic lights, delicate details, bright soft diffused light, low saturation, cinematic lights, Ghibli style, urban backgrounds, detailed background, sunny day
При этом модуль ControlNet переносит позу и освещение образца на эту самую сгенерированную anime girl
Т.е. хотя никакого 3d каркаса нет, а есть только генерация по маскам, но то все равно ни фига не фильтр.

-1

Ответить

Михаил Сметанкин

29k

· Гигант мысли

3 года назад » Михаил

Так любое видео состоит из кадров, и любая обработка видео всегда разбивает его на кадры, обрабатывает каждый из них и потом склеивает обратно. По другому никак.

Ответить

Андрей Кузнецов

· Эксперт

3 года назад » Михаил

Ага, особенно шнурок на правом ботинке, тоже .... захватил своё )))

Ответить

Михаил

· Эксперт

3 года назад » Андрей Кузнецов

Только шнурок? Придраться можно и к блузке, там то бантики какие то, то пуговице, на руке то браслет, то часы цвета хамелеон. И что то с косыми мышцами живота не очень натурально, но это уже совсем придирка к аниме. 8)

Ответить