Как выглядит захват движений в самой продвинутой нейросети
Преобразование танца человека в анимацию с помощью расширения Milti-ControlNet для нейросети Stable Diffusion. Можно отметить плавную анимацию и относительно небольшое количество глитчей и других ошибок.
Как на данный момент выглядит захват движений в нейросети Stable Diffusion через Milti-ControlNet.
Метки: #Stable Diffusion #Видео #Нейросеть #анимация #захват движений #интересно
ну вроде и круто только пупок у нее прыгает
Так это не захват движений, а простая обработка оригинального видео под рисунок и наложение мультяшного лица на оригинальное.
Или я один заметил, что девушка на оригинале и мультяшка одеты одинаково?
Захватом считалось бы, если персонаж на обработке абсолютно внешне отличался бы от оригинала и сохранил только лишь движения. Помните танцующего малыша? Вот это было сделано через захват движений.
А тут обыкновенная техника ротоскопирования. То же самое сделали с фильмом "Помутнение" 2006 года с Киану Ривзом.
вот теперь анимешки китай начнёт клипать как не всебя.
Вот ещё пример попытки сделать короткометражный мульт с помощью нейронки.
Если честно потенциал нейросетей настолько огромен, что даже мне уже страшно становится. Она развивается СЛИШКОМ быстро. Пол года назад она не умела рисовать руки на картинах, а теперь делает целые видеоролики! Уже сейчас художники бьют тревогу, а теперь вот очередь дошла и до анимационных студий.
Но руки - до сих пор проблема) Для устранения этой проблемы есть костыли, как упомянутый Control Net, и фактически все надстройки на Stable Diffusion, это костыли которые помогают ему работать лучше. Сама модель за пол года не изменилась.
Ну в целом все как у людей. При создании анимации один человек делает раскадровку, другой контуры, третий закрашивание, четвертый фоны и т.д.
Например есть даже В-тубер - Нейро-сама. Она тоже состоит из нескольких нейросетей, где одна говорит, другая играет в игры, третья отвечает за анимацию и т.д.
Но прогресс в развитии нейросетей прям совсем уж дикий.
если брать последние года 2, то да, прогресс огромный. Но видно его больше за счёт того, что сейчас нейросети стали продктом, а не научными программами в институтах
Весь научный прогресс сейчас завязан на капитализме. Те же нейросети не появились бы без смартфонов, соцсетей и интернета, благодаря которым они и учатся.
А еще вот тут вот описано как именно это делается.
https://dtf.ru/howto/1654957-sozdaem-animaciyu-s-pomoshchyu-controlnet-gaydhttps://dtf.ru/howto/1654957-sozdaem-animaciyu-s-pomoshchyu-controlnet-gayd
Но статья старая (дожили кстати - ей двух месяцев нет) и там делается с одной маской по одному фильтру, а тут сразу несколько масок по нескольким фильтрам
Извините за вопрос, а есть в принципе не самая продвинутая нейросеть? Просто, как не новость так: Самая продвинутая нейросеть сделала то, сделала сё, показала это, а потом другое...
Потому что нейросетей навалом, и каждая из них была научена по разному и для разных целей. По этому в каждой отдельной сфере есть лидеры.
конечно есть, но про них не говорят))
А и без нейросети получалось не плохо.
https://pikabu.ru/story/pochemu_prince_of_persia_sozdavalsya_4_goda_4817379https://pikabu.ru/story/pochemu_prince_of_persia_sozdavalsya_4_goda_4817379
круто че)
Пальцев не больше 5-ти.. фейк )
в половине кадров руки заретушированы, чтоб скрыть тот ужас что с пальцами творится)
Симпатично конечно, но это точно "захват движений" ? Больше похоже не фильтр. Пост обработку видео.
ну рисованная рот открывает ни разу не синхронно, и в данном случае если это и фильтр то уж точно не простой, и скорее всего на основе нейросетей таки, потому что придумывать математическую модель подо все это долго, проще нейросеть натренировать. Ну и да, можно это назвать фильтром с нейросетью, а можно и захватом движения, ибо все таки преобразуется двигающийся человек
Это действительно как бы захват. Видео разбивается на отдельные картинки, потом для каждой картинки плагином ControlNet делается маска (иногда даже несколько - pose, scribble, hed, canny и т.д.) и по маскам с одним и тем же запросом и сидом генерится отдельная картинка. Потом они обратно склеиваются в видео. Засада в том, что даже с одинаковым запросом и сидом, но с разными масками результат всегда будет немножко "плавать", а каждый последующий кадр ничего не знает о предыдущем. Отсюда мерцание и скачки фона. Для дифужена уже есть какие-то наметки видео с плавным движением, но они еще в жутчайшей альфе (типа 3 секунды видео 240 на 360 пикселей), но надежда на улучшение есть :)
"Видео разбивается на отдельные картинки, потом....." - так это разве не пост обработка? Отдельные картинки "омультяшиваются" и на выходе склеенный мультик.
А "захват", это когда есть модель (каркас) и ты ей управляешь в онлайне.
По большому счету да, фильтр. Ну видно же по волосам - просто обработанное покадрово видео. Хотя, сама штука хорошая и полезная - сделать говорящую голову из фотки, к примеру - быстро, с поворотами, мимикой итп...
Это не совсем постобработка :) Это генерация картинки прямо все как обычно. Конкретно в этом примере было
painting of anime girl wearing gray t-shirt and jeans shorts, long black hair, masterpiece, dynamic lights, delicate details, bright soft diffused light, low saturation, cinematic lights, Ghibli style, urban backgrounds, detailed background, sunny day
При этом модуль ControlNet переносит позу и освещение образца на эту самую сгенерированную anime girl
Т.е. хотя никакого 3d каркаса нет, а есть только генерация по маскам, но то все равно ни фига не фильтр.
Так любое видео состоит из кадров, и любая обработка видео всегда разбивает его на кадры, обрабатывает каждый из них и потом склеивает обратно. По другому никак.
Ага, особенно шнурок на правом ботинке, тоже .... захватил своё )))
Только шнурок? Придраться можно и к блузке, там то бантики какие то, то пуговице, на руке то браслет, то часы цвета хамелеон. И что то с косыми мышцами живота не очень натурально, но это уже совсем придирка к аниме. 8)