AIToonCrafter: Generative Cartoon Interpolation

2024-06-04



영상을 생성하는 AI의 가장 큰 문제점은 이미지의 형상을 유지하며 다른 이미지를 생성하는 것이 상당히 어렵다는 점이다. 그보다 더욱 어려운 것은 두 개의 이미지 사이에 영상을 생성하면서 이미지의 형상을  유지하고  비선형적인 동작을 연결시켜 두 이미지를 영상으로 연결, 생성하는 것은 더욱 어려운 것이었다. 그러나 "ToonCrafter"는 이러한 난제를 해결했다. 

기존 방식들은 선형 운동과 폐색과 같은 복잡한 현상이 없다는 암묵적인 가정을 하기 때문에, 만화에서 흔히 볼 수 있는 과장된 비선형 운동과 큰 움직임 및 폐색을 처리하는 데 어려움을 겪었다.  이로 인해 비현실적인 결과 또는 보간 실패로 이어졌다. 

이러한 제한을 극복하기 위해 ToonCrafter는 생성적 프레임워크 내에서 실사 비디오 사전 정보를 만화 보간에 적합하도록 적용하는 가능성을 탐구하였다. ToonCrafter는 실사 비디오 모션 사전 정보를 생성적 만화 보간에 적용할 때 발생하는 어려움을 효과적으로 해결한다.

먼저, 실사 비디오 사전 정보를 만화 영역에 원활하게 적용하는 툰 정류 학습 전략을 설계하여 도메인 차이와 콘텐츠 누출 문제를 해결했다. 

다음으로, 압축된 잠재적 사전 공간으로 인한 세부 정보 손실을 보완하기 위해 이중 참조 기반 3D 디코더를 도입하여 보간 결과에서 미세한 디테일을 보존했다. 

마지막으로, 사용자가 보간 결과를 대화형으로 제어할 수 있도록 유연한 스케치 인코더를 설계하였다.

실험 결과는 제안된 방법이 시각적으로 설득력 있고 자연스러운 동작을 생성할 뿐만 아니라 폐색을 효과적으로 처리한다는 것을 보여준다. 비교 평가는 제안된 방법이 기존 경쟁 방법보다 뛰어난 성능을 보임을 입증한다.

아래 ToonCrafter를 직접 사용해 보길 바란다. 


ToonCrafter 바로 가기


One of the biggest challenges for AI that generates videos is maintaining the shape of images while creating other images. Even more difficult is generating videos between two images, preserving their shapes, and connecting them with nonlinear movements. However, "ToonCrafter" has solved these challenges.

Traditional methods implicitly assume the absence of complex phenomena such as linear motion and occlusion, making it difficult to handle exaggerated nonlinear motions and large movements, as well as occlusion commonly seen in cartoons. This often led to unrealistic results or interpolation failures.

To overcome these limitations, ToonCrafter explored the possibility of applying real-world video prior information to cartoon interpolation within a generative framework. ToonCrafter effectively addresses the challenges that arise when applying real-world video motion prior information to generative cartoon interpolation.

First, a toon rectification learning strategy was designed to seamlessly apply real-world video prior information to the cartoon domain, addressing domain differences and content leakage issues.

Next, to compensate for the loss of detail due to the compressed latent prior space, a dual-reference-based 3D decoder was introduced to preserve fine details in the interpolation results.

Finally, a flexible sketch encoder was designed to allow users to interactively control the interpolation results.

Experimental results show that the proposed method generates visually convincing and natural movements while effectively handling occlusion. Comparative evaluations demonstrate that the proposed method outperforms existing competitive methods.

Below, you can try using ToonCrafter yourself.


Go to ToonCrafter