AI최신 이미지, 영상 생성 AI 툴을 소개합니다!

2024-08-09

요즘 들어 AI 툴들의 성능 약진이 두드러지고 있다. 

특히 이미지 생성이나 영상 생성 쪽의 AI은 한 달이 채 멀다 하고 새로운 AI 툴들이 등장하고 있다. 

이에 요즘 내가 잘 쓰고 있는 툴들을 한번 소개해 볼까 한다.


1. 이미지 생성 툴

 

1) 최고의 이미지 생성 툴 "미드저니"


내가 가장 사랑하는 내가 생성한 그림 중 하나


이미 너무 많이 알려져서 소개를 하지 않는게 좋을까 했지만 워낙 많이 쓰고 있는 툴이고 성능도 좋으니 소개를 한다. 

미드저니 홈페이지 바로 가기

더 이상 말할 게 없다. 이미지 생성 AI 중 탑티어급이고 이미지 생성 툴 중에 스테이블 디퓨전과 더불어 글로벌 유저들이 가장 많이 사용하고 있는 AI이다. 

사진과 같은 이미지 생성부터 일본 만화와 같은 에니메 이미지, 판화, 수묵화, 유화, 수채화 등등 다양한 형식의 그림, 표현 들을 모두 소화할 수 있다.


미드저니 홈페이지 화면


내가 만들어낸 이미지들


나의 사랑스러운 집 이미지들


나는 미드저니로 이 전에는 하고 싶어도 시간문제와 나의 능력상 문제로 할 수 없었던 미술 창작활동을 미드저니로 소소하게 시작했다. 

여러분들도 미드저니를 활용하여 창작활동을 해보시기 바란다!


2) 미드저니의 대적할 이미지 생성 툴 "FLUX.1" 


FLUX.1을 만든 https://blackforestlabs.ai 의 홈페이지 이미지


FLUX.1은 현실을 보다 잘 이해하고 인체의 골격과 구조, 사물의 물리적인 현상, 빛에 대한 이해, 이미지 속의 Text의 정확도 등 다른 어떠한 AI 이미지보다 뛰어난 이미지를 만들 수 있다고 한다. 

FLUX.1에서 생성한 사람 눈 이미지

현재 FLUX.1 은 허깅페이스에서 사용 가능하다. 

허깅페이스 FLUX.1 바로 가기


이 FLUX.1의 진짜 강점은 다른데 있다. 다른 이미지 생성 툴보다 훨씬 적은 파라미터(12B)를 사용했어도 미드저니급의 이미지를 생성할 수 있으며, 사용자의 컴퓨터에 다운로드받아 사용자의 컴퓨터 리소스만으로도 사용 가능하다는 것이다. 즉 에지 AI로 사용 가능하다는 말이며, 이  FLUX.1은 오픈소스여서 나의 상용서비스에 이  FLUX.1을 사용할 수 있다는 점이다.

이미지를 생성하는데 여타 AI보다 리소스가 적게 들기 때문에 FLUX.1 API를 활용하여 저사양 GPU의 클라우드 서버에서도 충분히 서비스가 가능하다는 말이다. 

FLUX.1 은 현재 3가지 버전으로 출시되었다. FLUX.1 [pro], FLUX.1 [dev], FLUX.1 [schnell] 이다.


이미지 내 정확한 텍스트 생성


FLUX.1 [pro] : 최고의 성능과 품질을 제공

FLUX.1 [pro]는 FLUX.1 시리즈 중 가장 뛰어난 성능을 자랑하는 모델로, 최첨단 이미지 생성 기술을 제공한다. 이 모델은 탁월한 프롬프트 이행 능력, 시각적 품질, 이미지 세부 묘사 및 출력 다양성에서 최고 수준을 자랑한다. 현재 블랙포레스트랩스는 FLUX.1 [pro]의 API 내 추론 컴퓨팅을 점진적으로 확장하고 있다.


FLUX.1 [dev]: 비상업적 용도의 효율적인 선택

FLUX.1 [dev]는 비상업적 용도에 최적화된 오픈 웨이트, 가이던스 증류 모델로, FLUX.1 [pro]에서 직접 증류된 버전이다. FLUX.1 [dev]는 유사한 품질과 프롬프트 이행 능력을 제공하면서도, 동일한 크기의 표준 모델보다 더 높은 효율성을 자랑한다. 이 모델의 가중치는 Hugging Face에서 다운로드할 수 있다.


FLUX.1 [schnell]: 개인 사용자를 위한 최적의 선택

FLUX.1 [schnell]은 FLUX.1 시리즈 중 가장 빠른 모델로, 로컬 개발 및 개인 사용에 최적화되었다. 이 모델은 Apache 2.0 라이선스 하에 공개되며, FLUX.1 [dev]와 유사하게 Hugging Face에서 가중치를 다운로드할 수 있고, 추론 코드는 GitHub에서 확인할 수 있다.



2. 영상 생성 툴 


1) Kling AI

일단 '대단하다!"라는 말을 해주고 싶다. OpenAI사의 "SORA"라 나오기 전 영상 생성 AI의 최고는 Kling AI라고 생각한다. 

생성된 이미지의 일관성 유지, 자연스런 움직임, 물리적 이해 등은 타 영상 생성 AI들의 성능을 압도한다. 


Kling AI 홈페이지 바로 가기 



Kling AI는 Kuaishou AI 팀이 개발한 텍스트 기반 비디오 생성 모델로, 텍스트 입력을 고품질의 비디오 콘텐츠로 변환할 수 있도록 설계되었다. 


아래는 Kling AI의 주요 특징이다.


비디오 생성 능력

Kling AI는 1080p 해상도와 30fps 프레임 속도의 영화급 비디오를 생성할 수 있다. 최대 2분 길이의 비디오를 지원하며, 다양한 비율의 비디오를 생성할 수 있어 여러 플랫폼에 유연하게 대응할 수 있다.


고급 AI 기술

이 모델은 3D 시공간 결합 주의 메커니즘(3D spatiotemporal joint attention mechanism)을 사용하여 복잡한 동작을 모델링하고 비디오에서 실제 물리적 특성을 시뮬레이션할 수 있다. 이로 인해 생성된 콘텐츠가 시각적으로 현실적이고 몰입감 있게 느껴진다.


개념 시각화

Kling AI는 복잡한 개념을 결합하여 현실의 한계를 뛰어넘는 독창적이고 상상력이 풍부한 시나리오를 만드는 데 뛰어나다. 텍스트에서 비디오로의 의미를 깊이 이해하고 Diffusion Transformer 아키텍처를 사용하여 이러한 목표를 달성한다.


아래는 Kling AI로 내가 만들어 본 영상이다. 


자연스럽게 바람에 흩날리는 머리카락이 보이는가? 

사람이 포커스가 되어 배경이 흐릿해지는 카메라에 대한 이해와 저녁 햇살이 얼굴 한쪽에 비추는 광학적 요소들도 모두 자연스럽다. 


또한 이 영상 생성 툴을 무료로 사용해 볼 수 있으니 여러분도 한 번 영상의 세계에 빠져보시길 바란다. 


2) LivePortrait

이 AI 영상 생성 툴은 사람의 표정을 따라하는 이미지를 만드는 AI 툴이다. 

여러분들도 꼭 한번 해보시길 바란다. 정말 재미있다. 

 LivePortrait 바로 가기 


생성한 영상 1



생성된 영상 2



LivePortrait의 주요 특징은 다음과 같다. 


기능

LivePortrait는 동영상에서 눈과 입 등의 움직임을 포착하여 정적 사진에 적용함으로써 정적인 이미지를 현실감 있는 동적 초상화로 변환한다. 이 과정에서는 얼굴 특징을 움직이게 하여 사진에 생명을 불어넣는다.


기술

이 도구는 효율적이고 정확한 애니메이션을 보장하는 "암묵적 키포인트 프레임워크(implicit keypoint framework)"를 사용하여, 확산 모델(diffusion models)보다 더 나은 시간적 일관성을 제공한다. 이를 통해 최소한의 계산 자원으로 고품질의 비디오를 생성할 수 있다.


응용

LivePortrait는 자연스러운 얼굴 움직임을 가진 애니메이션 초상화를 제작하는 데 유용하며, 정적 이미지를 생동감 있게 만들고자 하는 AI 아티스트와 콘텐츠 제작자에게 매우 가치 있는 도구이다.



내가 알려드린 AI 툴로 여러분들도 고품질의 이미지 및 영상을 꼭 만들어 보았으면 한다. 








 



(광고) 미국 현지의 넷플릭스 방송을 보고 싶다면? NordVPN를 사용하세요!