"AI로 글도 쓰고 이미지도 그렸으니, 영상도 자동으로 뚝딱 만들 수 있겠지?"
이 생각으로 AI 영상 생성 툴을 처음 돌렸을 때, 저는 신세계를 보았습니다. 다만, 제가 원하던 아름다운 신세계가 아니라 기괴하고 황당한 물리 법칙 파괴의 세계였습니다.
1인 기업 자동화 파이프라인의 완성 단계인 '영상 자동 생성'은 저에게 가장 큰 실패와 배움을 안겨준 장벽이었습니다.

눈으로 보고도 믿기 힘든 물리 법칙 파괴와 오류들
텍스트만 입력하면 영상을 만들어 준다는 최신 AI 비디오 엔진에 프롬프트를 입력해 보았습니다.
"하얀 고양이 요리사 쁘디가 주방에서 요리를 시작한다."
기대를 가득 안고 렌더링 결과를 재생한 순간, 저는 헛웃음을 지을 수밖에 없었습니다. 극적이고 화려한 영상 대신 주방 정보와 물리 법칙이 뒤죽박죽 섞인 엉뚱한 결과물들이 나왔기 때문입니다.
- 제멋대로 바뀌는 주방 환경: 요리를 하는 도중에 싱크대나 가스레인지의 위치가 갑자기 좌우로 바뀌어 버리거나, 방금 전까지 평범한 벽이었던 곳에 뜬금없이 새로운 가스레인지가 새로 생겨나기도 했습니다. 공간의 일관성이 완전히 무너진 것입니다.
- 도구를 구분 못 하는 AI의 엉뚱한 행동: 스파게티 면을 볶는 장면에 뜬금없이 프라이팬용 뒤집개를 들고 냄비를 휘젓는 등, 기본적인 요리 도구 사용 상식에 맞지 않는 기이한 묘사들이 들어갔습니다.
- 중력을 거스르는 공중 부양: 주방 바닥을 자연스럽게 딛고 걸어가야 할 쁘디 캐릭터가, 마치 우주선 안인 것처럼 스르륵 공중으로 떠서 기이하게 이동하는 모션이 발생했습니다.
- 1초마다 얼굴이 바뀌는 주인공: 가장 치명적인 것은 주인공의 '얼굴 일관성'이었습니다. 쇼츠 영상 30초 동안 쁘디가 요리하는 장면이 이어져야 하는데, 컷이 바뀔 때마다 쁘디의 얼굴이 달라졌습니다. 방금 전까지 귀여운 아기 고양이였다가, 다음 컷에서는 눈 색깔이 달라지거나 갑자기 사나운 어른 고양이의 모습으로 변했습니다.
AI 비디오는 매 프레임을 실시간으로 상상해서 그려내기 때문에, 프레임이 넘어갈 때마다 사물의 형태와 물리 법칙을 유지하지 못하고 마구 뒤틀렸습니다.
수백 번 렌더링을 돌려 돈을 낭비하느냐, 아니면 다른 길을 찾느냐의 기로에 섰습니다.
해답은 정적인 프레임 고정 (I2V 기법)
편법 대신 안정적인 결과물을 뽑기 위해 영상 제작 파이프라인의 핵심 전략을 완전히 수정했습니다.
텍스트를 기반으로 영상을 무에서 유로 만들어내는 'Text-to-Video' 방식을 전면 중단했습니다. 대신, 이미 검증된 고화질 캐릭터 이미지(ppedi.png)를 첫 프레임으로 입력하고 미세한 움직임만 주도록 명령하는 'Image-to-Video (I2V)' 방식으로 바꿨습니다.
- 첫 프레임 이미지 고정: 완벽하게 그려진 쁘디의 정면 샷을 기본 뼈대로 주어, AI가 고양이 얼굴 형태와 앞치마의 글자를 마음대로 바꾸지 못하게 고정했습니다.
- 미세 애니메이션 컨트롤: 강한 움직임 대신 "숨을 쉬며 눈을 깜빡이고, 카메라가 부드럽게 줌인된다" 정도로 모션을 극도로 제한했습니다.
- 립싱크와 바디 모션의 분리: 말하는 입 모양은 D-ID 같은 특화 엔진에 일임하고, 전체 영상의 흐름은 2.5D 슬라이드쇼 기법을 결합하여 통제했습니다.

작동하는 파이프라인이 예술보다 중요합니다
I2V 기법과 2.5D 모션 렌더링을 도입한 뒤로, 쁘디 캐릭터는 더 이상 영상 속에서 기괴하게 괴물로 변하지 않게 되었습니다. 비록 화려하게 이리저리 뛰어다니며 요리하는 헐리우드급 애니메이션은 아니지만, 정보 전달용 쇼츠 비디오로서 아주 훌륭하고 일정한 비주얼 퀄리티를 유지할 수 있게 되었습니다.
AI 자동화 채널을 운영할 때 가장 중요한 기준은 '안정적으로 예측 가능하게 동작하는가'입니다.
매번 결과물이 랜덤하게 바뀌어 사람이 일일이 감시하고 다시 렌더링해야 하는 시스템은 자동화의 가치가 없습니다. 한계를 깔끔하게 인정하고, 안정적으로 굴릴 수 있는 고정형 구조를 짜는 것이 1인 기업가에게 훨씬 이롭습니다.
배운 것 하나
무조건 최첨단 기능이라고 해서 내 비즈니스에 억지로 끼워 맞출 필요는 없습니다.
Text-to-Video가 아무리 화제라 한들, 결과물의 90%가 에러라면 과감히 버려야 합니다. 고정된 고화질 이미지에 약간의 카메라 워킹과 립싱크 엔진을 얹는 '반자동 하이브리드' 방식이야말로 가장 효율적인 수익화의 열쇠였습니다.
다음 편에서는 이렇게 준비한 이미지와 음성을 자동으로 병합하고, 자막 파일(.srt)까지 한 번에 입혀 완성해 주는 '파이썬 기반 세로형 쇼츠 비디오 렌더링 자동화 시스템(make_shorts.py)' 구축 방법을 다뤄보겠습니다.
'AI 콘텐츠 자동화' 카테고리의 다른 글
| AI 고양이 캐릭터 쁘디 제작 실패기 (0) | 2026.05.27 |
|---|