AI 영화기술 현황과 전망
<AWS의 AI Haiku 활용 광고 지점 생성 솔루션 시연>
2024년 AI의 시장은 급격하게 커지고 있다. 스태티스타에 따르면 2024년 전세계 인공지능 시장은 한화로 약 2,392조 원을 넘어섰다. 이 수치는 2023년에 비해 약 650조 원 증가한 수치다. 이 추세대로 가면 2030년에는 약 10,738조원을 넘어설 것으로 예상된다. 또한 업계에서는 AI를 활용한 이미지, 영상 제작에 대한 다양한 실험이 전개되고 있다.
[ AI 핵심 기술 및 영상 생성 기술 ]
AI의 발전이 급속도로 빨라지면서 영화분야에서도 생성형 AI를 활용한 영화 제작의 가능성을 실험해보고 있다. 미국의 최대 방송기자재 전시박람회인 NAB에서는 2024년 AI를 활용한 영상 제작, 워크플로우 등에 대한 다양한 사례를 선보였다. 특히 영상 편집, 자막생성, 더빙 등 인간의 노동집약적인 반복작업을 자동화하는 솔루션들을 제시함으로써 향후 AI가 변화시킬 영화 제작 풍경을 기대하게 만들었다.
AI 기반 영화 제작 기술 중에 가장 기대가 큰 부분은 영상 제작이다. 프롬프트에 입력한 내용을 AI가 영상으로 제작해주는 방식인데, OpenAI의 Sora가 생성한 영상이 회자되면서 많은 기대를 모았다. 하지만 Sora, Invideo, Runway, Pica와 같은 영상 생성 AI의 약진에도, 현재 기술로는 단순 클립을 넘어 긴 호흡의 고품질 장편을 만들기 어렵다. 핵심 한계는 장면 간 캐릭터·이미지·배경의 일관성 붕괴와 품질 편차, 그리고 컴퓨팅 제약이다.
> LLM 기술과 영상 생성 기술
LLM은 딥러닝과 자연어 처리의 결합으로 발전해온 기술로 AI 기술의 핵심이다. 이 기술은 텍스트 중심에서 멀티모달(이미지·비디오·오디오)로 진화해 영상 생성의 기반이 되고 있다. 구글의 ‘Titan’처럼 메모리 효율을 강화한 후속 구조가 제시되면서, 이러한 진화는 영상 생성 분야의 확산을 가속할 전망이다.
AI의 영상 생성은 멀티모달, 디퓨전, 패치라는 세 축으로 요약된다. 멀티모달은 AI의 영상 생성 기술은 멀티모달이 핵심으로 텍스트, 이미지, 소리 등 다양한 유형의 데이터를 입력 받고, 처리할 수 있는 기술이다. 디퓨젼 모델은 무작위 노이즈에서 출발하여 점진적으로 고품질의 영상을 생성하는 방식으로 작동한다. 영상 생성 AI로 화두가 됐던 OpenAI의 Sora는 출력 프로젝터에서 디퓨전 모델을 사용한다.
패치란 인코딩과 디코딩 작업시 시각적 데이터를 분석하기 위한 효율적인 재현 데이터이면서, 토큰과 마찬가지로 데이터가 임베딩 되기 위한 최소의 데이터이다. Sora에서는 이미지, 영상과 같은 시각적 데이터를 인코딩할 때 패치 작업이 이뤄진다. 영상에서 이 패치는 가로 세로와 같은 이미지 정보 뿐만 아니라 시간 정보까지 포함하고 있다. 픽셀로 보는 일반적인 2D에서 시간 정보가 추가된 3D 구조로 처리하는 것이다.
[ 영화 제작 AI 활용 전망 ]
> AI, 인간을 대체할까?
영화산업을 비롯해 미디어 콘텐츠를 제작하는 방송, 콘텐츠 산업에서 생성형 AI는 인간이 해내던 창의적인 작품에 도전하며 새로운 창작 영역의 지평을 열었다. 2024년 AI 관련 영화제가 전 세계적으로 생겨났다. 한국의 권한슬 감독은 두바이 국제 AI 영화제에서 <원 모어 펌킴>을 발표해 대상과 관객상을 받으며, 국내는 물론 전 세계적으로 AI를 활용한 콘텐츠 제작의 마일스톤이 됐다. 반면 AI로 직업이 대체될 것이란 우려의 목소리도 있었다. AI를 상대로 한 최초의 파업이라고 불리는 2023년 미국작가조합 파업에서 이들은 AI 툴을 사용해 각본 초안을 쓰지 않도록 해달라는 요구를 했다.
현시점에서 프롬프트로 영화 수준의 퀄리티를 가진 콘텐츠를 단 몇 번의 프롬프트로 해결할 수 없다. 각 클립을 개별적으로 생성하더라도, 전체적인 일관성을 유지하는 것은 어렵기때문에 AI가 완성된 영화를 제작하려면 더 많은 기술 발전이 필요할 것으로 보인다.
Strada의 CEO Michael Cioni는 NAB에서 Utility AI라는 개념을 소개했다. Utility AI는 Generative AI, 즉 생성형 AI와 다르게 반복적이고 가치가 낮은 일을 대신 해주는 AI이다. Michael Cioni가 설명하는 Utility AI는 생성형 AI처럼 막대한 학습 비용이 발생하지 않는다.
AI가 가장 큰 영향을 미치는 부분은 ‘익숙하지만 가치가 낮은 업무’로, 이러한 과업을 우선 자동화해 생산성을 높이는 접근이 합리적이다. 익숙하지도 않고, 태스크의 가치도 낮다면 AI 효과가 적은 영역이다. 유틸리티 관점에서 AI는 창작 그 자체의 혁신을 약속하기보다, 기존 창작 과정을 더 빠르고 안정적으로 수행하도록 돕는 역할에 적합하다.
> AI가 미디어 산업에서 만들 워크플로우 혁신
1) 지식관리 시스템
도구적 관점에서 AI가 창작자의 반복 노동을 대신할 수 있는 일 중 하나는 KMS(Knowledge Management System)이다. 오늘날 조직은 지식 사일로에 갇혀 있다. 조직 내에서 팀, 부서별로 보유하는 정보가 독립되고, 고립되어 있다. 작가와 감독, 프로듀서, 미술팀, 촬영팀, 제작팀이 생산하고 관리하는 정보가 모두 고립되어 있다면 필연적으로 커뮤니 케이션 비용이 발생한다.
NAB 2024에서 AVID의 부사장이자 수석 아키텍처인 Shailendra Matuhur은 DIKW(Data, Information, Knowl edge, Wisdom)의 프레임을 소개하며, 각 부서에서 생산하는 Data와 Information이 AI를 활용해 Knowledge가 될 수 있다고 강조했다. 이 Knowledge를 인간이 활용함으로써 Wisdom으로 발전할 수 있다는 것이다. 이런 KMS를 구축하기 위해서는 Semantic, Ontology를 통해 지식을 구조화하고 LLM을 활용해 모든 창작자가 영화 제작에 필요한 정보를 확인함으로써 지식 사일로를 허물 수 있게 된다. 필요한 정보가 사일로에 갇히지 않고 모든 조직에 자유롭게 흘러가며 혁신을 만들 수 있다.
2) 로컬라이제이션으로 새로운 판로 개척
VSI는 글로벌 미디어 로컬라이제이션 회사이다. VSI의 Scott Rose는 영상 콘텐츠의 현지화 작업이 단순한 언어 번역이 아니라 문화적 맥락을 고려해 변환하는 것으로 글로벌 시장에서 미디어 콘텐츠를 통해 수익화를 실현시키는데 중요한 요소라고 말했다. 그는 AI의 출현으로 자동음성인식(ASR), TTS와 STT를 활용한 더빙, 번역이 더 쉬워지고 있다고 강조했다.
Scott Rose는 콘텐츠 가치 스펙트럼이라는 프레임워크를 통해 로컬라이제이션 AI 기술이 콘텐츠 Tier별로 구분해서 적용가능하다고 설명한다. 소셜 미디어에서 만들어지는 숏폼이나, 스포츠, 라디오와 같은 콘텐츠는 인간의 능력이나 개입이 적더라도 대량으로 생산가능한 콘텐츠이지만 정규프로그램이나 영화 콘텐츠는 인간의 적극적인 품질관리(Quility Control)가 필요하다는 것이다.
영화는 AI로만 제작하기 어려운 영역이고, 문화적 맥락을 고려해야 한다는 점에서 자동적인 로컬라이제이션이 되기 어려운 콘텐츠 영역이다. 하지만 AI를 활용한 로컬라이제이션은 앞으로도 새로운 판로를 만들기 충분하다. AI 기술은 음성을 현지언어로 바꾸는 것 이외에도 입술 싱크까지 언어에 맞춰서 변화시킬 수 있어 콘텐츠 현지화가 주목받고 있다.
3) 비용 효율적인 AI
유튜브, 넷플릭스에서 무료 구독 또는 광고 모델은 콘텐츠 중간 중간 광고가 나타난다. 광고의 삽입 지점은 콘텐츠의 몰입을 방해하지 않는 장면이어야 하는데, 이것을 찾기 위해 사람이 직접 콘텐츠를 훑어보며 그 지점을 찾았다.
AWS는 이 과정을 Haiku 모델을 활용해 해결하는 솔루션을 NAB 2024에서 소개했다. AWS에는 이런 과정을 통해 콘텐츠의 광고 삽입지점을 확인하는 솔루션에서 60분 분량의 경우 $1~$2가 소요될 것으로 예상했다. 이는 인건비와 비교했을 때도 획기적인 비용이다.
동시에 이런 솔루션 설계 자체가 시사하는 것은 AI라는 주어진 도구를 활용하는 아이디어가 중요하다는 점이다. Bedrock에서 Haiku를 요청해 텍스트만 분석하는 것이 아니라, Transcribe를 사용해 영화의 대사를 전사로 바꾸고 Haiku에서 맥락을 확인하도록 설계한다. 또 이 과정을 Rekognition을 활용해 프레임과 샷을 분석한 이미지와 결합해 정확도를 높이고 반복적인 작업을 비용효율적으로 자동화시킨다.
<Cowgirls on the Moon> 프로젝트 영상
영화 산업에서 생성형 AI가 가장 기대되는 부분은 VFX이다. VFX는 창작의 영역과 노동 반복적인 영역이 밀집해 있다. NAB2024에서 AWS는 <Cowgirls on the Moon>이라는 프로젝트를 선보이며 생성형 AI를 활용한 VFX 제작의 예시를 소개했다. 특히 주목할 부분은 버추얼 프로덕션이다. 버추얼 프로덕션은 대형 LED Wall을 오브젝트 뒤에 설치해 그린/블루 스크린을 대신해 실시간으로 배경이미지를 합성, 렌더링하여 촬영하는 기술이다. AI는 에셋 제작에 대한 솔루션을 보여주었다.
<Krea의 2D 이미지 활용 3D 객체 생성 기술>
2025년 1월 17일, Krea에서는 2D 이미지를 통해 3D 객체로 만드는 AI 기술을 공개했다. AWS가 보여준 2.5D 에셋 제작에서 한 걸음 더 나아간 것이다. AI가 다양한 2D 이미지를 학습해 이미지를 이어 붙여 3D 객체로 제작하는 것이 가능해짐으로써 가상현실, 3D 에셋, 복원과 같은 다양한 영역에서 활용될 전망이다.
<KOFIC 현안보고 2025-01 AI 영화기술 현황과 전망> 상세 보고서는 영화진흥위원회 정책연구 게시판에서 확인할 수 있습니다.
글 이윤우 영화진흥위원회 영화기술인프라팀
KOFIC 현안보고 원문 (Click)