TurboDiffusion은 중국의 Thanh Hoa 대학교, 미국의 버클리 캘리포니아 대학교, 그리고 AI 기업 Shengshu Technology가 함께 개발한 기술입니다. 이 기술은 표준 해상도에서 5초 길이의 비디오를 생성하는 시간을 3분 이상에서 1.9초로 줄일 수 있으며(거의 100배 빨라짐), 이는 Nvidia의 소비자용 GPU인 GeForce RTX 5090에서 실험한 결과입니다. 반면, 더 전문적인 GPU를 사용하면 TurboDiffusion은 5초 길이의 HD 비디오(1280 x 720 픽셀)를 24초 만에 생성할 수 있으며, 이는 이전의 80분에서 단축된 것입니다. 즉, 이 기술은 비디오 생성 속도를 200배까지 향상시킵니다.
연구팀에 따르면, TurboDiffusion이 빠르게 작동하는 이유는 모델 훈련의 혁신, 특히 Sparse Linear Attention 메커니즘 때문입니다. 이 메커니즘은 AI 모델이 모든 데이터를 동시에 처리하는 대신 가장 중요한 부분에 집중하게 하여 처리 시간과 계산 비용을 크게 줄여줍니다. 또한, 모델의 매개변수를 압축하고 16비트 또는 32비트 대신 8비트로 작동하여 메모리 소비를 줄이고 계산 속도를 높입니다. 현재의 AI 도구들은 비디오 생성 속도가 여전히 느립니다. 예를 들어, 같은 5초 길이의 비디오를 생성하는 데 Shengshu의 AI는 3-5분이 걸리고, OpenAI의 Sora는 1분 이상 소요됩니다.
TurboDiffusion은 완전한 오픈 소스 프로젝트로, 개발자 플랫폼 GitHub를 통해 공개되었습니다. SCMP에 따르면, OpenAI의 Sora가 2024년 2월에 화제가 된 이후, 명령어 또는 이미지를 기반으로 비디오를 생성하는 도구들이 빠르게 발전하고 있습니다. TurboDiffusion의 출현은 이러한 속도의 변화가 더욱 빨라지고 있음을 보여줍니다.
분석가 Kyon Xu는 TurboDiffusion과 같은 빠른 비디오 기술이 “영화 산업에서 중요한 변화를 대표한다”고 평가했습니다. AI는 이제 영화 제작 과정에서 “병목” 현상이 아닙니다. AI Native Foundation의 대표는 “TurboDiffusion은 ‘생성할 수 있다’에서 ‘즉시 생성할 수 있다’로의 전환을 알리며, 여러 산업에서 AI를 통한 실시간 비디오 생성의 가능성을 열어준다”고 X에 작성했습니다. 이 단체에 따르면, TurboDiffusion은 기업들이 “비용을 줄이고 반복 속도를 높여 상업적 비디오를 제작하는 데 도움을 줄 것”입니다. 또한, 이 기술은 연구자들에게 빠르고 고품질의 비디오 합성을 위한 오픈 소스 기준을 제공하며, 실시간 상호작용 비디오 애플리케이션을 제공하고자 하는 개발자에게 이상적인 도구입니다.
OpenAI Sora, Google Veo, Midjourney, Runway와 같은 비디오 생성 AI의 출현은 얼굴이 드러나지 않는 비디오 트렌드를 촉발하였습니다. 통계는 아직 없지만, 많은 사람들이 Facebook, TikTok, Instagram, YouTube와 같은 소셜 미디어에서 “매일 최소 한 번 AI 비디오를 접한다”고 보고하고 있습니다. 그러나 대다수의 비디오는 급하게 제작되어 질이 떨어져, 많은 사람들이 “AI Slop”이라는 상황을 우려하고 있습니다. 이는 매우 빠르고 저렴하게 대량으로 생성되지만, 깊이가 부족하고 불쾌감을 주며 때로는 정보가 왜곡된 콘텐츠를 의미합니다.