블렌드쉐입 기술은 컴퓨터 얼굴 애니메이션에 있어서 효과적인 도구이다. 시각 효과(VFX) 산업에서 모든 캐릭터들은 다양한 얼굴 표정들을 담기 위해서는 자신만의 고유한 블렌드쉐입을 필요로 한다. 이 분야의 놀라운 발전에도 불구하고 기존 기술들은 여전히 전문적인 아티스트의 직관과 복잡한 장치를 필요로 한다. 이 논문은 뛰어난 아티스트들의 도움 없이 실시간 얼굴 애니메이션을 위한 개인화된 블렌드쉐입을 생성하는 새로운 프레임워크(framework)를 소개한다. 제시된 방법은 주로 세 단계로 이루어지는데 이는 얼굴 캡쳐, 블렌드쉐입 최적화, 그리고 얼굴 리타게팅이다. 실시간 캡쳐와 애니메이션을 위해 얼굴의 기하학적 정보는 누구나 쉽게 접근할 수 있는 간단한 장치에 의해 캡쳐된다. 캡쳐 과정동안 견본 블렌드쉐입과 캡쳐된 계수의 선형 조합으로부터 견본 모델이 생성된다. 견본 모델은 어떠한 개인적 특징을 반영하지 않는 일반적인 얼굴만을 제공하여 얼굴 애니메이션에서 몇몇 세세한 특징들을 놓치는 결과를 낳는다. 블렌드쉐입 최적화는 두 가지 방법에 의해 행해지는데 이는 블렌드쉐입 생성과 블렌드쉐입 증대이다. 캡쳐된 기하학적 정보는 얼굴의 세세한 특징들을 캡쳐하기 위해 블렌드쉐입을 자동으로 생성하는데 사용된다. 이 연구에서 두 가지 방법을 시도해보았다. 두 방법은 선형 회귀와 오토인코더이다 [15]. 우리의 실험에서 선형 회귀를 이용한 얼굴 생성은 오토인코더를 이용한 것보다 훨씬 뛰어난 결과를 보인다. 캡쳐된 표정과 재생성된 얼굴 애니메이션에서의 오차를 최소화하기 위해 추가된 블렌드쉐입은 생성된 블렌드쉐입을 향상시킨다. 이 논문은 입 움직임과 관련된 기존의 블렌드쉐입이 부족하기에 이러한 오차가 발생한다고 가정한다. 입 움직임을 세세하게 캡쳐하고 표정 전이에 있어서 발생하는 오류를 최소화하기 위해 블렌드쉐입을 점진적으로 추가함으로써 블렌드쉐입을 향상시킨다. 마지막으로 캡쳐된 타깃(target)의 가중치는 향상된 블렌드쉐입에 대응되도록 선형시스템을 기본으로 한 두 가지 해결방법들로 변환된다. 타깃의 개인화된 블렌드쉐입과 가중치를 이용하여 두 종류의 소스(source)는 얼굴 애니메이션을 시연하기 위해 견본 모델과 타깃에 매핑(mapping)된다. 본 논문의 주된 기여점은 간단한 카메라로부터 얻은 얼굴 데이터로부터 각 개인에 최적화된 블렌드 쉐입을 생성하는 것과 아티스트들의 어떠한 도움 없이 점진적으로 블렌드쉐입을 추가하며 블렌드쉐입을 최적화한 것이다. 뿐만 아니라, 생성된 타킷의 개인화된 블렌드쉐입을 통해 추가적인 수작업이나 소스의 블렌드쉐입을 생성하지 않고 소스의 특징들 중 특히 입의 특징을 보존한 얼굴 애니메이션이 실시간으로 실행된다.
Blendshape technique is an effective tool in the computer facial animation. Every character requires its own unique blendshapes to cover numerous facial expressions in the Visual Effects (VFX) industry. Despite outstanding advances in this area, existing techniques still need a professional artist’s intuition and complex hardware. This thesis introduces a novel framework to generate personalized blendshapes for real-time facial animation without assistance of skillful artists. The suggested method primarily consists of three stages: face capture, blendshape optimization, and facial retargeting. For real-time capture and animation, facial geometric information is captured by a simple device that provides easy excess to anyone. During capturing process, the template model is driven from the linear combination of template blendshapes and captured coefficients. It only offers a standard face which does not reflect any personal features, resulting in facial animation where some details are missing. Blendshape optimization is implemented by taking two steps: blendshape generation and blendshape augmentation. The captured geometry is used to generate blendshapes automatically to capture facial details. In this research, we have tested two methods: linear regression and an autoencoder [15]. In our experiment, face construction with the former outperforms that of the later method. Generated blendshapes are enhanced with additional blendshapes to minimize errors between the captured expressions and the recreated facial animation. We have assumed that errors come from the lack of existing blendshapes which are related to mouth movements. By adding a blendshape incrementally, we improve blendshapes to capture mouth motion in detail and minimize erroneous expression transfer.Finally, captured target weights are transformed to correspond to updated blendshapes with two linear system-based solutions. Given the target’s customized blendshapes and weights, two types of sources are mapped to the template model and the target to demonstrate facial animation. The main contributions of this thesis include individually optimized blendshape generation from face datasets acquired from a simple camera and blendshape optimization by adding a blendshape incrementally without any assistance of artists. Furthermore, given created the target’s localized blendshapes, real-time facial retargeting is performed while preserving source’s features, especially the mouth, without additional manual editing or sculpting source blendshapes.