允中發(fā)自凹非寺

量子位 | 公眾號 QbitAI

全身動作捕捉，現(xiàn)在無需昂貴的動捕設(shè)備，只要一個攝像頭就能輕松實現(xiàn)。

并且就在抖音上，人人都能上手體驗。

上面這段虛擬數(shù)字形象跳舞的視頻采用了抖音直播伴侶功能背后的全身驅(qū)動技術(shù)，主播僅需要單個普通攝像頭并開始跳舞，就可以實時、精準(zhǔn)地驅(qū)動虛擬形象。

相較于以往的輕量化動作捕捉，這項來自字節(jié)跳動智能創(chuàng)作團隊的全身驅(qū)動技術(shù)具有高真實性，可以體現(xiàn)空間的距離感和地面感。

并且具有更高的魯棒性，能夠在復(fù)雜的環(huán)境、穿戴等場景下實現(xiàn)良好的結(jié)果。

同時，還具備更高的還原性，人物的姿態(tài)、手勢和動作的姿態(tài)、速度都能更加準(zhǔn)確地還原。

值得一提的是，普通的慣性動捕手套在一定時間后就會產(chǎn)生漂移損耗，無法支持長時間的直播，而全身驅(qū)動技術(shù)則可以有效規(guī)避這一問題，能夠更好地適應(yīng)直播場景。

據(jù)介紹，全身驅(qū)動技術(shù)的技術(shù)方案包含了數(shù)據(jù)、估計、修正以及驅(qū)動四個步驟，具體的實現(xiàn)方案如下：

△全身驅(qū)動技術(shù)方案全流程

構(gòu)建高精度3D數(shù)據(jù)供應(yīng)鏈

技術(shù)團隊使用了混合3D數(shù)據(jù)構(gòu)建方式，其來源包括自建多目工裝動捕系統(tǒng)、2D數(shù)據(jù)、偽標(biāo)簽3D數(shù)據(jù)，基于此，團隊構(gòu)建了包含800萬以上高精3D標(biāo)簽的數(shù)據(jù)集。

為了獲取接近業(yè)務(wù)場景的高精度3D人體數(shù)據(jù)，團隊搭建了一套完整的基于多目攝像頭的無標(biāo)記物視覺動捕系統(tǒng)，并基于自研的人體重建算法，實現(xiàn)了對人體的位置，姿態(tài)和體型的準(zhǔn)確估計。

盡管在多數(shù)情況下，自動化的重建算法能夠給出精度滿足要求的重建結(jié)果，但對于一些遮擋嚴(yán)重，運動過快導(dǎo)致模糊的樣本，仍需要通過人工篩選修正的方式進行數(shù)據(jù)清洗。通過搭建3D數(shù)據(jù)篩選標(biāo)注系統(tǒng)，可以實現(xiàn)高效的半自動化數(shù)據(jù)生產(chǎn)，并通過將人工審核后的樣本用于相關(guān)模型的訓(xùn)練，持續(xù)優(yōu)化數(shù)據(jù)產(chǎn)線相關(guān)模型的性能，最終實現(xiàn)數(shù)據(jù)質(zhì)量的自舉式提升。

△高精度3D數(shù)據(jù)構(gòu)建流程

高還原性與高魯棒性的全身估計模型

據(jù)介紹，通過上述步驟，團隊積累了樣本量高達近千萬的大規(guī)模數(shù)據(jù)集。

在此基礎(chǔ)上，團隊訓(xùn)練了一個基礎(chǔ)特征表示底座進行3D-Aware的共享特征抽取，基于共享特征構(gòu)建了姿態(tài)估計分支、相機估計分支、Root點估計分支。

其中，姿態(tài)估計分支負(fù)責(zé)為表演者的關(guān)節(jié)點進行局部3D坐標(biāo)估計，相機估計分支以及Root點估計分支為當(dāng)前表演者的全局位置進行估計。

基于多分枝的估計模塊結(jié)合積累的大量自有數(shù)據(jù)，人體估計模型可以在較少的計算量下取得高還原性與高魯棒性的結(jié)果。

另外，針對全身場景下的手部姿態(tài)估計，團隊統(tǒng)計了手腕關(guān)節(jié)旋轉(zhuǎn)的先驗分布輔助模型訓(xùn)練，保證模型輸出符合人體結(jié)構(gòu)約束；設(shè)計了手腕關(guān)節(jié)的時序模型，保證手腕姿態(tài)的穩(wěn)定性；對關(guān)鍵點預(yù)測進行概率建模從而預(yù)測模型輸出的置信度進行難樣本過濾；將以上優(yōu)化點與大量的自有手部數(shù)據(jù)結(jié)合，智能創(chuàng)作團隊的手部姿態(tài)算法模型在復(fù)雜遮擋模糊場景下結(jié)果仍可有不錯的表現(xiàn)。

以下為人體在復(fù)雜遮擋服飾場景下的優(yōu)化對比。左邊為原始預(yù)測結(jié)果，右邊為異常遮擋優(yōu)化結(jié)果。

再來看看手腕在旋轉(zhuǎn)動作下的優(yōu)化對比。左邊為原始預(yù)測結(jié)果，右邊為手部姿態(tài)還原性&魯棒性優(yōu)化結(jié)果。

時空關(guān)聯(lián)建模強化魯棒性

在身體估計模塊獲取了基本的3D關(guān)節(jié)點信息后，技術(shù)團隊訓(xùn)練了時序完整性模塊對原始結(jié)果進行修正。

在時序完整性模塊中，引入關(guān)節(jié)點在時序上的關(guān)聯(lián)關(guān)系以及同時刻關(guān)節(jié)點的空間關(guān)聯(lián)關(guān)系，同時引入了關(guān)節(jié)點位置感知模塊，使得具體關(guān)節(jié)點位置可以被顯式編碼為高維向量加入訓(xùn)練。

在時序建模的基礎(chǔ)上，團隊同時設(shè)計了異常檢測模塊對分布外的姿態(tài)結(jié)果進行過濾修正。時空關(guān)聯(lián)建模的設(shè)計保證了人體估計算法可以進一步獲得高魯棒性的驅(qū)動信號。

人體在復(fù)雜遮擋服飾場景下的優(yōu)化對比（左為原始預(yù)測結(jié)果，右為時空關(guān)聯(lián)建模修正后結(jié)果）：

自研算法，實現(xiàn)高真實感驅(qū)動

在通過一些算法模型計算后，團隊獲得了精準(zhǔn)且可靠的人體關(guān)節(jié)點輸出，但這距離驅(qū)動一個活靈活現(xiàn)的虛擬人仍然還有最后幾個步驟，需要通過IK算法獲取特定虛擬角色的旋轉(zhuǎn)角以對其完成驅(qū)動。

對此，團隊自研了EasyIK算法，其可以對大臂小臂、大腿小腿等容易出現(xiàn)自旋錯誤的關(guān)節(jié)提供合理姿態(tài)。

同時，為了保證驅(qū)動虛擬角色的真實感，團隊研發(fā)了接地算法，對驅(qū)動虛擬角色的地面進行估計，并為單腳以及雙腳姿態(tài)在地面上自然姿態(tài)以及移動的距離進行估計。

EasyIK以及接地算法的引入使得虛擬人驅(qū)動可以獲得更好的真實感。

足部穩(wěn)定性優(yōu)化對比（左為原始預(yù)測結(jié)果，右為高真實感驅(qū)動效果）：

隨著虛擬數(shù)字人技術(shù)的發(fā)展和虛擬偶像的興起，虛擬數(shù)字人在游戲、虛擬社交，在線健身、在線教育、虛擬主播等領(lǐng)域都將有更加廣闊的應(yīng)用空間。更加實時、輕量化、低成本的動作捕捉技術(shù)也將成為行業(yè)的趨勢。

全身驅(qū)動技術(shù)方案能大大降低了真人驅(qū)動虛擬數(shù)字人的應(yīng)用門檻，助力打造更加趣味、沉浸式的交互體驗。

關(guān)于字節(jié)跳動智能創(chuàng)作團隊：

智能創(chuàng)作團隊通過建設(shè)領(lǐng)先的計算機視覺、音視頻編輯、特效處理等技術(shù)，支持抖音、剪映、頭條等公司內(nèi)眾多產(chǎn)品線；同時通過火山引擎為外部ToB合作伙伴提供業(yè)界前沿的智能創(chuàng)作能力與行業(yè)解決方案。

體驗抖音直播伴侶，可訪問：https://streamingtool.douyin.com/

*本文系量子位獲授權(quán)刊載，觀點僅為作者所有。

— 完 —

量子位 QbitAI · 頭條號簽約

關(guān)注我們，第一時間獲知前沿科技動態(tài)

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至 sumchina520@foxmail.com 舉報，一經(jīng)查實，本站將立刻刪除。

抖音直播助手軟件哪個好用，直播間自動互動軟件？

構(gòu)建高精度3D數(shù)據(jù)供應(yīng)鏈

高還原性與高魯棒性的全身估計模型

時空關(guān)聯(lián)建模強化魯棒性

自研算法，實現(xiàn)高真實感驅(qū)動

關(guān)于字節(jié)跳動智能創(chuàng)作團隊：

聯(lián)系我們

400-9010-860

抖音直播助手軟件哪個好用，直播間自動互動軟件？

構(gòu)建高精度3D數(shù)據(jù)供應(yīng)鏈

高還原性與高魯棒性的全身估計模型

時空關(guān)聯(lián)建模強化魯棒性

自研算法，實現(xiàn)高真實感驅(qū)動

關(guān)于字節(jié)跳動智能創(chuàng)作團隊：

相關(guān)新聞

聯(lián)系我們

400-9010-860