成本降到千元級(jí)別、12小時(shí)出demo、可自行定制“數(shù)字分身”……數(shù)智人生產(chǎn)有了可批量復(fù)制的“生產(chǎn)工廠”。
(相關(guān)資料圖)
4月25日,騰訊云智能小樣本數(shù)智人生產(chǎn)平臺(tái)首次對(duì)外發(fā)布,平臺(tái)具有訓(xùn)練樣本小、生產(chǎn)效率高、自動(dòng)化生產(chǎn)等特性,可以實(shí)現(xiàn)“自助式”數(shù)智人生產(chǎn)制作。 3分鐘真人口播視頻、100句語(yǔ)音素材,平臺(tái)便可通過(guò)音頻、文本多模態(tài)數(shù)據(jù)輸入,實(shí)時(shí)建模并生成高清人像,在24小時(shí)內(nèi)制作出與真人近似的“數(shù)智人”。
以知識(shí)分享口播視頻生產(chǎn)為例,小樣本數(shù)智人可以代醫(yī)生、律師等專業(yè)人士出鏡,大大節(jié)省視頻錄制時(shí)間。
數(shù)智人的價(jià)格、生產(chǎn)周期的下降,離不開(kāi)通用模型的進(jìn)步。
曾經(jīng)訓(xùn)練每一個(gè)數(shù)智人,需要幾十小時(shí)甚至更長(zhǎng)時(shí)間的語(yǔ)料、視頻素材,而用通用模型的學(xué)習(xí),每一個(gè)新的數(shù)智人的定制,包括形象、音色等,邊際成本會(huì)有所下降,逐漸成為固定成本。同時(shí),數(shù)智人的生產(chǎn)周期也大大下降,曾經(jīng)是以月為級(jí)別,如今一天內(nèi)就能生成。
因?yàn)闃?biāo)注數(shù)智人的成本較高,騰訊在技術(shù)的構(gòu)建里,引入了自監(jiān)督機(jī)制,“讓數(shù)據(jù)自己約束自己,可以省掉很多數(shù)智人標(biāo)注時(shí)間。”
騰訊優(yōu)圖實(shí)驗(yàn)室研究總監(jiān)汪鋮杰介紹,早期做3D重建時(shí),需要自己設(shè)計(jì)一套表情,再用3D掃描,才能獲得一個(gè)3D人臉,需要花費(fèi)半個(gè)小時(shí)到一個(gè)小時(shí),一天能夠采集的人的數(shù)量有限。而采用了自監(jiān)督模式后,生成效率就會(huì)大大提高,數(shù)據(jù)量提高后,模型的表達(dá)能力也會(huì)提升。再通過(guò)自監(jiān)督學(xué)習(xí)的方式,去消化大量數(shù)據(jù),構(gòu)成預(yù)訓(xùn)練模型。另外,生成模塊中,3D重建渲染出來(lái)變成自然圖像,最后也會(huì)以自監(jiān)督學(xué)習(xí)的模式變成自己學(xué)習(xí),達(dá)到消化大數(shù)據(jù),通用預(yù)訓(xùn)練模型的效果。
另一個(gè)降低成本的方式是提高自動(dòng)化生產(chǎn)能力。比如,原來(lái)一個(gè)人有50-200多個(gè)表情,挨個(gè)制作較為麻煩,現(xiàn)在重建算法,自動(dòng)去生成標(biāo)準(zhǔn),就能加快整個(gè)制作過(guò)程。
“小樣本數(shù)智人,看到的小,但是背后是大,是基于自監(jiān)督技術(shù),構(gòu)建大的數(shù)據(jù)、大的模型。現(xiàn)在是3分鐘,可能過(guò)幾個(gè)月變成1分鐘了,大模型持續(xù)去消化更多的數(shù)據(jù),模型會(huì)變得更大。”汪鋮杰說(shuō)。
目前,“數(shù)智人工廠”大多還是面向企業(yè)端用戶、特殊名人定制等方向,由于個(gè)人投入的商業(yè)模式較為模糊,出于算力成本、制作成本等考慮,開(kāi)放時(shí)間未明。
“(C端個(gè)人用戶)整體的落地,一個(gè)是時(shí)間成本,一個(gè)是金錢(qián)成本,還有一個(gè)是穩(wěn)定性,這三個(gè)如果都解決了,對(duì)于個(gè)人來(lái)說(shuō)做自己的數(shù)智分身都是觸手可及的。我們會(huì)變成自助式的,客戶可以自己開(kāi)賬號(hào),下單,購(gòu)買,上傳素材,自己訓(xùn)練,確認(rèn)效果好不好,后續(xù)就是一站式的,自己獨(dú)立式的生成。”騰訊云智能數(shù)智人產(chǎn)品總經(jīng)理陳磊說(shuō)。
撰文 | 趙子坤
編輯 | 董雨晴