1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 人工智能
  4. 正文

遠(yuǎn)傳科技“數(shù)字主持人”誕生記:不是復(fù)制,而是創(chuàng)造一個(gè)新模態(tài)

 2021-05-31 14:27  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯(cuò)

  阿里云優(yōu)惠券 先領(lǐng)券再下單

遠(yuǎn)傳科技從未停止“造人”的腳步。

除了有“AI虛擬主播”之外,現(xiàn)在連“數(shù)字主持人”也來了,“數(shù)字主持人”到底是什么呢?

遠(yuǎn)傳科技的“數(shù)字主持人”是通過語音合成、唇形合成、表情合成以及深度學(xué)習(xí)等技術(shù),克隆出具備和真人主播一樣播報(bào)能力的數(shù)字人。通過語音合成技術(shù)和視頻驅(qū)動技術(shù),只需要輸入一段文本,它就能在屏幕展現(xiàn)虛擬數(shù)字人形象并進(jìn)行新聞播報(bào),且唇形動作能與播報(bào)聲音實(shí)時(shí)同步。

或許在不久的未來,你再也分不清視頻中的主持人,究竟是真人還是虛擬人,而這一天正在到來。

一、根源探究:「高逼真」的背后

遠(yuǎn)傳科技“數(shù)字主持人”以真人為原型,通過將真人形象數(shù)字化掃描技術(shù),建立超寫實(shí) 3D 數(shù)字人建模,多模態(tài)識別及生成、實(shí)時(shí)面部動作生成及驅(qū)動、遷移學(xué)習(xí)等技術(shù)「熔爐」,煉就而成。

從效果上來說,3D AI 合成主播給人的最大印象便是高逼真,它較好的還原了真人的發(fā)膚、表情;同時(shí),靈活性、可塑性更強(qiáng),擁有的豐富的面部表情動作,嘴部唇動,以及身體的輕微擺動,具備在更廣闊空間使用的潛力。

透過 3D AI 合成主播技術(shù)實(shí)現(xiàn)過程,我們探究它為何擁有如此逼真的效果。

1.數(shù)字化掃描技術(shù)還原真人形象

建立人物模型必須要有海量數(shù)據(jù),遠(yuǎn)傳科技數(shù)字化掃描技術(shù)通過攝像頭對真人原型的身體各個(gè)部位進(jìn)行全方位「打點(diǎn)」掃描,采集每一處細(xì)節(jié),并對其多種形態(tài)的面部表情動作,嘴部唇動,以及身體的輕微擺動進(jìn)行細(xì)致入微地捕捉記錄,還原真人形象。

2.深度學(xué)習(xí)算法生成3D數(shù)字人模型

遠(yuǎn)傳科技算法工程師熟練應(yīng)用深度學(xué)習(xí)算法,對算法里的大量參數(shù)進(jìn)行調(diào)優(yōu),確保生成的3D數(shù)字人模型能夠精確的還原真人在正常說話時(shí)候的唇部動作,臉部表情及微動作,對3D數(shù)字人模型進(jìn)行實(shí)時(shí)驅(qū)動、渲染,使其面部肌肉驅(qū)動、表情肢體和語言表達(dá)能力達(dá)到一個(gè)較高的度契合。確保非專業(yè)人士無法分辨出是真人拍攝的視頻還是通過數(shù)字技術(shù)合成出來的視頻。

二、核心亮點(diǎn): AI 驅(qū)動、多模態(tài)交互

1.AI 驅(qū)動的 3D 數(shù)字人

遠(yuǎn)傳科技“數(shù)字主持人”是一種由AI所驅(qū)動的虛擬存在,擁有和真人一致的音容、笑貌和言談舉止,擁有表達(dá)情感和智慧的能力。仔細(xì)觀察你會發(fā)現(xiàn), 3D AI 合成主播是基于 AI 算法實(shí)現(xiàn)驅(qū)動。

具體來說,3D “數(shù)字主持人”靠 AI 算法實(shí)時(shí)驅(qū)動,輸入一個(gè)文本就能輸出一個(gè)視頻,往往生成一個(gè) 1 分鐘的視頻,僅只需要 1 分鐘,幾乎可以看作實(shí)時(shí)生成。

2.關(guān)鍵技術(shù)賦能多模態(tài)交互創(chuàng)新

唇動算法、3D建模技術(shù)、深度學(xué)習(xí)算法、5G通信等關(guān)鍵技術(shù)探索文本、語音和視覺多模態(tài)交互創(chuàng)新的無限可能。

遠(yuǎn)傳科技利用唇動算法分析出數(shù)字人應(yīng)顯示的口型標(biāo)記,突破語言交流過程的表情和唇動的無縫鏈接;根據(jù)給定人物形象要求,建立數(shù)字人3D模型,綁定骨骼,創(chuàng)立動作動畫和口型動畫;基于深度學(xué)習(xí)算法、肢體捕捉技術(shù),將文本、音頻和圖片實(shí)時(shí)生成數(shù)字人視頻;5G通信技術(shù)則讓用戶跟數(shù)字人進(jìn)行語音視頻互動成為可能,麥克風(fēng)和攝像頭捕捉用戶的語音和動作,數(shù)字人的后端人工智能算法根據(jù)場景生成對應(yīng)的數(shù)字人交互動作、表情和語音。

三、未來已來,你準(zhǔn)備好了嗎?

遠(yuǎn)傳科技“數(shù)字主持人”雖然基于真實(shí)的人進(jìn)行建模,但呈現(xiàn)在人們面前的行為都是完全逼真的,能像真實(shí)主播一樣,去笑,去哭,去表達(dá),是被創(chuàng)造出來的一個(gè)“數(shù)字人”。

數(shù)字人的未來將會作為主體人的一個(gè)副本形式存在于數(shù)字世界中,在未來的數(shù)字世界中我們將無法分辨出真人和數(shù)字人,大量在數(shù)字世界的服務(wù)將都會由數(shù)字人來代替,在電話客戶服務(wù)、線上產(chǎn)品講解、電商直播甚至線上演唱會等眾多場景都將會有數(shù)字人的角色參與,數(shù)字化終極未來也許就是數(shù)字人的世界。

你準(zhǔn)備好接受一個(gè)數(shù)字世界了嗎?

申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

  • Figma股價(jià)熱情僅存1天,AI焦慮成關(guān)鍵隱憂?

    文/道哥美國設(shè)計(jì)軟件公司Figma近期在紐約證券交易所掛牌上市,首日即上演“狂飆”行情——發(fā)行價(jià)定每股33美元,開盤報(bào)價(jià)85美元,較發(fā)行價(jià)翻倍。首日收報(bào)115.50美元,較發(fā)行價(jià)大漲約250%,市值飆升至近670億美元,創(chuàng)下近30年來同等規(guī)模美股IPO的最大單日漲幅紀(jì)錄。然而,隨著短線資金獲利了結(jié),

    標(biāo)簽:
    ai智能
  • 人類首屆機(jī)器人運(yùn)動會:跑歪了+撞人了+打哆嗦,但我卻看到了中國智造的未來

    8月16日,盧松松非常榮幸的成為了一名《2025世界人形機(jī)器人運(yùn)動會》的觀眾。這是一場超酷的機(jī)器人運(yùn)動會,也是人類給機(jī)器人辦的第一屆奧運(yùn)會,來自16個(gè)國家的280支隊(duì)伍會參加500多個(gè)比賽項(xiàng)目??戳艘惶斓谋荣?,晚上就回來寫文章,編輯短視頻。先說感悟:(1)這是人類首次給機(jī)器人辦的第一屆運(yùn)動會,史無前

    標(biāo)簽:
    智能機(jī)器人
  • AI「帶飛」騰訊業(yè)績

    文/一燈來源/節(jié)點(diǎn)財(cái)經(jīng)在當(dāng)前無人敢缺席的AI軍備競賽中,巨頭們一面為巨額的資本支出焦慮,一面又向市場勾勒著未來的宏偉藍(lán)圖。在各家動輒千億級投入的背景下,市場迫切需要一份關(guān)于AI回報(bào)價(jià)值的有力證明。而騰訊,率先給出了答卷。8月13日,騰訊控股發(fā)布2025年第二季度財(cái)報(bào)。盡管資本開支同比劇增119%,達(dá)

    標(biāo)簽:
    ai智能
    騰訊
  • Meta用億元薪酬發(fā)起「人才狙擊」能否買來一個(gè)AI未來?

    文/二風(fēng)來源/節(jié)點(diǎn)財(cái)經(jīng)2025年的硅谷,一場沒有硝煙的戰(zhàn)爭正以前所未有的烈度上演。這場戰(zhàn)爭的核心武器不是代碼或芯片,而是人——那些全球僅有數(shù)千名、能夠構(gòu)建未來人工智能基礎(chǔ)模型的頂尖大腦。在這場激烈的人才爭奪戰(zhàn)中,Meta及其首席執(zhí)行官馬克·扎克伯格(MarkZuckerberg)正扮演著最具侵略性的

    標(biāo)簽:
    ai智能
  • 騰訊AI夢:克制的雄心

    關(guān)乎14億用戶的深刻變化

    標(biāo)簽:
    ai智能
  • 阿里媽媽、巨量引擎、騰訊廣告,誰是當(dāng)代“AI印鈔機(jī)”?

    阿里媽媽、巨量引擎、騰訊廣告,誰是當(dāng)代“AI印鈔機(jī)”?

編輯推薦