AI生成視頻用文字難以描述需求，如何破？

2025-04-15 19:39:45 中新經(jīng)緯

　　中新經(jīng)緯4月15日電 (常濤)用戶在用AI工具生成圖片尤其是視頻時，普遍會遇到用文字難以描述的情況。

　　快手高級副總裁、社區(qū)科學(xué)線負(fù)責(zé)人蓋坤15日在北京表示，AI在輔助創(chuàng)意表達(dá)上擁有巨大潛力，但當(dāng)前的行業(yè)發(fā)展現(xiàn)狀還遠(yuǎn)遠(yuǎn)無法滿足用戶需求，在AI生成內(nèi)容的穩(wěn)定性以及用戶復(fù)雜創(chuàng)意的精確傳達(dá)上仍有“很多挑戰(zhàn)”。

　　“大家應(yīng)該很自然地會感受到文字在表達(dá)影像信息時，是不完備的。我們需要有新的方式，能讓人真正精準(zhǔn)地表達(dá)出心中所想�！鄙w坤說。

　　當(dāng)日，快手發(fā)布可靈AI全新2.0模型，包括可靈2.0視頻生成模型及可圖2.0圖像生成模型。其中，在本次2.0模型的迭代中，可靈AI發(fā)布AI視頻生成的全新交互理念Multi-modal Visual Language(MVL)，讓用戶能夠結(jié)合圖像參考、視頻片段等多模態(tài)信息，將腦海中包含身份、外觀、風(fēng)格、場景、動作、表情、運鏡在內(nèi)的多維度復(fù)雜創(chuàng)意，直接高效地傳達(dá)給AI。

　　蓋坤介紹，MVL由TXT(Pure Text，語義骨架)和MMW(Multi-modal-document as a Word，多模態(tài)描述子)組成，能從視頻生成設(shè)定的基礎(chǔ)方向以及精細(xì)控制這兩個層面，精準(zhǔn)實現(xiàn)AI創(chuàng)作者們的創(chuàng)意表達(dá)。

　　基于MVL理念，可靈AI推出多模態(tài)編輯功能�！坝脩艨梢栽诳伸`AI的平臺上體驗多模態(tài)編輯能力。用戶可以非常直接地把自己的想法用圖像等方式作為輸入，生成符合自己想法的創(chuàng)意視頻�！鄙w坤介紹，MMW將不只局限于圖片和視頻，也可以引入其他模態(tài)的信息，例如聲音、運動軌跡等，讓用戶實現(xiàn)更加豐富的表達(dá)。

　　快手副總裁、可靈AI負(fù)責(zé)人張迪介紹，當(dāng)前，圖生視頻約占到可靈AI視頻創(chuàng)作量的85%，圖片質(zhì)量也對視頻的生成效果產(chǎn)生重要作用。

　　據(jù)快手方面介紹，截至目前，可靈AI全球用戶規(guī)模已突破2200萬，累計生成1.68億個視頻及3.44億張圖片素材。自2024年6月上線至今的10個月時間里，可靈AI已累計完成超20次迭代，月活用戶數(shù)量增長25倍。

　　(更多報道線索，請聯(lián)系本文作者常濤：changtao@chinanews.com.cn)(中新經(jīng)緯APP)

　　中新經(jīng)緯版權(quán)所有，未經(jīng)書面授權(quán)，任何單位及個人不得轉(zhuǎn)載、摘編或以其他方式使用。

責(zé)任編輯：魏薇李中元

來源：中新經(jīng)緯

編輯：陳俊明

廣告等商務(wù)合作，請點擊這里

未經(jīng)過正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文，侵權(quán)必究

中新經(jīng)緯版權(quán)所有，未經(jīng)書面授權(quán)，任何單位及個人不得轉(zhuǎn)載、摘編或以其它方式使用。

關(guān)注中新經(jīng)緯微信公眾號(微信搜索“中新經(jīng)緯”或“jwview”)，看更多精彩財經(jīng)資訊。

今日推薦