生數科技和清華大學在中關村論壇未來人工智能先鋒論壇上正式發布了中國首個長時長、高一致性、高動態性視頻大模型 Vidu。Vidu 是自 Sora 發布之後,全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,並在加速迭代提升中。
Vidu 的核心技術
Vidu 模型採用團隊原創的 Diffusion 與 Transformer 融合的架構 U-ViT,支持一鍵生成長達 16 秒、分辨率高達 1080P 的高清視頻內容。Vidu 不僅能夠模擬真實物理世界,還擁有豐富想象力,具備多鏡頭生成、時空一致性高等特點。
U-ViT 架構由團隊於 2022 年 9 月提出,早於 Sora 採用的 DiT 架構,是全球首個 Diffusion 與 Transformer 融合的架構。2023 年 3 月,團隊開源了全球首個基於 U-ViT 融合架構的多模態擴散模型 UniDiffuser,率先完成了 U-ViT 架構的大規模可擴展性驗證。
Vidu 的快速突破
Vidu 的快速突破源自於團隊在貝葉斯機器學習和多模態大模型的長期積累和多項原創性成果。基於對 U-ViT 架構的深入理解以及長期積累的工程與數據經驗,團隊在短短兩個月內進一步突破了長視頻表示與處理的多項關鍵技術,研發了 Vidu 視頻大模型,顯著提升視頻的連貫性和動態性。
Vidu 的意義
Vidu 的問世,不僅是 U-ViT 融合架構在大規模視覺任務中的又一次成功驗證,也代表了生數科技在多模態原生大模型領域的持續創新能力和領先性。作為通用視覺模型,Vidu 能夠支持生成更加多樣化、更長時長的視頻內容,同時面向未來,靈活架構將能夠兼容更廣泛的模態,進一步拓展多模態通用能力的邊界。
在發佈之際,生數科技特別推出了 Vidu 大模型合作伙伴計劃,誠邀產業鏈上下游企業、研究機構加入,共同構建合作生態,為開啓通用視覺技術的全新紀元而共同努力!
小編總結
Vidu 是一個革命性的視頻大模型,它的發布將帶來更多創新的應用和應用場景。我們期待看到 Vidu 在未來的發展和應用,並期待更多創新的技術和應用的出現。
OpenAI Sora再不推出,都要被其它家超越啦~
重點整理:
- Vidu 是中國首個長時長、高一致性、高動態性視頻大模型
- Vidu 採用團隊原創的 Diffusion 與 Transformer 融合的架構 U-ViT
- Vidu 能夠支持一鍵生成長達 16 秒、分辨率高達 1080P 的高清視頻內容
- Vidu 的快速突破源自於團隊在貝葉斯機器學習和多模態大模型的長期積累和多項原創性成果
- Vidu 的問世,不僅是 U-ViT 融合架構在大規模視覺任務中的又一次成功驗證,也代表了生數科技在多模態原生大模型領域的持續創新能力和領先性
- 生數科技特別推出了 Vidu 大模型合作伙伴計劃,誠邀產業鏈上下游企業、研究機構加入,共同構建合作生態,為開啓通用視覺技術的全新紀元而共同努力!