中國元象推出創新多模態大模型 XVERSE-V，引領圖像理解新時代

中國元象最新研發的多模態大模型 XVERSE-V 正式開源，在權威大模型排行榜上名列前茅，更成為第一個支持任意寬高比圖像輸入的大模型，將圖像理解技術提升至全新境界。

傳統多模態模型僅能提取圖像的整體表示，而 XVERSE-V 採用創新策略，融合整體和局部資訊，支持任意寬高比圖像輸入。此舉打破了先前的侷限，使模型能夠同時掌握圖像的概覽與細節特徵，大幅提升了圖像辨識和理解的精準度。

XVERSE-V 的強大功能不僅體現在基礎能力，更延伸至實際應用場景。模型具備豐富的領域知識，可協助理解複雜圖表、分析文獻、協助視障人士應對日常挑戰，甚至具備生成式文本、代碼撰寫等創造性任務的能力。

在開源領域，元象持續引領國內發展。XVERSE-V 補足了國產開源大模型的空白，並達到國際領先水準。這項技術不僅為中小企業、研究人員和開發人員提供強大的工具，更推動了人工智能技術的普惠性和創新性。

以真實視障場景為例，XVERSE-V 在 VizWiz 測試集中的出色表現令人印象深刻。該測試集包含逾 31,000 個視障用戶提出的視覺問題，涵蓋日常生活中的瑣碎細微之處。XVERSE-V 的表現優於多數主流開源大模型，可有效協助視障人士克服視覺挑戰。

圖文多模態大模型的發展是人工智能邁向通用智能 (AGI) 的重要里程碑。元象發布的 XVERSE-V 突破了技術瓶頸，提升了模型的感知力、認知能力和創造性。相信在不久的將來，人工智能將能更全面地理解世界，並為人類生活帶來更多便利和突破。

歡迎讀者關注我們的網站和社群，獲取更多關於人工智能、大模型和創新科技的最新資訊。

已發佈

2024 年 4 月 29 日

分類:

作者:

科技編輯 – 小易

標籤:


技術支持：Aidec  
友情贊助：好易選 YiChoose 

本站資訊由AI小艾助手整理