中國巴巴推全模态AI模型可處理音頻視頻及手機上用

阿里巴巴發布開源首個端到端全模態大模型Qwen2.5-Omni-7B

　　27日凌晨，中國互聯網企業阿里巴巴發布並開源首個端到端全模態大模型通義千問Qwen2.5-Omni-7B，可同時處理文本、圖像、音頻和視頻等多種輸入，並實時生成文本與自然語音合成輸出。

資料圖為北京市朝陽區望京地區的阿里巴巴集團北京總部標識。

　　據介紹，Qwen2.5-Omni以接近人類的多感官方式“立體”認知世界並與之實時交互，還能通過音視頻識別情緒，在複雜任務中進行更智能、更自然的反饋與決策。現在，開發者和企業可免費下載商用Qwen2.5-Omni，手機等終端智能硬件也可輕鬆部署運行。

　　Qwen2.5-Omni在一系列同等規模的單模態模型權威基准測試中，展現出了全球最強的全模態優異性能，其在語音理解、圖片理解、視頻理解、語音生成等領域的測評分數，均領先於專門的Audio或VL模型，且語音生成測評分數（4.51）達到了與人類持平的能力。

　　此外，Qwen2.5-Omni以7B的小尺寸讓全模態大模型在產業上的廣泛應用成為可能。即便在手機上，也能輕鬆部署和應用該模型。

　　阿里巴巴2023年9月起向公眾開放通義大模型。截至目前，海內外AI開源社區中阿里通義千問的衍生模型數量突破10萬，超越美國Llama系列模型，是公認的全球第一開源模型。

　　目前世界範圍內，OpenAI和谷歌都提供了生成式AI模型，可處理包括文本和音頻在內的不同類型輸入。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议

中國巴巴推全模态AI模型 可處理音頻視頻及手機上用 | 財經