阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-13
华安基金:A股持续上攻,创业板50指数涨0.47% 朗源股份再次递交立案,两类投资者还可加入 龙国电动车赢得尼泊尔市场青睐,占据主导地位官方处理结果 华南城将被清盘!第三大股东腾讯23亿投资打水漂后续来了 南京银行,股权再生变动专家已经证实 周永:希望能够做创造万物的机器人 债加一点 探寻稳健更优解记者时时跟进 A股罕见!3500亿龙头,强势涨停! 东吴证券保荐无锡鼎邦IPO项目质量评级B级 实际募集金额缩水 上市首年营收净利润双降 英国研究显示人类与自然的联结度220年来下降超60% 陕建股份:7月中标重大施工项目3个 合计中标额21.65亿元 东方时尚成立新公司,曾被监管处罚维权征集中是真的吗? 收评:港股恒指涨0.25% 科指跌0.38% 半导体板块大涨 永杰新材:上半年归母净利润1.86亿元,同比增长13.62% 江城夜话 数智驱动:烽火通信与行业共话AI赋能企业新图景实测是真的 申万菱信基金贾成东被指言行不一,路演中说要买高股息股,结果却去追涨停的宠物股,导致亏损不断扩大实时报道 日股新高背后:汇率与利率预期“双杀”下的估值陷阱?官方已经证实 频上负面热搜的亚朵传赴港上市,能否挽回消费者信任危机?官方处理结果 沪指“七连阳”!何时突破3674点关口? Myomo上调2025年营收增长目标学习了 欧佩克月报:OPEC+国家7月增产30.8万桶/日又一个里程碑 里士满联储的巴金:消费者将是未来通胀和就业数据的关键 千亿市值“油茅” 净利大增后续来了 柯达公布5亿美元养老金资产返还计划官方通报 贵州茅台 上半年“成绩单”来了! 美国消费者物价指数数据温和,金价从日低回升后续会怎么发展 贵州茅台 上半年“成绩单”来了!学习了 沪指“七连阳”!何时突破3674点关口? 2220亿险资加速布局A股!保险系私募再添新军 通胀数据发布后 特朗普威胁推进对鲍威尔的“重大诉讼” 进一步施压降息最新进展 史密斯菲尔德上调全年业绩预期,因生猪业务恢复盈利后续会怎么发展 报道:特朗普政府扩大美联储老大鲍威尔替代人选范围实时报道 特朗普威胁美联储老大鲍威尔 将就总部翻修费用提起“重大诉讼”学习了 韩国前第一夫人金建希被拘押 Myomo上调2025年营收增长目标 长城基金韩林:TMT热度向国产算力、应用扩散 特朗普家族狂揽45亿!背后神秘加密货币平台曝光,操盘手竟是币安赵长鹏?学习了 澳大利亚联邦银行年利润增 4.2% 并上调末期股息,净息差走阔至 2.08%反转来了 韩国拟建全国性“能源高速公路”,以满足人工智能用电需求 20000亿!时隔113个交易日,刚刚,A股又回来了这么做真的好么? 社科院教授:房地产模式最大弊端是风险过度集中于买房人头上太强大了 交银国际:下调宝胜国际目标价至0.74港元 维持“买入”评级后续反转来了 信用卡退费退息调查:骗局还是维权良机? 收评:沪指创4年新高 两市成交额超2.1万亿元官方处理结果 招商证券国际:上调康师傅控股目标价至13.6港元 评级“增持”官方通报 特朗普家族加密货币财富暴增:与PancakeSwap合作发行USD1,家族持币市值约45亿美元记者时时跟进 澳大利亚联邦银行年利润增 4.2% 并上调末期股息,净息差走阔至 2.08%官方已经证实 天风证券增资至约101.4亿 多位主要人员发生变更专家已经证实 招商银行:正在依法有序推进个人消费贷款贴息政策的组织实施工作科技水平又一个里程碑 多家国有大行投资子公司管理层调整科技水平又一个里程碑 里昂:削新秀丽目标价至22港元 维持“高度确信跑赢大市”评级 特朗普家族狂揽45亿!背后神秘加密货币平台曝光,操盘手竟是币安赵长鹏?

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章