阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

医渡科技午前涨超6% 公司大模型首次应用于医美领域 越南盾兑美元跌至纪录低点最新进展 激励政策升级！提前与20家编剧工作室合作？红果短剧回应学习了 “稳定币第一股”Circle首份财报：收入同比大增53%，股价涨超96%官方处理结果 重庆机电午前涨超8% 预计中期纯利同比增长约50%实垂了 午评：港股恒指涨1.88% 科指涨2.35% 科网股全线上涨苹果概念延续涨势腾讯涨超3%创近4年新高最新进展 瑞浦兰钧储能电池出货18.87GWh，同比增长119.3%又一个里程碑 “红包雨”又来了！银行首家中期分红方案出炉实时报道 大涨50%后，“华尔街神算子”再为以太坊送利好：将再砸200亿！ “稳定币第一股”Circle首份财报：收入同比大增53%，股价涨超96%后续反转 CoreWeave电话会：推理就是AI的变现，VFX云服务产品使用量增长超4倍 IPO后首次电话会，Circle聚焦“盈利模式”：赚钱方式有两种，目标是“赢者通吃”又一个里程碑 降息预期再升温，“港股科技双雄”携手走强！港股互联网ETF（513770）涨近2%，阿里巴巴领涨3%后续反转 传特斯拉终止Dojo AI项目部分工程师调到自动驾驶和机器人部门 植物医生：重营销轻研发，突击分红1.8亿，实控人年薪1123万，却募资上市引质疑实时报道 印媒：印度总理莫迪下月访美期间或将会晤特朗普 金融监管总局郭武平：指导各金融监管局将贴息政策执行情况纳入日常持续监管秒懂 歌礼制药-B盘中涨超6% ASC47与替尔泊肽联用在临床前模型中显示积极疗效结果又一个里程碑 特朗普又催降息！米兰、布拉德双双力挺：关税并未导致通胀 高瞻远“猪”：政策驱动下的生猪产业“反内卷”变革 专家已经证实 视频：人民日报专访宇树科技创始人王兴兴，问了22个问题官方处理结果 宜家母公司出售荟聚购物中心泰康人寿领投并购基金学习了 美国核心通胀率升至1月以来最高水平后续反转 华胜天成连续2个交易日收盘价格涨幅偏离值累计达20%是真的？ 7 月消费者价格同比上涨 2.7%，低于预期，关税担忧仍存官方已经证实 靠集采闷声发大财，福建药企带着14款仿制药赴港IPO 金新农向26名激励对象授予1163万份股票期权行权价3.93元/股实时报道 高瞻远“猪”：政策驱动下的生猪产业“反内卷”变革学习了 30载浮沉路！中资尽数退出，外资控股后微利稳行，最后0.78%股份转让，史带财险变身纯外资记者时时跟进 美国国债在7月CPI公布后升至日内高点收益率曲线陡化又一个里程碑 两笔投资计提减值超9000万、和泰人寿上半年保费增四成却亏1.76亿，股权调整能否破局？后续来了 高瞻远“猪”：政策驱动下的生猪产业“反内卷”变革记者时时跟进 两笔投资计提减值超9000万、和泰人寿上半年保费增四成却亏1.76亿，股权调整能否破局？ 露笑科技，筹划赴港上市官方处理结果 美债收益率在通胀未出现上行意外后下跌科技水平又一个里程碑 糖价势创五个月来最长连涨受对巴西产量担忧影响

感谢本站网友乌蝇哥的左手的线索投递！

本站 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示，该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下：

全能创新架构：Qwen 团队提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本 / 图像 / 音频 / 视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

据官方介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频 / 图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。

模型架构图

模型性能方面，Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。

▲模型性能图

Qwen Chat：//chat.qwenlm.ai

Hugging Face：//huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：//modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：//help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：//github.com/QwenLM/Qwen2.5-Omni

Demo 体验：//modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo