阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-13
小摩:料澳门博彩业下半年GGR增13% 看好银河娱乐等 科创芯片ETF飙涨超3%!买基金用什么APP?来看新浪财经APP三大核心优势! 消息称加盟智界再次联手余承东:赵明回应了三个字实时报道 拜耳与 Kumquat 达成全球独家许可:推进 KRAS G12D 抑制剂,交易总额最高 13 亿美元 + 分级版税是真的? 港股复星国际直线拉涨太强大了 中报营利、造血能力显著提升,城发环境获更多险资“投票” 小摩:料澳门博彩业下半年GGR增13% 看好银河娱乐等后续反转 邦达亚洲:澳洲联储如期降息25个基点 澳元小幅下滑官方通报 收评:创指收涨超1% AI算力硬件股集体走强 长城基金医药投资团队:创新药个股更重视基本面,AI医疗标的仍值得挖掘 洪灝最新研判:A股港股都有“黄金坑”,下半年这些板块还有大机会 中信建投保荐瑞华技术IPO项目质量评级B级 报告期内曾因信披违规遭口头警示 上市首年扣非净利润下降 国泰君安期货:纯碱早间大涨,后市怎么看?科技水平又一个里程碑 重庆机电盈喜后高开逾9% 预期中期股东应占净利同比增长50%左右学习了 银行股持续拉升 农业银行盘中涨超1%续创历史新高 化学制药板块短线拉升,福安药业涨超10% 逢跌必买!散户已成美股“脊梁”? 金价大跌!官方通报来了 2024-2030年汽车底盘传感器市场及企业调研报告最新报道 华为三折叠屏新机Mate XTs将搭载麒麟9020,或与苹果9月10日发布会撞档 今天!华为将发布突破性成果!科创人工智能ETF(589520)随市回调,资金迎逢跌抢筹机会? 官方通报 军工股再度走强 烽火电子直线拉升涨停官方处理结果 创意信息旗下万里数据库出海首秀, 万里安全数据库(GreatDB)上合版落子哈萨克斯坦 东岳集团2亿港元转投高端氟材料太强大了 能源金属板块短线走低 永杉锂业跌超5%反转来了 稀土指数显著走低,盛和资源跌超5%官方处理结果 港股苹果概念股延续涨势 鸿腾精密涨超8% 苹果关税豁免利好智能手机供应链这么做真的好么? 房地产板块异动拉升,沙河股份、万通发展涨停 济南产发11亿元投资济南先投官方通报 龙国银行在澳牵头组建首笔人民币银团贷款科技水平又一个里程碑 上证早知道|杭州大动作,热门赛道迎利好!重要发布会预告,周五上午10时!财政部、教育部,最新印发 国泰海通获易方达基金增持54.86万股 每股作价约17.14港元是真的吗? 扎根「欧洲医药高地」,药明康德慕尼黑基地助力欧洲生物医药创新这么做真的好么? 龙国银行全方位构建成都世运会金融保障后续来了 一元宇宙收到法定要求偿债书 Oklo(OKLO.US)Q2每股亏损逊于预期 与核燃料技术公司Lightbridge(LTBR.US)建立战略合作关系后续会怎么发展 一元宇宙收到法定要求偿债书 李氏大药厂遭粤民投减持43.5万股 每股作价约1.72港元 视频|人工PK智能!周鸿祎脚踢智能机器人官方通报 Grok账号一度被封,马斯克回应 Grok账号一度被封,马斯克回应官方已经证实 中信建投 | 国产人形机器人本体加速放量 狂飙158%!港股,又有新股首日大涨! 东方证券遭上海宁泉资产管理有限公司减持90.04万股 每股作价7.7港元官方通报来了 龙国银行在澳牵头组建首笔人民币银团贷款反转来了 飞渡科技完成数千万元战略融资 Oklo(OKLO.US)Q2每股亏损逊于预期 与核燃料技术公司Lightbridge(LTBR.US)建立战略合作关系后续反转来了

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章