阿里云栖大会发布六大AI模型及通义百聆品牌，覆盖全场景应用

IT之家于九月二十四日报道，在当日举行的2025云栖大会上，阿里集团董事及CEO吴泳铭透露，正大力推动3800亿元AI基础设备铺设，同时打算进一步增加资金支持，大会上阿里发布了六个全新算法模型，并推出一个全新企业标识

目前，通义千问的Qwen-MAX版本、Qwen3-Omni版本以及Qwen-Image-Edit-2509版本，都已经公开过相关信息。

其他模型中，Qwen3-VL 是一个能够真正实现“看懂世界、理解事件、做出行动”的视觉理解模型，它支持在 2 小时视频中进行精确定位（例如，“第 15 分钟穿红衣者做了什么”），OCR 语言种类从 19 种增加到了 32 种，生僻字、古籍、倾斜文本的识别效果大幅提高；它原生支持 256K 的上下文，并且可以扩展到 100 万个 token，适合处理超长视频和文档分析。

本次发布重点强化以下能力：

Qwen-Image 是一款开放获取的图像处理工具，近期实现了重大更新，新版本具备同时处理多张图片的能力，显著提升了人脸、商品及文字识别的精确度，同时无缝融合了先进技术，确保了“修改文字而面部不变形、更换服饰而商品特征不变”的专业水准，能够满足商业交易、艺术设计及宣传推广等领域对精确性的严苛标准。

本次升级核心亮点：

原生支持：支持包括深度图、边缘图、关键点图等引导信息。

Qwen3-Coder 上下文代码专家近期实现了性能大幅提升，借助整合式训练方法加以改进，其评分显著提高，在相关平台一度位列全球最受欢迎的 Coder 模型第二位（IT之家特别说明：仅排在第四模型之后）能够容纳 256K 的上下文信息，可以一次性掌握并改进整个项目级别的代码集合，运行效率更高、资源占用更少、运行更稳定，深受程序员推崇为“能够一键优化复杂工程的有担当的智能助手”。

本次升级核心亮点：

通义万相 Wan2.5- 音画同步创意引擎初次原生支持音画同步功能，显著增强视频生成、图像生成、图像编辑三项核心功能，能够满足广告、电商、影视等商业内容制作要求。

视频生成 —— 会“配音”的 10 秒电影：

文生图 —— 能“写字”的设计大师：

图像编辑 —— “改字不崩脸”的工业级修图：

通义百聆是新推出的品牌，属于通义实验室旗下，是企业级语音基座大模型，融合了先进的 Fun-ASR 语音识别技术与 Fun- 语音合成技术，专注于解决复杂场景中的语音应用挑战。

Fun-ASR语音识别大模型针对语音识别领域的“幻觉输出”“串语种”“热词失效”这三大行业难题十分有效。借助独创的增强架构（CTC+LLM+RAG），其幻觉率显著降低，从78.5%减少到10.7%，基本解决了串语种问题。

能够实现热词的即时添加和不同语言语音的复制，专业词汇完全匹配。Fun语音制造巨匠运用独特的声音分离培养技术，显著增强声音制造品质，亦可进行多语言声音复制。主要功能简述：