IT之家于九月二十四日报道,在当日举行的2025云栖大会上,阿里集团董事及CEO吴泳铭透露,正大力推动3800亿元AI基础设备铺设,同时打算进一步增加资金支持,大会上阿里发布了六个全新算法模型,并推出一个全新企业标识
目前,通义千问的Qwen-MAX版本、Qwen3-Omni版本以及Qwen-Image-Edit-2509版本,都已经公开过相关信息。
其他模型中,Qwen3-VL 是一个能够真正实现“看懂世界、理解事件、做出行动”的视觉理解模型,它支持在 2 小时视频中进行精确定位(例如,“第 15 分钟穿红衣者做了什么”),OCR 语言种类从 19 种增加到了 32 种,生僻字、古籍、倾斜文本的识别效果大幅提高;它原生支持 256K 的上下文,并且可以扩展到 100 万个 token,适合处理超长视频和文档分析。
本次发布重点强化以下能力:
Qwen-Image 是一款开放获取的图像处理工具,近期实现了重大更新,新版本具备同时处理多张图片的能力,显著提升了人脸、商品及文字识别的精确度,同时无缝融合了先进技术,确保了“修改文字而面部不变形、更换服饰而商品特征不变”的专业水准,能够满足商业交易、艺术设计及宣传推广等领域对精确性的严苛标准。
本次升级核心亮点:
原生支持 :支持包括深度图、边缘图、关键点图等引导信息。
Qwen3-Coder 上下文代码专家近期实现了性能大幅提升,借助整合式训练方法加以改进,其评分显著提高,在相关平台一度位列全球最受欢迎的 Coder 模型第二位(IT之家特别说明:仅排在第四模型之后)能够容纳 256K 的上下文信息,可以一次性掌握并改进整个项目级别的代码集合,运行效率更高、资源占用更少、运行更稳定,深受程序员推崇为“能够一键优化复杂工程的有担当的智能助手”。
本次升级核心亮点:
通义万相 Wan2.5- 音画同步创意引擎初次原生支持音画同步功能,显著增强视频生成、图像生成、图像编辑三项核心功能,能够满足广告、电商、影视等商业内容制作要求。
视频生成 —— 会“配音”的 10 秒电影:
文生图 —— 能“写字”的设计大师:
图像编辑 —— “改字不崩脸”的工业级修图:
通义百聆是新推出的品牌,属于通义实验室旗下,是企业级语音基座大模型,融合了先进的 Fun-ASR 语音识别技术与 Fun- 语音合成技术,专注于解决复杂场景中的语音应用挑战。
Fun-ASR语音识别大模型针对语音识别领域的“幻觉输出”“串语种”“热词失效”这三大行业难题十分有效。借助独创的增强架构(CTC+LLM+RAG),其幻觉率显著降低,从78.5%减少到10.7%,基本解决了串语种问题。
能够实现热词的即时添加和不同语言语音的复制,专业词汇完全匹配。Fun语音制造巨匠运用独特的声音分离培养技术,显著增强声音制造品质,亦可进行多语言声音复制。主要功能简述: