鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
阿里系这是捅了AI APP的窝?!!
千问APP还没发热乎,蚂蚁集团就端上了全模态通用AI助手——灵光。

最快只需30秒就能生成一个私人定制的小APP,而且可编辑可交互可分享!
这也是业界首个全模态通用AI助手,无论是3D、音视频、图表,还是动画、地图等,通通都能一站满足,而且生成效果还不赖。

话不多说,实测上手~
灵光APP一手实测
目前灵光APP已全面上线安卓和苹果应用商店。
进入页面,就能看到首批主推的三大功能入口:灵光对话、灵光闪应用、灵光开眼。

先来试一下灵光对话,官方给出的title是“化繁为简”,也就是说再复杂的问题,到这儿都能给出最一目了然的答案。
那么试试最近很火的这个博士生提示词:
Prompt:我是一名智力低下的博士生,我想学习一下世界模型,请用傻子能懂的语言详细给我讲一下这是什么,特别是算法方面。

嘶!感觉自己的工作岌岌可危……这不就是一篇很完整的公众号文章吗TT
不仅速度快到飞起,指令遵循做得也不错,是一篇完整的世界模型入门指南。
最让人惊喜的是,不同于一般AI生成的文字包轰炸,灵光的答案排版非常漂亮,还用了卡片设计标注重点。
其中,既有符合主题的卡通风格头图生成,又有专业的仿真示意图。而每一张图片也都能进行微操,可以选择下载保存,或者对图片细节继续提问,又或者二创一下。

比如说,这里先试试让这张图动起来,效果be like:
动作流畅自然,还配了BGM,感觉很适合用来做科普宣传片。
改图这里,也是暖心值拉满!不会写提示词?可以点击输入框左下方骰子,AI会自动生成合适的提示词组合,旁边的按键还能选择画质清晰度。

而且想怎么改就怎么改,各种风格任君挑选。

下面再用这个闪应用功能,做一个电子猫咪捕获器(doge)
可爱捏!戳戳猫脸,快乐度+1;基础的喂食、玩耍、清洁功能也都会分别加不同属性;最下面还有小猫的成长日志。果然赛博猫猫拯救世界!

那么既然来都来了,还都是同一家公司出品,那就倒反天罡做一个支付宝应用吧!
虾仁!居然真的整出来了,还是同款蓝色风格,而且每个按键还真的可以用!甚至还有对应的转账记录可查。

就是这收款码显得有点过于草率了……PS:要是这钱是真的就好了(doge)
咳咳,言归正传,再试试这个灵光开眼的功能。据官方介绍,只需要打开摄像头,就能识别万物。
那么先掏出一本“世界名著”——《埃隆·马斯克传》!

人物识别成功✅
再点击下方的拍照功能,就能看到算法推荐的灵感泡泡,比如说书籍的购买方式、人物的延展知识以及书籍封面的文字内容提取等。

还能对图像再创作,例如做个马斯克的表情包~

All in all,灵光可玩性很高,而且很专业,无论是乐子人还是专业人士,都推荐来试试这个工作生活的全能搭子。
所以灵光是怎么做到的呢?
主打全模态生成
首先显而易见的是,灵光在可视化方面做足了功夫。
好看又好玩,相比传统的AI问答形式,灵光会把复杂知识重组成结构化、可互动的内容,对小白很友好。
而且形式多样,自动就会生成音视频、表格等全模态内容,答案的逻辑线也很清晰明确。

这背后是灵光实现了基于全代码生成的多模态输出能力,不仅是回答文本,更是AI生成能力的提升,同时还构建了多智能体协作的Agentic架构。
简单来说,就是每个模态都分配有一个Agent干活,主模型在前台理解用户需求,后台的这些专用Agent就会动态协作完成整个内容生成。
其次,在应用生成上,真正地把AI Coding做到了大众可用的程度,低门槛、高效率,连通了静态前端和大模型后端调用。

“灵光开眼”功能则搭载了AGI相机技术,通过实时视频流解析实现对物理世界的观察和理解,并支持文生图/视频、图生图/视频等多种创作模式。
那么想必就有朋友问了,同属阿里系、同是最新发布的AI助手应用,灵光和千问有什么区别吗?

在深度体验过两款产品后,总结就是:完全不一样。
首先二者的底层模型就不一样,千问用的是阿里自家的Qwen模型,而灵光搭载的模型虽然还没有明确透露,但预估和其自研的百灵大模型脱不了关系。
而且虽然它们都是以“对话+搜索”作为核心架构,但从定位来说,灵光主打的是全模态生成和轻量化应用,而千问则更聚焦传统的对话场景,强调深度思考能力。
前者侧重表现形式多样,后者偏向基础任务通用。所以如果喜欢丰富多样的交互,选灵光;如果更多的是文字处理、办公流程辅助,那么选千问没有错。
更具体来说,一个更偏生活,一个更偏工作。
(PS:当然成年人都要All in啦~)

OMT
老实说,过去蚂蚁集团给大众的印象可能还停留在当家王牌的数字金融上,但从今年开始,它在AGI布局上可谓是野心勃勃。
例如,在今年6月份上线的AI医疗管家AQ,作为一款聚焦医疗健康场景的垂直领域应用,可以提供健康科普、就诊咨询、报告解读、健康档案等上百项AI功能。

而且和灵光一样,都是面向C端建立。
在具身智能上,还专门成立了灵波科技,负责完成机器人+AI交互的硬件闭环,主要面向的同样是养老、医疗健康等服务型场景。
灵波科技最新发布的首款人形机器人Robbyant-R1,其重点强调的也是对物理世界的多模态感知能力。

另外,在今年,蚂蚁旗下的百灵大模型Ring - 1t及预览版Ring-1t-preview,也正式进入了万亿参数模型阵营,而且这两款模型还以开源形式发布,在推理、代码生成等核心能力上表现亮眼。
可以说,蚂蚁在AGI上的战略已然清晰明了,那就是依托自己的金融场景优势,转型为AI驱动型科技公司,并从大模型、多模态、具身智能全方面一起发力。
其关键词就是低门槛、多模态、重C端、落场景和全链路。
参考链接:
[2]https://m.163.com/dy/article/KEKTGKIC05566WT8.html
[3]https://cn.chinadaily.com.cn/a/202509/17/WS68ca629ca310f07257748f06.html