Manus AI 能生成视频了,实测发现不少翻车名场面,网友:有种2011年的美

本文来自微信公众号:APPSO (ID:appsolution),作者:发现明日产品的,原文标题:《Manus AI 能生成视频了,实测发现不少翻车名场面,网友:有种 2011 年的美》

当代AI视频创作者有三件套:提示词、积分、以及抽卡。

继Veo 3刚刚掀起一轮小高潮后,Manus也能生成视频了,功能挺全,经过实测,在Agent加持下,支持图生视频、文生视频等标配功能。

该功能目前已经向Basic、Plus和Pro用户开放抢先体验。

先说结论,你要真指望它一句话秒出大片,那还是先降低心理预期。

高情商,不是不能用,只是抽卡的概率有些感人;低情商,用网友的话来说,花里胡哨,视频质量也有种2011年的美。

按照过往惯例,Manus大概率也是套壳某家AI视频模型,但鉴于目前还没厂商认领,我们也不好断言,而经过一轮实测,我们也总结出几个特点:

抽卡严重,基本默认生成约5秒的「默剧」片段

借助Agent的规划流程,长视频体现出一定的优势

5秒视频约消耗40–50积分,成片生成速度较快

图生视频:效果能打,但也随机抽卡

从体验上看,Manus的图生视频明显要比文生视频靠谱得多。

我上传了一张威尔史密斯的照片作为参考,让其生成吃面的视频,效果还算可接受,风格统一、角色一致性尚可。

肤色和构图风格维持得比较好,相比于当前的视频主流模型,算得上是正常发挥。

并且,5秒的视频仅扣了44积分,考虑到如果是普通用户,那么开通一个Basic账号,积分也足够用了。

经实测,生成速度也谈不上慢,一般几分钟就能收到成片。

另一个测试,我们上传了一张红发女性坐在雨夜窗边的图像,并描述了整体氛围:「怀旧、沉思、柔光、雨滴打在窗上」。

借助Agent的规划能力,Manus懂得拆分细节,尤其是对抽象概念的理解,不仅铺垫清晰,也说明模型本身具备一定的情感语义理解能力。

展现了红发女性在雨夜窗边的沉思场景

包含了细微的动态元素,如轻柔的头部动作、眨眼、雨滴在窗玻璃上缓缓滑落

保持了原有的怀旧氛围和内省情绪

柔和的环境光线营造出温暖而沉思的氛围

世界首富马斯克最近「水逆」严重,而在AI提示词的拨弄下,也走上了直播带货的道路,虽然视频没有声音,但光看表情动作,我的耳边隐约响起了「三二一上链接」的声音。

可爱的怪物走着走着,给它换上一个在糖果仙境中行走的背景,画面挺童话,而更深层的逻辑还是在于考验角色和形象一致性。

当然,要是再加大点难度,Manus就招架不住了。

比方说,想让《韩熙载夜宴图》的古人们活动起来,结果大多数人物都是定格不动,最左边弹琵琶的女子的动作倒是动起来了,但手部出现过于明显的虚影。

有趣的是,成品和Manus规划的细节也完全不在一个频道上:

您的古代中国画已经成功制作成动态视频!我为这幅宫廷画添加了以下生动的动态效果:

左侧演奏琵琶的女子:手指在琴弦上轻柔拨动,衣袖随着演奏动作轻微摆动

中间的官员:缓缓转头,表情庄重威严

️站立的侍从们:衣袍轻摆,头部有细微的转动

右侧品茶的人物:优雅缓慢地举起茶杯

文生视频:效果随机,全靠运气

我们尝试复现官网给到的案例,场景是宇航员在月球上捡到一块刻有「Manus」的石头,同样的流程,相当上道的Manus很快规划出一套分镜,看着有模有样。

但真看完成品,就主打一个中规中矩。谈不上翻车,也不算有太太惊喜,镜头质量完全进入了抽卡环节。

石头上刻有Manus

参考Veo 3的官方提示词,让其生成一个老水手在船上面对大海的画面。

你别说,这回效果居然还真挺不错,风吹了,海浪也有了,老水手一手拿着烟斗,指向船舷外翻腾的蓝色大海,一次性抽卡成功+1。

最近OpenAI的宫斗风波马上要被影视化了,我们也试着用新版DeepSeek R1创作了一个剧本,然后尝试用Manus创作一分钟的短视频,看看效果如何。

尽管Manus理论上可以生成很长时间的视频,但最终得到的回复是:

我创作了一个展现OpenAI内部权力斗争的戏剧性视频。虽然原计划制作60秒视频,但由于技术限制,每个视频片段约为5秒,最终作品总时长约20秒。

让其生成「一个人走在一座令人惊叹的未来城市中。他一边走一边大声评论所见之物,以及让他最惊讶的地方。」走倒是走了,但只留下了一个寂寞的背影,没有表达出视频应有的张力。

临近高考,本想蹭点「一举高中(粽)」气氛,生成一个三个学生抬着粽子往前走的视频,但作品一出来,我的评价是,建议打马赛克。

留心的朋友可能发现,过去这段时间,Manus的更新节奏明显加快,时不时就会上线一个新功能,比如PPT、图片、以及视频生成。

乍看之下,它的产品形态已经很「饱满」:支持多模态输入、支持Agent流程规划、具备一定的自动生成能力,但面子有了,里子却未必符合心理预期。

就拿目前上线的Manus功能来说吧,最直观的感受是,你给出提示词,它可以帮你生成一段5秒钟的视频,但当你希望更精细修改镜头细节、调整人物行为,或者只改变一个过场动作,它并没有提供任何可直观编辑的能力。

不能更好地编辑也意味着用户创意无法闭环,这些都在削弱它在专业场景中的可用性。

可以理解Manus目前存在很强的流量焦虑,但就目前呈现的效果来看,堆叠功能或密集迭代去刷存在感,反而难以真正构建完整、可持续的用户创作体验。

换句话说,Manus要靠什么真正留住用户?如果这个问题现在还没思考清楚,恐怕留给它的时间也不会太多了。