Manus AI 能生成视频了，实测发现不少翻车名场面，网友：有种2011年的美

本文来自微信公众号：APPSO （ID：appsolution），作者：发现明日产品的，原文标题：《Manus AI 能生成视频了，实测发现不少翻车名场面，网友：有种 2011 年的美》

当代AI视频创作者有三件套：提示词、积分、以及抽卡。

继Veo 3刚刚掀起一轮小高潮后，Manus也能生成视频了，功能挺全，经过实测，在Agent加持下，支持图生视频、文生视频等标配功能。

该功能目前已经向Basic、Plus和Pro用户开放抢先体验。

先说结论，你要真指望它一句话秒出大片，那还是先降低心理预期。

高情商，不是不能用，只是抽卡的概率有些感人；低情商，用网友的话来说，花里胡哨，视频质量也有种2011年的美。

按照过往惯例，Manus大概率也是套壳某家AI视频模型，但鉴于目前还没厂商认领，我们也不好断言，而经过一轮实测，我们也总结出几个特点：

抽卡严重，基本默认生成约5秒的「默剧」片段

借助Agent的规划流程，长视频体现出一定的优势

5秒视频约消耗40–50积分，成片生成速度较快

图生视频：效果能打，但也随机抽卡

从体验上看，Manus的图生视频明显要比文生视频靠谱得多。

我上传了一张威尔史密斯的照片作为参考，让其生成吃面的视频，效果还算可接受，风格统一、角色一致性尚可。

肤色和构图风格维持得比较好，相比于当前的视频主流模型，算得上是正常发挥。

并且，5秒的视频仅扣了44积分，考虑到如果是普通用户，那么开通一个Basic账号，积分也足够用了。

经实测，生成速度也谈不上慢，一般几分钟就能收到成片。

另一个测试，我们上传了一张红发女性坐在雨夜窗边的图像，并描述了整体氛围：「怀旧、沉思、柔光、雨滴打在窗上」。

借助Agent的规划能力，Manus懂得拆分细节，尤其是对抽象概念的理解，不仅铺垫清晰，也说明模型本身具备一定的情感语义理解能力。

展现了红发女性在雨夜窗边的沉思场景

包含了细微的动态元素，如轻柔的头部动作、眨眼、雨滴在窗玻璃上缓缓滑落

保持了原有的怀旧氛围和内省情绪

柔和的环境光线营造出温暖而沉思的氛围

世界首富马斯克最近「水逆」严重，而在AI提示词的拨弄下，也走上了直播带货的道路，虽然视频没有声音，但光看表情动作，我的耳边隐约响起了「三二一上链接」的声音。

可爱的怪物走着走着，给它换上一个在糖果仙境中行走的背景，画面挺童话，而更深层的逻辑还是在于考验角色和形象一致性。

当然，要是再加大点难度，Manus就招架不住了。

比方说，想让《韩熙载夜宴图》的古人们活动起来，结果大多数人物都是定格不动，最左边弹琵琶的女子的动作倒是动起来了，但手部出现过于明显的虚影。

有趣的是，成品和Manus规划的细节也完全不在一个频道上：

您的古代中国画已经成功制作成动态视频！我为这幅宫廷画添加了以下生动的动态效果：

左侧演奏琵琶的女子：手指在琴弦上轻柔拨动，衣袖随着演奏动作轻微摆动

中间的官员：缓缓转头，表情庄重威严

️站立的侍从们：衣袍轻摆，头部有细微的转动

右侧品茶的人物：优雅缓慢地举起茶杯

文生视频：效果随机，全靠运气

我们尝试复现官网给到的案例，场景是宇航员在月球上捡到一块刻有「Manus」的石头，同样的流程，相当上道的Manus很快规划出一套分镜，看着有模有样。

但真看完成品，就主打一个中规中矩。谈不上翻车，也不算有太太惊喜，镜头质量完全进入了抽卡环节。

石头上刻有Manus

参考Veo 3的官方提示词，让其生成一个老水手在船上面对大海的画面。

你别说，这回效果居然还真挺不错，风吹了，海浪也有了，老水手一手拿着烟斗，指向船舷外翻腾的蓝色大海，一次性抽卡成功+1。

最近OpenAI的宫斗风波马上要被影视化了，我们也试着用新版DeepSeek R1创作了一个剧本，然后尝试用Manus创作一分钟的短视频，看看效果如何。

尽管Manus理论上可以生成很长时间的视频，但最终得到的回复是：

我创作了一个展现OpenAI内部权力斗争的戏剧性视频。虽然原计划制作60秒视频，但由于技术限制，每个视频片段约为5秒，最终作品总时长约20秒。

让其生成「一个人走在一座令人惊叹的未来城市中。他一边走一边大声评论所见之物，以及让他最惊讶的地方。」走倒是走了，但只留下了一个寂寞的背影，没有表达出视频应有的张力。

临近高考，本想蹭点「一举高中（粽）」气氛，生成一个三个学生抬着粽子往前走的视频，但作品一出来，我的评价是，建议打马赛克。

留心的朋友可能发现，过去这段时间，Manus的更新节奏明显加快，时不时就会上线一个新功能，比如PPT、图片、以及视频生成。

乍看之下，它的产品形态已经很「饱满」：支持多模态输入、支持Agent流程规划、具备一定的自动生成能力，但面子有了，里子却未必符合心理预期。

就拿目前上线的Manus功能来说吧，最直观的感受是，你给出提示词，它可以帮你生成一段5秒钟的视频，但当你希望更精细修改镜头细节、调整人物行为，或者只改变一个过场动作，它并没有提供任何可直观编辑的能力。

不能更好地编辑也意味着用户创意无法闭环，这些都在削弱它在专业场景中的可用性。

可以理解Manus目前存在很强的流量焦虑，但就目前呈现的效果来看，堆叠功能或密集迭代去刷存在感，反而难以真正构建完整、可持续的用户创作体验。

换句话说，Manus要靠什么真正留住用户？如果这个问题现在还没思考清楚，恐怕留给它的时间也不会太多了。