Meta公开新模型V-JEPA,透过预测影片缺失部分让AI更理解真实世界

建立在Meta首席人工智慧科学家Yann LeCun,所提出的人工智慧模型架构JEPA(Joint Embedding Predictive Architectures),Meta人工智慧研究团队公开用于影片预测的非生成式人工智慧模型

研究人员解释,如果仅是随机抽选遮蔽影片中的小区块,则会让任务过于简单,使得模型无法真正学习到关于世界的复杂事物。因此Meta特别制定涵盖空间与时间的遮蔽策略,迫使模型学习并且发展对场景的理解,进一步预测未来的事件或是动作,进而达到对世界更深层次的理解。

该方法的优势让模型能够专注于影片的高层次概念,而不会钻牛角尖于对下游任务不重要的细节,像是人类观看在有树木的影片,不会特别关心每片叶子的细微动作一样,如此便能提高了学习效率和任务适应性。

V-JEPA还有一个重要的创新是冻结评估(Frozen Evaluations)的能力,模型在预训练之后,核心的部分不会再改变,因此只需要在其上添加小型专门层即可适应新任务。该设计避免了传统模型针对新任务需要全面微调的麻烦,减少学习新任务的资料和时间要求,并使得模型能够在不同任务中重复使用,诸如动作分类、精细地物体互动辨识以及活动定位等。

Meta会继续扩展V-JEPA模型,从只有处理影片的视觉内容,增加整合音讯实现多模态学习,研究团队认为,透过更丰富的上下文资讯,将能够加深模型对影片内容的理解。此外,他们也会继续强化模型长期规画和预测能力,使其能够处理长时间跨度的任务,而这将是发展高阶机器智慧的重要方向。Meta现在以创用CC BY-NC授权释出V-JEPA模型,促进人工智慧领域发展。