AI趋势周报第270期:OpenAI支援MCP协定、Cloudflare新添4款远端MCP伺服器工具

云端服务厂商Cloudflare推出4款工具,来支援使用者建置、部署远端MCP伺服器。

图片来源: 

Cloudflare

重点新闻(0321~0327)

 MCP     OpenAI     Cloudflare  

OpenAI支援MCP协定、Cloudflare新添4款远端MCP伺服器工具

最近,AI代理     资安     微软  

微软Security Copilot新添10款AI代理人

最近,微软在去年推出的Copilot for Security安全聊天机器人中新添了10种AI代理人,来自动化资安工作,预计在4月提供预览版。这些新代理人包括5项微软自制的AI代理人功能,以及合作伙伴开发的功能。就前者来说,有Defender中的钓鱼分类代理人,可分类钓鱼警示,准确分辨哪些是真正的网路威胁,哪些是误判。

再来有资料治理方案Purview中的警示分类代理,可将资料外泄及内部员工警示加以分类、排序重大事件,并可根据管理员回馈改进准确率。存取管理方案Entra的条件式存取优化代理人,可监控未被现有政策涵盖的新用户或App,辨识出必要的安全更新、提供快速修补建议。

Intune漏洞矫治代理人可监控并排序漏洞与矫正措施,来解决App和政策配置的问题。Security Copilot的威胁情报简报代理人,可根据企业独特属性和曝险程度,自动安排最相关、适用的威胁情报。微软合作伙伴也提供5项代理人,包括隐私外泄回应、监控VPN或闸道、评估安全监控中心(SOC)、安全警示分类,以及重大网路威胁警示优先排序等功能。  推理效率    基准测试      ARC-AGI-2  

新一代基准测试ARC-AGI-2登场,挑战AI的推理效率与通用能力

由ARC Prize基金会主导开发的通用AI基准测试ARC-AGI,最近释出第二版ARC-AGI-2。相较于前一版,第二版提高了难度,设计仍维持对人类解题者相对容易,但对AI系统极具挑战性的特性,可用来评估AI在未知情境中的即时推理能力和学习效率。

ARC团队也根据第二版测试结果,归纳出AI目前的三大困难,首先是符号诠释,AI系统能辨识图形对称和图像变化,但无法理解符号背后的语意或逻辑功能;再来是组合推理(Compositional Reasoning),当题目需要同时套用多组规则或这些规则彼此影响时,现行模型容易出错;第三是情境式规则应用,模型倾向于对表面模式过度拟合,缺乏根据上下文灵活调整规则运用的能力。

另一方面,ARC-AGI-2也将解题成本纳为效率指标。团队表示,人类解题成本约为每题17美元,但OpenAI o3系列系统则需约200美元以上的资源,才能完成极少量题目,突显出解得出来与解得有效率之间的落差。ARC团队强调,真正的智慧不应仅止于问题能否解决,而是能否以近似人类的资源使用效率快速做出正确判断。