Elon Musk在今年7月成立一家AI新创xAI,最近揭露首款产品Grok,是一个以大型语言模型为基础的AI聊天机器人。其核心模型为Grok-1,经多项基准测试,模型整体表现优异,特别是在程式码任务上,仅次于Claude 2和GPT-4。
xAI
重点新闻(1027~1102)
生成式AI Grok Chatbot
今年7月开始训练33B语言模型,马斯克揭露xAI首款Chatbot
马斯克日前揭露旗下xAI公司的首款产品Grok,是一款类似ChatGPT的聊天机器人,主打能幽默回应使用者、与使用者产生共鸣。 LLM RedPajama 资料集
专为LLM设计,具30兆Token的开源资料集来了
最近,AI新创公司Together.ai开源释出第二代LLM训练资料集RedPajama-Data-v2,共有30兆个Token,要用来强化语言模型训练品质。该资料集包含2大部分,一是从开源网路爬虫资料集CommonCrawl的84个转存(Dumps)中精挑细选,将原本100多兆个Token过滤、剔除重复的资料,保留30兆个Token,涵盖英语、法语、西班牙语、德语和义大利语等5种语言,但未包含中文。另一部分是40多个预运算的资料品质注释,可用于进一步的过滤和权重,提高资料集的实用性。
早在今年3月,该新创就释出5TB的高品质英语标记资料集RedPajama-1T,半年多来累积了19万次下载量。这次,他们进一步开源涵盖5种语言的资料集,号称是目前最庞大的LLM训练资料集,同时在GitHub和HuggingFace上提供所有数据。 Jina AI LLM 文字嵌入
与OpenAI同等级!Jina AI开源第2代文字嵌入模型
德国AI新创Jina AI开源自家第2代文字嵌入模型jina-embeddings-v2,可处理多达8,192个token的文长。而且,经大规模文字嵌入基准(Massive Text Embedding Benchmark)测试评估,该模型排名第17,与商用OpenAI text-embedding-ada-002的第15名相差无几。而且在分类、重新排序、检索和摘要生成等自然语言处理任务中,该模型表现比OpenAI的模型还要好。
jina-embeddings-v2能处理8,192个token是一大进展,代表模型可应用的领域更广,像是分析法律文件、更细致地捕捉文件中细节,或从财务报表中解析关键资讯、进行财务预测,也能用于对话机器人,来处理复杂的用户查询。目前,使用者可从Huggingface免费下载jina-embeddings-v2模型,包括2种版本,一是针对学术研究或商业分析等高准确性需求设计的,大小为0.27 GB的基础模型,另一是适用于轻量级应用程式,能整合行动应用程式或运算资源有限装置的小型模型,容量只有0.07 GB。 生成式AI 抓漏 提示攻击
Google公布AI抓漏奖励范围,新添生成式AI类别
日前,Google宣布扩大AI系统抓漏奖励计划,要进一步纳入生成式AI。进一步来说,Google认为,相较于传统的安全漏洞,生成式AI有著不同问题,如不公平偏见、模型操纵或资料误解。随著Google日益将生成式AI整合到产品中,内部团队正全面预测和测试其潜在风险,同时也想藉外部研究者协助,来找出新漏洞并解决问题。
其实,Google本来就有AI抓漏奖励计划,其类别包括提示攻击、训练资料汲取、操纵模型、对抗性扰动,以及模型窃取等,凡是利用提示来影响模型的行为或输出,重建或汲取包含敏感资讯的训练资料,得以改变模型行为,或可窃取模型权重与结构等关键资讯的安全漏洞,都在奖励之列。 联合国 AI顾问组织 治理
联合国成立AI顾问组织
联合国日前成立AI顾问组织,来研究AI技术风险和机会,以及全球治理方向。该组织由联合国秘书长António Guterres发起,招揽了全球39名专家,预计要在今年底前,针对AI的风险、挑战、机会,以及如何利用AI来加速永续发展目标(SDGs)等议题提出建议。
Guterres指出,AI顾问组织是全球AI治理的起点,来尽可能为所有人带来利益,同时遏制风险。但这也取决于AI是否被负责任地利用,以及是否所有人都能使用,因为,目前相关专业知识集中在少数公司和国家,这很可能深化全球不平等,使数位落差成为鸿沟。而这个组织,可望解决这些问题。2.