AI趨勢周報第233期：7月開始訓練33B語言模型，馬斯克揭露xAI首款Chatbot

Elon Musk在今年7月成立一家AI新创xAI，最近揭露首款产品Grok，是一个以大型语言模型为基础的AI聊天机器人。其核心模型为Grok-1，经多项基准测试，模型整体表现优异，特别是在程式码任务上，仅次于Claude 2和GPT-4。

图片来源:

xAI

重点新闻(1027～1102)

生成式AI Grok Chatbot

今年7月开始训练33B语言模型，马斯克揭露xAI首款Chatbot

马斯克日前揭露旗下xAI公司的首款产品Grok，是一款类似ChatGPT的聊天机器人，主打能幽默回应使用者、与使用者产生共鸣。 LLM RedPajama 资料集

专为LLM设计，具30兆Token的开源资料集来了

最近，AI新创公司Together.ai开源释出第二代LLM训练资料集RedPajama-Data-v2，共有30兆个Token，要用来强化语言模型训练品质。该资料集包含2大部分，一是从开源网路爬虫资料集CommonCrawl的84个转存（Dumps）中精挑细选，将原本100多兆个Token过滤、剔除重复的资料，保留30兆个Token，涵盖英语、法语、西班牙语、德语和义大利语等5种语言，但未包含中文。另一部分是40多个预运算的资料品质注释，可用于进一步的过滤和权重，提高资料集的实用性。

早在今年3月，该新创就释出5TB的高品质英语标记资料集RedPajama-1T，半年多来累积了19万次下载量。这次，他们进一步开源涵盖5种语言的资料集，号称是目前最庞大的LLM训练资料集，同时在GitHub和HuggingFace上提供所有数据。 Jina AI LLM 文字嵌入

与OpenAI同等级！Jina AI开源第2代文字嵌入模型

德国AI新创Jina AI开源自家第2代文字嵌入模型jina-embeddings-v2，可处理多达8,192个token的文长。而且，经大规模文字嵌入基准（Massive Text Embedding Benchmark）测试评估，该模型排名第17，与商用OpenAI text-embedding-ada-002的第15名相差无几。而且在分类、重新排序、检索和摘要生成等自然语言处理任务中，该模型表现比OpenAI的模型还要好。

jina-embeddings-v2能处理8,192个token是一大进展，代表模型可应用的领域更广，像是分析法律文件、更细致地捕捉文件中细节，或从财务报表中解析关键资讯、进行财务预测，也能用于对话机器人，来处理复杂的用户查询。目前，使用者可从Huggingface免费下载jina-embeddings-v2模型，包括2种版本，一是针对学术研究或商业分析等高准确性需求设计的，大小为0.27 GB的基础模型，另一是适用于轻量级应用程式，能整合行动应用程式或运算资源有限装置的小型模型，容量只有0.07 GB。 生成式AI 抓漏 提示攻击

Google公布AI抓漏奖励范围，新添生成式AI类别

日前，Google宣布扩大AI系统抓漏奖励计划，要进一步纳入生成式AI。进一步来说，Google认为，相较于传统的安全漏洞，生成式AI有著不同问题，如不公平偏见、模型操纵或资料误解。随著Google日益将生成式AI整合到产品中，内部团队正全面预测和测试其潜在风险，同时也想藉外部研究者协助，来找出新漏洞并解决问题。

其实，Google本来就有AI抓漏奖励计划，其类别包括提示攻击、训练资料汲取、操纵模型、对抗性扰动，以及模型窃取等，凡是利用提示来影响模型的行为或输出，重建或汲取包含敏感资讯的训练资料，得以改变模型行为，或可窃取模型权重与结构等关键资讯的安全漏洞，都在奖励之列。 联合国 AI顾问组织 治理

联合国成立AI顾问组织

联合国日前成立AI顾问组织，来研究AI技术风险和机会，以及全球治理方向。该组织由联合国秘书长António Guterres发起，招揽了全球39名专家，预计要在今年底前，针对AI的风险、挑战、机会，以及如何利用AI来加速永续发展目标（SDGs）等议题提出建议。

Guterres指出，AI顾问组织是全球AI治理的起点，来尽可能为所有人带来利益，同时遏制风险。但这也取决于AI是否被负责任地利用，以及是否所有人都能使用，因为，目前相关专业知识集中在少数公司和国家，这很可能深化全球不平等，使数位落差成为鸿沟。而这个组织，可望解决这些问题。2.

AI趋势周报第233期：7月开始训练33B语言模型，马斯克揭露xAI首款Chatbot