马斯克还可以，“地球上最聪明的人工智能”Grok-3免费了.md

提前说一句

这篇文章是Grok-3写的，本人只做了部分删减和排版

Grok-3 是 xAI 开发的一种尖端 AI 模型，标志着人工智能领域的重要进步。该模型于 2025 年 2 月 19 日发布，旨在提升推理能力、计算能力和适应性，特别适用于数学、科学和编程问题。

以下是关于 Grok-3 的全面分析，包括其开发背景、关键功能、训练技术、性能基准、与其他模型的比较、访问方式、以及最近的免费访问更新和 DeepSearch、Think 模式及 API 调用的详细信息。

开发背景

Grok-3 是 xAI 系列模型的最新版本，xAI 是一家由 Elon Musk 创立的专注于人工智能的公司。Grok-3 的发布延续了 xAI 对构建强大且安全的 AI 系统的承诺，旨在推动人工智能在各个领域的应用。

关键功能与能力

Grok-3 的核心优势在于其先进的推理能力。通过大规模强化学习（RL）优化，Grok-3 能够在几秒到几分钟内进行深入思考，纠正错误并探索替代方案。这使其特别适合处理需要复杂推理的任务，例如数学问题、科学查询和编程挑战。

此外，Grok-3 配备了 DeepSearch 代理，这是一个创新功能，允许模型搜索互联网和 X 平台，以提供准确且最新的答案。DeepSearch 的演示显示，它可以分析 15 个 X 帖子和 32 个网页，并在约一分钟内生成详细的回答，展示其推理过程。

另一个显著特点是 Grok-3 的上下文窗口为 100 万个标记，是之前模型的 8 倍。这极大提升了其处理大型文档和复杂任务的能力，例如分析长篇报告或进行多步骤推理。

Grok-3 还有一个成本效益更高的变体，称为 Grok 3 mini，其性能在某些基准测试中也表现出色，例如 AIME 2024 准确率为 95.8%，LiveCodeBench v5 得分 80.4%。

训练与技术

Grok-3 的训练依托 xAI 的 Colossus 超级计算机，该计算机配备超过 20 万个 GPU，提供 10 倍于之前最先进模型的计算能力。训练过程包括两个阶段：第一阶段在 10 万个 GPU 上同步训练 122 天，第二阶段扩展到 20 万个 GPU，持续 92 天。据 xAI 开发人员称，构建这一基础设施的挑战甚至超过了开发模型本身。

训练数据主要基于合成数据集，并使用强化学习技术减少“幻觉”（即 AI 提供不准确或虚构的回答）。这一方法显著提高了 Grok-3 的事实准确性和逻辑一致性。

性能基准

Grok-3 在多个基准测试中表现出色，以下是其关键性能指标：

Chatbot Arena 的 Elo 分数为 1402。
AIME 2025（cons@64）准确率为 93.3%。
GPQA（通用目的问答测试）得分 84.6%。
LiveCodeBench v5 得分 79.4%。

这些成绩表明 Grok-3 在推理、问答和编码任务中表现卓越。此外，它在 LMArena Chatbot Arena 排行榜上以“chocolate”代号位居榜首，进一步验证了其领先地位。

与其他模型的比较

为了评估 Grok-3 的相对性能，xAI 提供了与主要竞争对手的基准比较表，涵盖多个测试指标。以下是详细比较：

基准测试	Grok 3 Beta	Grok 3 mini Beta	GPT-4o	Gemini 2.0 Pro	DeepSeek-V3	Claude 3.5 Sonnet
AIME’24	52.2%	39.7%	9.3%	—	39.2%	16.0%
GPQA	75.4%	66.2%	53.6%	64.7%	59.1%	65.0%
LCB	57.0%	41.5%	32.3%	36.0%	33.1%	40.2%
MMLU-pro	79.9%	78.9%	72.6%	79.1%	75.9%	78.0%
LOFT (128k)	83.3%	83.1%	78.0%	75.6%	—	69.9%
SimpleQA	43.6%	21.7%	38.2%	44.3%	24.9%	28.4%
MMMU	73.2%	69.4%	69.1%	72.7%	—	70.4%
EgoSchema	74.5%	74.3%	72.2%	71.9%	—	—

从表中可以看出，Grok-3 在大多数测试中优于 GPT-4o、Gemini 2.0 Pro、DeepSeek-V3 和 Claude 3.5 Sonnet，尤其是在 AIME’24 和 GPQA 测试中表现突出。

最近的免费访问更新

截至 2025 年 2 月 20 日，Grok-3 暂时对所有用户免费，这一优惠通过 xAI 的官方 X 帖子宣布，标题为“世界最聪明的 AI，Grok 3，现在免费（直到我们的服务器熔化）”。这一临时免费访问旨在提升用户参与度并收集反馈，但可能因服务器负载过高而突然结束。

DeepSearch 和 Think 模式的详细介绍

DeepSearch：这是 xAI 推出的第一个 AI 代理，旨在无情地寻求真相，跨越人类知识库。它可以合成信息，推理冲突事实，并从复杂性中提炼清晰度。使用案例包括实时新闻、社会建议和深入的科学研究。输出为简洁且全面的报告作为最终总结痕迹。访问方式为 X Premium+ 用户通过 x.com/i/grok 和 grok.com，企业合作伙伴也可通过 API 访问。
Think 模式：作为 Grok 3（Think）和 Grok 3 mini（Think）beta 推理模型的一部分，通过大规模强化学习（RL）优化，细化链式思维过程。Grok 3（Think）在 AIME’25 上达到 93.3% 的准确率，GPQA 得分 84.6%，LiveCodeBench 得分 79.4%；Grok 3 mini 在 AIME’24 上达到 95.8%，LiveCodeBench 得分 80.4%。用户可以通过点击“Think”按钮激活，查看推理过程，适合复杂问题。

模式之间的区别与用法

区别：Think 模式专注于模型的内部推理能力，不一定涉及外部搜索；DeepSearch 则涉及外部搜索，结合网络和 X 的信息进行推理。
用法：Think 模式适合需要展示推理过程的复杂问题，如数学或编程任务；DeepSearch 适合需要最新信息或研究性答案的问题，如科学报告或实时新闻。

API 调用方法的详细说明

开发者可以通过 xAI API 访问 Grok-3 和相关模型，步骤如下：

访问 xAI 控制台注册账户。
创建 API 密钥，API 兼容 OpenAI 和 Anthropic SDK，迁移只需更改 URL。
使用 API 端点与模型交互，支持文本生成、函数调用和系统提示等功能。

xAI 提供 $25 每月免费信用，开发者可通过 xAI API 博客获取更多信息。API 文档可在 xAI 文档找到，包含模型列表和定价信息。

未来计划

xAI 计划持续优化 Grok-3，包括频繁更新和引入新功能，例如工具使用、代码执行和高级代理能力。此外，公司关注可扩展监督和对抗性鲁棒性，以确保模型的安全性和可靠性。这些计划详细记录在 xAI 的文档中，例如 2025.02.10-RMF-Draft.pdf。

xAI 还鼓励开发者参与，提供了职业机会，感兴趣的个人可访问 x.ai/careers 申请。

结论

Grok-3 是 xAI 在人工智能领域的重要突破，其先进的推理能力、强大的计算支持和卓越的基准表现使其成为领先的 AI 模型。100 万个标记的上下文窗口尤其令人印象深刻，显著提升了其处理复杂任务的能力。随着 xAI 的持续开发，Grok-3 预计将在未来进一步推动 AI 技术的进步。

马斯克还可以，“地球上最聪明的人工智能”Grok-3免费了.md

Further Reading

I interviewed ChatGPT

我“采访”了 ChatGPT

陪女儿，用AI学英语.md