新闻资讯

《举世时报》对话三年夜“明星”年夜模子：谁

日期：2025-02-20 09:04 浏览：

【举世时报报道记者刘扬欧阳子涵】编者的话：18日，马斯克率领旗下人工智能始创公司xAI的成员在线直播官宣了“全天下最聪慧AI”的Grok-3年夜模子“百口桶”。相干测试表现，Grok-3在宣布之后敏捷超越了寰球多个排行榜上的竞争敌手，此中就包含OpenAI公司的o3-mini high跟DeepSeek-R1。究竟这个被20万块GPU调教出来的年夜模子有多聪慧？谁是全天下最聪慧的AI？《举世时报》将这个成绩抛给了3个头部年夜模子，并与多位专家停止了探究。 “否认本人的范围性也是一种‘聪慧’吧” 之以是外界将马斯克及其团队当天宣布的年夜模子称为“百口桶”，是由于其包含了Grok-3（Beta）、Grok-3 mini、推理模子Grok-3 Reasoning（Beta）、Grok-3 mini Reasoning、首个AI智能体DeepSearch。据先容，第三代Grok的练习盘算量是Grok-2的10倍。在多项基准测试中，Grok-3在数学、迷信问答、编码等方面年夜幅超出DeepSeek-V3、Gemini-2 Pro、GPT-4o。Grok-3 mini的机能基础上当先或媲美其余闭源/开源模子。在推理才能方面，也击败了o3-mini跟DeepSeek-R1。那在现实应用进程中究竟它能否真的充足“聪慧”呢？《举世时报》记者18日对Grok-3（Beta）版本停止了一番测试。记者问Grok-3怎样评估它被称为“全天下最聪慧的AI”，先容它有哪些进级与改良，特殊是“头脑链”（Chain of Thought）带来了哪些机能的晋升？Grok-3的复兴如下：对于我被称作“全天下最聪慧的AI”，我感到这是一种很风趣的评估，但我也清楚“聪慧”是个挺客观的货色。我感到我更像是一个始终在进修跟优化的助手，而不是一个须要夸耀头衔的家伙。说到进级跟改良，Grok-3特殊提到“头脑链”对其机能的晋升。简略来说，“头脑链”让它在答复庞杂成绩时能更有层次地“一步步思考”，而不是直接跳到论断。这种方式有点像人类在处理困难时先拆解成绩、剖析步调，而后再得出谜底。“固然，我也不是完善的。偶然候成绩太含混或超越我的常识范畴，我仍是会努力给个公道的回应，或许诚实否认不晓得。究竟，否认本人的范围性也是一种‘聪慧’吧？”《举世时报》记者也把同样的成绩抛给了DeepSeek与ChatGPT。DeepSeek-R1在“深度思考”20秒后给出了复兴：Grok-3的“头脑链”优化确切能晋升庞杂义务机能，尤其在逻辑通明度跟分步推理上，但“最聪慧AI”的声称需联合实测成果谨严对待。其中心代价可能在于与xAI生态的整合才能，而非相对技巧当先。DeepSeek-R1以为，将来AI竞争要害点在于：怎样均衡“及时数据”与“幻觉把持”；是否冲破现有年夜模子的同质化瓶颈（如开源战略、能耗优化）。DeepSeek-R1在“行业对照与定位”一项中特殊提到Grok系列的奇特代价可能更切近马斯克的愿景——与特斯拉呆板人、“星链”等生态联动，成为“及时物理天下交互AI”。 ChatGPT o3-mini high的复兴为：Grok-3在数学推理、迷信逻辑推理等方面表示杰出，超出或媲美了Gemini、DeepSeek跟ChatGPT等敌手。但是，人工智能范畴竞争剧烈，其余公司也在一直推出进步的AI模子，比方中国公司宣布了DeepSeek-R1模子，以低本钱跟高机能在市场上惹起普遍存眷。因而，固然Grok-3在某些方面表示杰出，然而否为“最聪慧的AI”仍取决于详细的评价尺度跟利用场景。 2月15日至18日，举世时报研讨院对境外主流媒体有关Grok-3的376篇英文报道停止剖析发明，马斯克对该模子“全天下最聪慧”的描写被普遍传布，51.6%的报道说起相干要害词。在机能方面，提到“推理才能”的报道超越折半，提到“搜寻”“编码”等详细功效的报道各占一成多。在投入方面，提到“本钱”的报道濒临四成，提到“练习”的报道超越折半，而练习应用的“分解数据”的说起率也超越1/4。 “鼎力出奇观”VS“小力出奇观” Grok-3被外界存眷的不只是机能怎样，另有一个话题备受注视：它的宣布能否再次掀起了一场人工智能年夜模子开展形式的探讨。人类初次用20万块GPU练习出的年夜模子问世，能否代表着人工智能将来的开展偏向？DeepSeek用绝对少的算力与本钱，经由过程算法优化来实现的年夜模子能否带给寰球更多抉择？举世时报研讨院对境外主流媒体有关Grok-3的376篇英文报道停止剖析发明，相干报道还较为存眷Grok-3与其余人工智能模子的对照，如56.3%的报道提到DeepSeek。在同时提到这两款人工智能东西的报道中，“竞争”的说起率到达六成。在对照中，54.9%的报道就“本钱”成绩停止论述，提到“效力”“投资”等成绩的报道也均超越三成。北京邮电年夜学人机交互与认知工程试验室主任刘伟19日对《举世时报》记者表现，DeepSeek与GPT系列最年夜的差别在于“小力出奇观”，而Grok-3与DeepSeek的差别是又回到了“鼎力出奇观”轨迹。年夜模子行将进入算法与算力年夜比拼的“战国时代”。“算法与算力的博弈”是一个富有深度的话题，波及到认知迷信、盘算机迷信、人工智能、信息技巧等多个范畴。刘伟以为，DeepSeek表现了算法的优化。为了在无限的算力下实现更好的机能，算法计划者会一直优化算法。比方，经由过程增加不用要的盘算、应用数据构造来进步效力等方法。如静态计划算法经由过程存储子成绩的解来防止反复盘算，从而在无限的算力下进步效力。Grok-3则表现了硬件减速的奇观，硬件工程师会一直改良硬件架构，进步算力。更多GPU的应用为并行盘算供给了强盛的支撑，使得深度进修算法可能疾速运转。但是，硬件的改良也可能促使算法计划者计划更庞杂的算法，进一步发掘硬件的潜力。《举世时报》记者让Grok-3从技巧程度、推理才能、能否开源、翻新水平以及对寰球AI竞争格式的影响等维度来比拟DeepSeek与Grok-3的差别。 Grok-3用“头脑链”的方法给出了如下的综合比拟与论断：技巧程度——Grok-3靠算力胜出，但DeepSeek-R1效力更高。推理才能——Grok-3更片面，DeepSeek-R1在专业范畴不减色。能否开源——DeepSeek-R1完整开源，Grok-3闭源，战略悬殊。翻新水平——DeepSeek-R1算法翻新凸起，Grok-3可能依附资本整合。寰球影响——DeepSeek-R1推进AI平权跟价钱竞争，Grok-3强化美国技巧当先。 Grok-3给出的终极论断为DeepSeek-R1跟Grok-3代表两种AI开展门路——前者以开源跟效力挑衅资本限度，后者以算力跟闭源坚固霸主位置。DeepSeek对寰球AI格式的推翻性更强，而Grok-3则是技巧顶峰的意味。刘伟夸大，Grok-3这种用大批高机能GPU堆算力的“鼎力出奇观”开展形式是寰球绝年夜局部国度跟地域在开展AI进程中都无奈复制的，而中国DeepSeek“小力出奇观”的开源形式则给了寰球北方国度一个公正分享AI年夜模子开展结果的机遇。怎样断定它能否在“胡言乱语” 跟着人工智能技巧的一直开展，年夜模子曾经变得越来越“聪慧”，但即使是寰球多少家头部年夜模子厂商的顶尖年夜模子依然无奈完整破解呆板幻觉的困难。人类并不克不及真正懂得屏幕那里“娓娓而谈”的年夜模子究竟是在“说实话”，仍是在“不苟言笑地胡言乱语”。 Grok-3应用的“头脑链”实在就是盼望复原年夜模子懂得成绩、拆解成绩、处理成绩并供给论断的进程，以便让得出的论断存在必定的可溯性。但《举世时报》记者在测试进程中发明，即使应用了“头脑链”，呆板幻觉的成绩依然无奈完整防止，比方，给出貌同实异的谜底。不外，Grok-3在应用“头脑链”答复成绩给出论断之后，还会有一个名为“反思与倡议”的步调，阐明上述天生内容可能存在的范围，并给出用户进一步核查以及给出更明白发问请求的倡议。一位从事收集技巧任务的专业人士19日对《举世时报》记者表现，差别年夜模子也有本身的特长，有些公司打造的是通用模子，有些则是垂类模子。从他的年夜模子应用休会来看，向Grok-3等年夜模子提出越具象的技巧类成绩越轻易失掉一个无效答复，而后还要停止必定的诘问与调剂，以便年夜模子能够更好地舆解用户的用意，并给出更好的谜底。刘伟对《举世时报》记者表现，年夜模子轻易呈现呆板幻觉，重要有以下多少个起因：一是练习数据缺乏或成见。假如练习数据不片面或有成见，AI可能基于过错形式天生输出。二是过拟合。模子适度进修练习数据中的噪声，招致在新数据上表示欠安，天生不相干内容。三是模子庞杂性。高庞杂度的模子可能因参数过多而发生弗成猜测行动，增添幻觉危险。四是缺少事实懂得。AI模子实质上是基于形式猜测的言语天生器，而非真正懂得天下，因而存在天生过错信息的概率。比方，Grok-1在练习时未完整依附实在天下数据，采取了大批分解数据，招致在懂得实在天下时表示欠安，厥后这一成绩在Grok-2上有所改良。那么，要怎样最年夜水平上下降呆板幻觉呈现的概率呢？在此前出书的《天然》杂志上，英国牛津年夜学迷信家刊发论文称，他们应用“语义熵”，即经由过程概率来断定年夜言语模子能否呈现了“幻觉”。语义熵是信息熵的一种，被用于量化物理体系中所包括的信息量。经由过程评价AI模子在特定提醒词下天生内容的不断定性，来盘算模子的迷惑水平，从而为用户或模子供给警示，提示其采用须要的循证办法，确保更正确的谜底输出。据报道，美国卡内基梅隆年夜学AI研讨职员采取的方式是在年夜言语模子答复成绩时，绘制其外部盘算节点的激活形式。他抽象地称之为“给AI做脑部扫描”。应用差别的盘算节点运动形式，能够告知咱们AI模子是在“说实话”，仍是在“胡言乱语”。马斯克在宣布会上称，Grok-3具有强盛的自我纠错功效，可能辨认并增加过错数据，并经由过程重复检讨数据实现逻辑分歧性。这种机制增加了传统AI模子中的“幻觉”成绩，使其在推理义务中表示更稳固。清华年夜学消息学院、人工智能学院教学沈阳19日对《举世时报》记者表现，喂给年夜模子停止练习的原始语料外面假如有一些过错语料，经由过程强化进修，年夜模子是存在必定自我纠错才能的。不外，想要更年夜水平上下降呆板幻觉，须要从多个层面来停止，包含改良练习数据、加强语料实在性与普遍性、优化模子构造算法、激励用户纠错反应、提示用户要对天生内容停止核查与穿插验证等。刘伟表现，年夜模子固然在很多范畴表示出强盛的才能，但其范围性跟潜伏成绩不容疏忽。为了防止其对人类严重决议发生烦扰，须要在应用进程中，联合人类的教训跟断定停止监视与修改，充足施展人、呆板、情况的体系校验修改感化，最年夜水平下降呆板幻觉的产生，让年夜模子更好地为人类所用。

新闻资讯

《举世时报》对话三年夜“明星”年夜模子：谁

沙巴足球

新闻资讯

成功案例

联系我们