Home GPT-4o 这么水的吗?.md
Post
Cancel

GPT-4o 这么水的吗?.md

大家好,我是章北海

高考结束了,前几天市面上有很多测评大模型在语文作文和高考数学的表现。

我凑热闹也测试了通义千问、Kimi、智谱清言、Gemini Advanced、Claude-3-Sonnet、GPT-4o

《国产大模型参加高考,同写2024年高考作文,及格分》 文中,我设置了投票,观众评价这几个大模型谁“写”的作文最好。

收到了 106 个投票,GPT-4o 获55票,占比52%。

大模型的数学能力如何呢?

机器之心做了测试,我也转载这篇文章:高考数学,AI大模型被难倒,几乎全军覆没,GPT-4o仅得41 分

文中选择了GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5 去做高考数学考试(新课标 Ⅰ 卷)等试题。

机器之心评测了前 14 个客观题,覆盖了基础的数学知识和计算能力,满分为 73 分。

测试时,将题目直接输入,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。

最终得分如下:

我对这个结果蛮惊讶的

一是各路大模型表现都很一般,客观题表现居然都这么差。

二是GPT-4o表现居然仅排第三,这和它在作文上的表现差远了。

所以我有点好奇,如何把这GPT-4o做错的几道题用英语提问,结果会如何呢?

公平起见,也仅提问原题,不做Prompt引导。

单选题二:英文提问后回答正确✅

单选题六:英文提问后回答正确✅

单选题八:英文提问后回答依然错误❌

多选题二:英文提问后回答依然错误❌

多选题三:英文提问后回答依然错误❌

结论: 1、GPT-4o 用英文提问可以提升正确率,但有限。
2、国产大模型确实强,尤其是GLM-4,上周它还开源了,多模态能力比肩 GPT-4V。 3、大模型还是文科生,偏科严重,数学本身也是AI最难攻克的领域。 4、运用大模型应该扬长避短,要学会知“模型”而善用。

This post is licensed under CC BY 4.0 by the author.