就发布.png

2025-12-28 微信搜索 热度:456
北大期中考 174名大二生与AI对决 结局让人意外…

在北京大学化学与分子工程学院,有机化学考试是很多同学痛并快乐着的挑战。然而,期中考前突如其来的一条通知,却让这场考试的气氛变得不同平常:「请留意,本次考试範围不仅限于有机化学。」但比起考试範围的变化,考场里迎来的一批「特殊考生」,更让人意想不到。它们不需要落座,也无需纸笔。它们是GPT、GeminiDeepSeek……这些当来世界上最聪明的AI,正在云端与174位北大化学与分子工程学院的大二学生同场竞技。这是一场精心设计的「图灵测试」,也是北大科研团队为大语言模型投下的一块「试金石」。

北京日报报导,近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,发布了最新成果SUPERChem。近期,他们以一套「北大试卷」为标尺,冷静丈量着AI在科学推理上的真实边界。

报导指出,打开SUPERChem的题库,一种「压迫感」扑面而来。晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……这500道题目并非来自网络上随手可得的公然题库,而是源于对高难度试题和前沿专业文献的深度改编。

为什幺要费尽周折重新出题?「由于大模型太会『背书』了。」团队成员解释道。互联网可及的测试题大多已被博闻强识的AI在练习阶段熟读。而化学,恰正是一门不能只靠死记硬背的学科。它既有严密的逻辑推演,又布满了对微观世界的空间想像。

近百名师生—其中不乏奥赛金牌得主—集结起来,决定给AI出一套高门槛、重推理、防作弊的试卷。他们要考的,是AI是否真的「懂」化学。

在这场精心设计的考试中,人类展现出了複杂的科学直觉。作为基线,参与测试的北大化院本科生取得了40.3%的均匀準确率。

而AI的表现如何?即便是接受测试的顶尖模型,其成绩也仅与低年级本科生的均匀水平相当。

让团队感到意外的是视觉信息带来的困惑。化学的语言是图形,分子结构、反应机理图蕴含着关键信息。然而对于部分模型而言,当引进图像信息时,其準确率不升反降。这说明,当前的AI在将视觉信息转化为化学语义时,仍存在明显的感知瓶颈。

团队发现,AI的推理链条往往中断裂于产物结构猜测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型固然拥有海量的知识储备,但在处理需要严密逻辑和深刻理解的硬核化学题目时,仍显得力不从心。

报导指出,SUPERChem的诞生,填补了化学领域多模态深度推理评测的空缺。团队发布这项成果,并非为了证实AI的短板,而是为了推动它走得更远。

上一篇:被调包?江西博物院「米芾三札」墨色无变化、遭疑印刷品

下一篇:在非洲绑架殴打同胞、设局骗自己人 「非洲洋洋」被抓

赞 0
分享
最新动态

一元一分红中麻将群实录:那些搓麻日常里的烟火气与小欢喜

新手必看!一元一分红中麻将群,从入门到精通全攻略

封神级氛围!一元一分红中麻将群,麻友比牌局更治愈

不同牌型的应对策略:一元一分麻将群实战应变技巧

一元一分麻将群的“氛围营造术”:让群活跃不散场

搭子选择终极攻略:一元一分麻将群赢牌的核心逻辑

牌桌心理学:一元一分麻将群里的“读心术”

规则博弈:一元一分麻将群的“隐藏玩法”

从“送分童子”到“稳赢大神”:一元一分麻将群的进阶之路

一元一分红中麻将群特殊牌型实战(补篇):四红中、抢杠胡攻略,进阶必看

账号登录,或者注册个账号?