ACL 2026 Oral论文，大模型被短语难住的真相，语义推理能力仍有重大缺陷

研究发表于 ACL 2026 主会，并获选为 Oral 论文，核心作者为北京通用人工智能研究院的研究者刘洋和北京科技大学的本科生李鸿铭，指导老师为北京科技大学外国语学院教授秦晓惠以及计算机与通信工程学院副教授刘乾坤和黄超。
论文标题：Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models项目主页：https://semanticqa.github.io论文链接：https://arxiv.org/pdf/2604.16593评测实现：https://github.com/jacklanda/SemanticQA
AI 的能力边界正在不断被刷新。从数学推理到代码生成，再到数字化白领，语言模型和语言智能体在诸多基准测试中已展现出超越人类专家的表现。一个看似顺理成章的判断早已成为共识：语言模型已经具备了扎实的语言理解和语义推理能力。然而，ACL 2026 Oral的一项研究工作从一个更基础的层面重新审视了这个问题：语言模型真的理解（短语）语义吗？
问题的起点，是一类经典的语言现象。「Kick the Bucket」不是「踢桶」，「Rocket Science」并非「火箭科学」，「Alarm Clock Rings」也远不止字面意义上的「闹铃」。这类多词表达（Multiword Expressions，简称为 MWE）在自然语言中无处不在，它们的含义往往无法从各个组成词语中直接推导，需要结合语境、惯例乃至世界知识才能准确理解。长期以来，这被视为自然语言处理的经典难题，如鲠在喉（A Pain in the Neck for NLP）[1] 。
时至今日，这道难题依旧摆在了前沿模型面前。
来自北京通用人工智能研究院与北京科技大学的研究者提出了一个分析框架SemanticQA，系统评估了模型在短语语义理解上的真实水平。
不同于以往孤立考察单一任务的做法，SemanticQA 将语义理解拆解为三种原子操作：分类（Categorization）、抽取（Extraction）与释义（Interpretation），并在此基础上覆盖了四类典型短语现象：惯用表达、固定搭配、复合名词与动词多词表达，形成了一个结构严谨、覆盖广泛的诊断性测试基准。
评估对象横跨十余个模型，从 BERT 和 T5 等经典架构模型，到 GPT-5、Claude Sonnet、DeepSeek-R1 和 Gemini 2.5 Pro 等近期前沿模型，几乎涵盖了主流的开源与闭源系统。
反直觉的结论：即便是最先进的大模型，在处理短语层面的语义时仍存在系统性缺陷。没有任何一个模型能够在所有任务上保持稳定的高水准表现，不同操作类型之间的性能落差显著：模型或许能够流畅地解释一个惯用语，却在精确抽取相同表达时屡屡失手；分类任务随着语义类别数量的增加急剧退化，而在需要多步骤串联的组合任务中，上游的抽取错误更会如滚雪球般放大下游的解释偏差。更值得警惕的是，那些在语义相似度指标（如 BERTScore）下表现亮眼的模型，未必真正掌握了结构性的语义推理能力。高分背后，可能只是对示例模式的精巧模仿。
这些发现提醒我们：在为语言模型的惊人能力欢呼之前，或许值得在更基础的地方多停留片刻。短语，是语言理解扎根的地方。
当前主流的推理评测基准大多聚焦于数学求解、代码生成与逻辑推断。它们考察的是模型在显式符号规则下的运算能力，却鲜少触及语言最基本的构成单元 —— 短语 [2][10]。事实上，大量日常表达的含义并非来自词语的简单叠加，而是涌现于词汇之间的约定俗成、语境线索与世界知识的交织之中。现有评测的盲区，恰恰就藏在这里。
与现有基准不同，SemanticQA 没有简单堆砌任务规模，而是先做了一步简洁的抽象：将「短语语义理解」拆解为三个可操作的基本能力环节：
抽取：从句子中准确识别目标短语，要求完成精确的跨度定位，而非模糊的猜测；分类：判断该短语的语义类型（如习语、固定搭配、名词复合词等），考察模型对语义关系的结构化理解；释义：在给定语境下生成该短语的释义，要求模型将潜在的词义解释成可读的自然语言陈述。
这三步分别对应结构识别、语义判断和生成表达，共同构成对短语语义的完整检验。它们的输出形式各异，抽取要求精准的字面匹配，分类依赖有限选项内的判断，释义则是开放式的语言生成 —— 这种结构差异本身，也成为诊断模型能力边界的有效手段。
其核心设计思想是「操作对齐」（Operation-Aligned）：同一个短语实例在不同任务中被统一建模，采用固定的提示模板加以呈现，从而有效压制提示诱导带来的噪声，使不同模型之间的横向比较更加公平可靠。这一设计也直接回应了传统评测中长期存在的混淆：任务表现不等于能力水平，一个模型或许凭借格式敏感性在释义任务中得高分，却在抽取同一短语时茫然失措。
换句话说，如果模型真的理解了某个短语，它应当在这三类任务上表现出稳定的跨操作一致性，而非只在某一类上擅长。正是这种一致性，才是 SemanticQA 所定义的（短语）语义推理能力。
在数据层面，SemanticQA 涵盖了四类最典型、也最让语言处理系统头疼的短语现象：习语（Idiomatic Expressions）、固定搭配（Lexical Collocations）、名词复合结构（Noun Compounds）和动词多词表达（Verbal MWEs）[3][8]。这些表达广泛存在于自然语言中，且其含义往往无法通过简单的词义组合规则推导，正是检验模型「真理解」还是「假套路」的试金石 [4][5]。
SemanticQA 基于现有多个语义标注资源构建，这些资源在标注协议、难度分布及语义粒度上存在显著差异。该基准汇总了各任务来源的数据集、输入输出结构、测试样本数量及所涵盖的短语类型，从而展现了其规模与多样性：上千条的测试样本，覆盖检测、抽取与释义三类语义任务，且每个任务均采用统一的提示模板、句子上下文及输出格式。这种标准化却非同质化的设计旨在反映真实语义标注场景中固有的自然变异性，而非强行要求不同来源之间保持难度或标注一致性。因此，SemanticQA 适于展现这种异质性，但不适用于对短语类型进行绝对化的横向比较。
短语现象具有高度多样性，不同文献中使用的术语亦不统一。为保障基准的可复现性，SemanticQA 通过显式列出细粒度的子类别，避免将短语简单二分为「习语 vs. 非习语」的粗放式分类，从而支持研究者深入分析模型在特定语义子类上的性能表现。例如，模型可能对非组合习语完全失效，却在可分解习语上表现良好，这一差异有助于揭示模型究竟是依赖局部词义线索，还是基于整体的短语模式进行语义判断 [6][7]。
SemanticQA 不只看模型会不会做，而是看它在抽取、分类和释义三种不同约束下是否一致。
研究发现，即便是当前的前沿模型，在这三项核心能力上也远未均衡发展：
分类任务：模型对粗粒度的语义判断尚可应付，但面对结构化的语义关系时，依然缺乏显著的归纳能力。抽取任务：要求模型从句子中精确圈出目标短语，是最能反映「是否真看到」的操作。即使模型能在分类或释义任务中表现良好，其抽取准确率却往往十分低下。这种不一致表明，模型往往依赖上下文中的表面模式来猜短语边界，而非真正理解其「句法 vs. 语义」地位。释义任务：生成的释义在短语结构、语义焦点方面与标准答案存在偏差。换句话说，模型擅长「说得像」，却不一定「说得对」。将释义与抽取、分类结果对照时，经常出现「能解释却抽不对」或「能分类却解释偏」的割裂现象，暴露出语义推理的不确定性。
以 GPT-5 为例：在习语分类（IED）五样本提示（5-Shot）设定下达到 85.4% 的分类准确率，但对应的习语抽取（IEE）仅为 78.7% 的精确匹配率，而习语释义（IEI）则只有 22.5% 的表面相似度（Meteor）。这种落差意味着：模型可以「猜对类别」，甚至「生成合理的解释」，但并不具备跨任务一致的语义表示。
更典型的是抽取任务。研究指出，抽取是最能暴露模型是否能看到「短语边界」的操作。多个模型在释义任务上取得较高的语义相似度（BERTScore），却在严格按照精确匹配的抽取任务中明显失效。例如：GPT-5 在名词复合词释义（NCI）中的语义相似度（BERTScore）可达到 96.8%，但同一模型在对应的 NCE 上的抽取准确率仅 79.0%。这说明当前模型更擅长生成语义上相似的话语，但无法以同样的熟练度实现稳定的短语抽取。
三项任务之间的不一致，正是语义理解能力欠缺的直接证据。一个真正理解短语语义的模型，应当在结构化输出（抽取）、离散决策（分类）和自由生成（释义）上保持行为兼容，而非只在某一种任务上取巧。
现实世界中的语义关系呈现出丰富且细粒度的特性，然而现有大多数基准仅测试粗粒度的语义分类（例如 2 至 4 个类别）。为考察模型是否具备真正的语义归纳能力，即：随着类别数增加，任务表现能否保持稳定，抑或出现急剧退化，相关实验结果极具启发性：前沿语言模型擅长在粗粒度、高频的语义区分任务上表现出较高的表面准确率，但一旦需要精细区分十多个细粒度语义类别，其归纳能力显著不足。特别指出：DeepSeek-R1 的分类准确率从 81.7% 下降到 35.4%，跌幅达到 46.3 个百分点；GPT-5 虽然更稳定，但在 16 分类的条件下仍明显退化。这一现象表明，现有模型更多依赖表层的统计共现信息，而非具备真正的语义推理能力 [9]。
由于本工作的研究跨度较长，我们还特地对 OpenAI 的四款代表性模型（GPT-3.5-Turbo、GPT-4、o3 和 GPT-5）进行了跨越三年的历时分析。结果显示，多数任务表现出了显著的偏序和排名一致性，例如在 LCI、NCI 和 IEI 等任务中，模型性能随代际更迭呈现出稳步递增的趋势（GPT-5≥o3 > GPT-4 > GPT-3.5-Turbo），且 Few-Shot 提示普遍优于 Zero-Shot。
现实应用中的语义处理往往是多步流程，例如先抽取短语，再对其进行释义或分类。SemanticQA 专门设计了组合推理任务来模拟这一场景。结果显示：
抽取错误直接拖垮下游：即使模型在孤立释义任务中表现尚可，一旦输入来自自身抽取（而非人工标注）的短语，其释义质量便大幅下降。上游哪怕只出现少量边界偏移，下游的语义重建也会明显偏离。少样本无法补偿结构误差：增加演示样例能小幅提升抽取准确率，但对「条件式释义」（基于正确抽取的短语）提升有限。说明当前模型缺乏对中间结果的自我校验与纠错能力，难以构建稳健的语义处理流水线。分类组合任务同样敏感：要求先抽取后分类时，端到端准确率相比独立分类任务显著下降，且类别越多下降越剧烈。这表明模型在传递结构化语义时存在明显的衰减。
组合推理实验进一步揭示了「上游一步错，下游步步错」的问题。在「先抽取 + 后释义」的顺序任务中：GPT-5 在词汇搭配的组合任务中，5-Shot 条件下抽取准确率为 41.3%，条件释义（即抽对后再解释）的 Meteor 相似度可达到 41.8%，但整体的 Meteor 相似度最终仅为 17.3%。
这些结果揭示了一个被原子任务评测长期掩盖的事实：语言模型在单点任务上也许能产生高光表现，但同时也很容易在多步的级联任务中土崩瓦解。语义推理，必须经得起流程化检验。
SemanticQA 的设计思路给当前的语言模型评估带来五点重要启示：
单指标、单任务无法衡量语义能力。模型可能在释义任务上得高分，却在抽取任务上一败涂地；在四分类上接近人类，却在十六分类时崩溃。不同任务暴露的是互补的失败模式，只有多操作、多约束的对照评估，才能照见模型语义表征的实际水平。情境学习的收益因任务而异，不可一概而论。释义类任务从示例中获益稳定，抽取任务的表现却高度依赖示例与测试实例的结构匹配，一旦分布偏移，增加示例反而可能拖累性能。在实际部署中，示例的质量与任务适配，远比示例的数量更为关键。规模扩展不等于语义深化，领域监督有时比能力涌现更可靠。分类粒度从二分类扩展到十六分类时，千亿参数大模型的性能衰减幅度却远超小规模监督模型。这表明大模型对细粒度语义关系的「理解」，更多依赖于统计模式的共现而非结构化表示，领域监督所带来的收益可能远比单纯扩大规模更扎实。语义表征与任务格式深度耦合，而非操作无关。人类理解一个短语后，可以自然完成识别、归类与释义；但大模型却往往在多选分类中答对，却在开放抽取中失手，或在生成解释时产生语义漂移。当前模型习得更接近对任务格式的适应，而非真正意义上可迁移的短语语义表征。鲁棒性与诊断价值，是评测的意义所在。模型一旦从单步任务进入多步串联流程，上游的识别错误便会显著拖累下游语义质量，这种脆弱性在单任务评测中几乎无从察觉。随着主流基准加速饱和，评测的核心价值不应是给模型打出一个排名总分，而是精准揭示能力断层在哪里、为何存在以及如何修复。
本工作完稿于 2023 年，并于 2025 年进行修订和投稿录用。该诊断性评测基于单轮静态设计，在当时是合理的，但放到 2026 年的 Agent 语境下，它测的东西已经不够用了。Agent 不再是单轮推理，而是在长时运行：一步走偏，后面全部走偏，工具调用失败或推理错误被带入下一步、链路越长偏差越大导致掉入前缀陷阱，如蝴蝶效应般不可逆地叠加。因此，如何针对语言智能体进行动态自适应的评估，成为了当今更有价值的科学与实践问题。
静态 Evals 在 Agent 时代的根本性失效问题：
静态基准测的是能力截面，Agent 的风险在时间轴上，错误不是孤立的，它会被写入状态、沿链路传播叠加，第三步的幻觉在第七步才爆炸，而静态分数对此一无所知分数相同的两个模型，执行轨迹可能天差地别：一个靠运气蒙对，一个扎扎实实地走对。当当前真正有价值的问题不是 Evals 分数是多少，而是：评估体系本身能不能动态进化，打分模型要被验证、任务要有生命周期、任务执行轨迹要作为审计入口、安全护栏要有一票否决权；Evals 不是测试的升级，是 Agent 时代唯一可执行的产品定义方式，因为我们无法用 PRD 定义一个概率系统。
语义推理不是黑盒系统里的灵光一现，而是可分解、可检验以及可追溯的系统能力。SemanticQA 通过操作对齐的设计，将（短语）语义理解这一古早难题重新带回研究前沿，并给出了一个清醒的判断：语言模型远未真正「懂语言」，至少在短语层面，它们有了很大的改进，但仍在摸索前行。这项工作的意义不仅在于指出不足，更在于提供了一套可操作、可复现的诊断工具，帮助社区朝着更稳健、更结构化的短语处理前沿迈进。
[1] Shwartz and Dagan. Still a Pain in the Neck: Evaluating Text Representations on Lexical Composition. TACL 2019.
[2] Wei et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
[3] Constant et al. Multiword Expression Processing: A Survey. Computational Linguistics 2017.
[4] Coil and Shwartz. From Chocolate Bunny to Chocolate Crocodile: Do Language Models Understand Noun Compounds? ACL Findings 2023.
[5] Espinosa-Anke et al. Evaluating Language Models for the Retrieval and Categorization of Lexical Collocations. EACL 2021.
[6] Chakrabarty et al. It’s Not Rocket Science: Interpreting Figurative Language in Narratives. TACL 2022.
[7] Pham et al. PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search. EACL 2023.
[8] Ramisch et al. A Survey of MWE Identification Experiments: The Devil is in the Details. MWE Workshop 2023.
[9] Miletic and Schulte im Walde. Semantics of Multiword Expressions in Transformer-based Models: A Survey. TACL 2024.
[10] Zeng and Bhat. Getting BART to Ride the Idiomatic Train: Learning to Represent Idiomatic Expressions. TACL 2022.
特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
机器之心Pro 2026-05-09 12:48:20
澎湃新闻 2026-06-11 08:00:27
机器之心Pro 2026-06-10 14:51:37
量子位 2026-06-07 04:37:43
机器之心Pro 2026-06-11 11:08:46
机器之心Pro 2026-06-10 22:27:20
华尔街见闻官方 2026-06-11 13:53:28
雷科技 2026-06-10 16:26:57
量子位 2026-04-23 11:44:18
驾驭信息纵横科技 2026-06-11 11:16:09
舊事別提 2026-06-11 05:16:33
驾驭信息纵横科技 2026-06-11 13:14:39
驾驭信息纵横科技 2026-06-10 13:33:33
驾驭信息纵横科技 2026-06-11 11:14:18
环球网资讯 2026-06-11 00:16:10
话心电影 2026-06-09 21:23:54
娱乐在一起668 2026-06-11 12:15:37
量子位 2026-06-11 12:10:57
澎湃新闻 2026-06-11 12:16:30
大风新闻 2026-06-10 18:03:41
lume情感语录 2026-06-11 10:54:28
海外网 2026-06-07 18:52:15
机器之心Pro 2026-06-09 20:21:15
机器之心Pro 2026-05-18 14:49:11
新智元 2026-06-11 12:38:37
华尔街见闻官方 2026-06-11 03:40:24
河南省人民政府网站 2026-06-11 12:17:13
中国新闻周刊 2026-06-11 07:22:08
SuperStreet超级街 2026-06-09 09:15:13
澎湃新闻 2026-06-11 00:14:03
环球网资讯 2026-06-10 22:08:27
新华社 2026-06-10 18:23:10
澎湃新闻 2026-06-11 11:52:30
北青网-北京青年报 2026-06-11 12:27:30
机器之心Pro 2026-06-11 11:40:22
量子位 2026-06-11 09:07:12
大咖看教育 2026-06-08 09:52:30
中安在线 2026-06-09 18:19:48
澎湃新闻 2026-06-11 11:54:27
看看新闻Knews 2026-06-10 22:50:27

ACL 2026 Oral论文，大模型被短语难住的真相，语义推理能力仍有重大缺陷

相关阅读