首页 > 科技 >

MIT与DeepMind联合研究:揭示视觉语言模型在否定表达理解上的困境

发布时间:2025-01-20 20:50:14来源:

1. 视觉语言模型(VLMs)在多模态任务中至关重要,但它们在理解否定表达方面存在挑战。现有模型如CLIP在处理否定陈述时表现不佳,主要因为预训练数据主要由肯定示例构成,导致模型难以区分否定与肯定陈述。这种限制在安全监控和医疗保健等领域尤为关键。

2. 为解决此问题,MIT、DeepMind和牛津大学的研究人员提出了NegBench框架,用于评估和改进VLMs对否定的理解能力。该框架通过合成数据集提升模型的训练和评估效果,显著提高了模型在处理否定查询时的召回率和多项选择任务中的准确率,为构建更强大的人工智能系统提供了支持。

免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。