首页 > 科技 >

六大维度深度剖析:LLM「问题生成」能力首次正面交锋人类,伯克利等校最新研究成果揭晓

发布时间:2025-01-24 16:55:24来源:

研究人员首次对比了大型语言模型(LLMs)与人类在问题生成任务中的表现,从问题长度、类型、上下文覆盖范围及可回答性等六大维度进行了详细分析。研究发现,LLMs倾向于生成需要较长描述性答案的问题,且对上下文的关注更加均衡,与人类偏好有所不同。该成果通过引入自动化评估方法,扩展了现有的统计问题质量标准,为评估下游应用提供了经验。

实验采用两个大型语言模型GPT-4o和LLaMA-3.1-70b-Instruct,在大量维基百科上下文上生成问题并评估。结果显示,LLMs与人类在问题类型和长度上存在差异,且LLMs生成的问题在上下文分布上更为均衡。此外,LLMs生成的答案通常较长,但在保持评分的情况下可以压缩至更短版本。

免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。