利来w66·(中国)您的最佳选择

新闻资讯

创业投资为您提供最新的资讯动态

集团新闻

当前位置：首页 - 新闻资讯

利来老牌国际颠覆认知：大模型不可靠越大越不可靠？最新研究登上 Nature

发布者：小编发布时间：2024-09-29 17:15:33 点击：

　　结果表明★◆■◆★，随着模型规模的增加，模型对不同自然语言表述的敏感度有所提高，能更好地应对措辞上的微调。然而，即使经过扩展和优化■★◆■■★，模型在不同难度级别的任务上仍然存在不一致的表现。而且★◆★■，在不同表述下，模型的回答准确率存在波动。

　　首先，这项研究中的参与者大多是非专家，这在解释校准难度值时需要谨慎。对于一些基准数据集，非专家可能无法解决大量问题★◆◆■◆★，而研究的目的是为了捕捉普通人群的预期难度◆■■，以便在所有数据集中进行可比性分析。

　　具体而言，未经优化的 GPT 和 LLaMA 模型对提示词的选择表现出极高的敏感性■◆■★■，尤其是在简单任务中。如果提示词选择得当，模型的表现会有所提升；而优化后的模型在提示词敏感性上有所改善，表现更加稳定◆★★■■，但也存在一定的变异性■◆◆。

　　以上结果表明，大参数模型在简单任务上可能会出现过度拟合或错误估计的风险，反而更不可靠◆◆■。

　　尽管正如预期的那样◆■，由于一些微调方法（如 RLFH），参数规模更大的 LLM 生成的答案更准确，尤其是在复杂任务上，但整体可靠性却较低。

　　这一现象在 GPT 模型中也尤为突出★◆，特别在处理诸如简单加法和字谜任务时，优化后的模型反而容易给出错误答案◆★。研究团队指出，这一现象表明当前模型的扩展可能过于集中于复杂任务，而忽视了简单任务。

　　研究团队对比了 GPT、LLaMA、BLOOM 三大模型系列在不同任务中的表现，尤其是在数字计算★■■、文字游戏、地理知识、基础与高级科学问题和信息转化等任务。通过对这些任务的正确率、错误率和回避行为的分析，揭示了模型扩展带来的能力反差现象。

　　研究团队称，这种现象与用户在模型上产生的过度信任密切相关，尤其是在用户面对看似简单的任务时。

　　这项研究不仅揭示了大模型扩展的关键盲区，更为未来的 AI 发展提供了新的方向——在模型规模与任务难度之间找到最佳平衡★■■★，或许才是智能进化的真正关键。

　　这意味着■■★，虽然一些优化方法使得模型更■◆■★◆“自信”■◆，减少了回避行为■★★◆◆，但错误率却随之增加。这一现象在 GPT-4 和 GPT-3.5-turbo 等模型中尤其明显，规模扩展并未带来预期的稳定性。对比 LLaMA 和 BLOOM 模型◆★★■，这一趋势虽然不那么明显◆◆★，但同样存在。

　　在模型未优化时■★★◆，回避行为比较常见，即当模型不确定答案时，往往会选择“不作答”或提供模糊的回应。然而★■■■，在经过扩展和优化后，模型则大幅减少了回避行为★★，转而给出了更多表面上◆★★★◆“合理”但实际上错误的答案◆★。

　　日前，一项发表在权威科学期刊 Nature 上的研究表明：相比于小参数模型，大参数模型不会承认它们的“无知”，而更倾向于生成错误答案◆◆。

　　尽管该研究在揭示 LLM 的提示敏感性、扩展与优化对性能的影响等方面取得了重要成果◆◆■■★，但仍存在一些局限性■■★。

　　以加法任务为例，虽然模型能够解决复杂的多位数加法◆◆，但在简单的两位数加法上却频繁出错。例如，所有 LLaMA 模型在最简单任务上的正确率未超过 60%，而在一些较难的任务中★◆，则表现得相对出色■■★。

　　同时，这项研究仅覆盖了部分模型，尤其是那些依赖外部工具或复杂推理技术的模型没有被纳入，这限制了对 LLM 在更复杂场景下动态表现的理解利来老牌国际，无法全面评估不同模型的潜力与问题。

　　经过优化的模型相比原始模型（raw models）在提示变化上更为稳定◆■★，且正确率更高，但在与人类判断难度的一致性和谨慎度方面表现较差。

　　该论文的第一作者 Lexin Zhou 表示■◆★◆★：“这可能会导致最初过于依赖模型的用户感到失望■■★。此外，与人类不同，避免提供答案的倾向不会随着困难而增加。例如，人类倾向于避免对超出其能力的问题给出反馈。这让用户有责任在与模型的交互过程中发现错误■■。◆■★◆■◆”

　　研究发现，人们对难度的认知存在不一致。论文作者之一 Yael Moros Daval 说道★■：“模型是否在我们预期的地方失败了◆★？我们发现■◆，模型在人类认为困难的任务上往往不太准确◆■◆★，但即使在简单任务上，它们也不是 100% 准确◆★★◆■★。这意味着不存在可以信任模型完美运行的‘安全区’。”

　　这项研究来自瓦伦西亚理工大学团队及其合作者利来老牌国际，他们在研究了 GPT★★★■◆■、LLaMA 和 BLOOM 系列大语言模型（LLM）之后发现——

　　在所有不准确的回答中，错误回答的比例有所上升，甚至在一些简单任务上出现更多低级错误。例如◆■★◆■，GPT-4 在处理简单的加法和字谜时的错误率竟比一些小模型高出 15%。这是因为模型不太可能回避回答问题——比如承认它不知道或者转移话题■★■★■。

　　而且，这项研究中使用的“自然■★◆★”提示是从多样化的来源中收集的，但未能获取这些提示在真实场景中出现的频率数据■★■◆◆。

　　研究人员表示，将进一步扩大关于人类难度预期和输出监督的数据集★◆■★◆★，以便将这些更高质量的数据引入模型训练中，并通过 AI 来训练监督者，从而改进模型的优化过程。

　　研究发现★■■◆◆，当用户的难度预期与模型的输出结果不一致时，尤其是对于简单任务，模型和用户的错误监督都会增加，且人类监督无法弥补这些问题★◆◆■★★。

　　一个令人意外的关键发现是，模型在面对复杂任务时表现显著提升，但在简单任务上的错误率却有明显上升◆◆★★★。这种现象称为“难度不一致（Difficulty Inconsistency）★★■”★■◆■★◆，即扩展后的模型在复杂任务上逐步提升了正确率★◆■★★■，但在简单任务上却容易出错◆◆■■。

　　该研究的通讯作者 José Hernández Orallo 教授表示：“语言模型的可靠性与人类对任务难度的感知不匹配★★★■■。模型能够解决博士级的数学问题，但同时却可能在简单的加法上出错■◆◆★■★。◆■■★”

　　此外★■★◆◆，研究仅覆盖了部分模型家族，尤其是那些依赖外部工具或复杂推理技术的模型没有被纳入。这限制了对 LLM 在更复杂场景下动态表现的理解，无法全面评估不同模型家族的潜力与问题。

　　这一结果颠覆了人们对 LLM 的传统认知，表明扩展模型并不总是能带来全面的提升，对其在实际应用中的可靠性提出了质疑。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布★◆★◆，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台★■。申请澎湃号请用电脑访问。

　　论文作者之一 Wout Schellaert 表示：“最终，从人类的角度来看◆★，LLM 变得越来越不可靠◆■★★★■，而用户监督来纠正错误并不是解决方案，因为我们往往过于依赖模型■★★◆■，无法识别不同难度级别的错误结果。因此，通用人工智能（AGI）的设计和开发需要进行根本性的改变■■★■★◆，特别是对于高风险应用■◆◆■，预测语言模型的性能并检测其错误至关重要。”

　　尽管人类对任务难度的预期可以作为模型正确性的预测指标★■◆◆■◆，但模型在简单任务上仍存在错误■■★；模型规模的扩展和优化不仅减少了回避行为◆■■★★，还导致错误率的增加，并且回避行为与任务难度无关；即便对模型进行了扩展和优化，提示工程的需求仍然存在■★■★◆，并且提示性能的提升并不随难度单调增加。

　　在医疗等关键领域，模型可以通过设计拒答选项或与外部 AI 监督者结合的方式◆■★◆◆★，提高其回避能力，最终使 LLM 展现出更符合人类预期的可靠性和一致性◆◆■■。

　　在这项工作中，研究人员从人类用户与 LLM 互动的角度，探讨了难度一致性、任务回避和提示稳定性三个核心交织元素对 LLM 可靠性的影响★◆■★。

　　回避行为是指模型在无法正确回答问题时◆◆■■◆◆，选择不作答或给出不符合要求的回应★■★◆◆。

　　除了难度不一致现象，研究还揭示了优化后模型中回避行为与错误率之间的微妙关系。

利来老牌国际官网

关于创投

新闻资讯

专题专栏

业务平台

创投基金

政策法规

项目在线

新闻资讯

创业投资为您提供最新的资讯动态

集团新闻

行业网站

主流站点

政府职能网站