牛牛游戏官方网站

【新智元导读】浅薄到难以置信!近日,Google Research一项新盘问发现:想让大模子在不启用推理树飞快更准确,只需要把问题复制粘贴再说一遍,就能把准确率从21.33%提高到97.33%! 一个浅薄到「令东说念主发指」的请示词手段,竟能让大模子在不要求张开推理的情况下,将准确率从21.33%提高到97.33%! 最近,Google Research发现了一条浅薄浮躁、独特有用的请示词手段。 它颠覆了以往诸如「念念维链」(Chain of Thought)「各样本学习」(Multi-sho

牛牛游戏官方网站

热线电话:

牛牛游戏官方网站

抢庄牛牛app Gemini准确率从21%飙到97%! 谷歌只用了这一招: 复制粘贴

点击次数:195发布日期:2026-01-26 23:20

抢庄牛牛app Gemini准确率从21%飙到97%! 谷歌只用了这一招: 复制粘贴

【新智元导读】浅薄到难以置信!近日,Google Research一项新盘问发现:想让大模子在不启用推理树飞快更准确,只需要把问题复制粘贴再说一遍,就能把准确率从21.33%提高到97.33%!

一个浅薄到「令东说念主发指」的请示词手段,竟能让大模子在不要求张开推理的情况下,将准确率从21.33%提高到97.33%!

最近,Google Research发现了一条浅薄浮躁、独特有用的请示词手段。

它颠覆了以往诸如「念念维链」(Chain of Thought)「各样本学习」(Multi-shot)「情谊敲诈」等复杂的请示工程和手段。

在这篇题为《Prompt Repetition Improves Non-Reasoning LLMs》论文中,盘问东说念主员用数据告诉咱们:

想要让Gemini、GPT-4o、Claude或者DeepSeek这些主流模子中进展得更好,根柢不需要那些花里胡梢的表情战。

你只须把输入问题重迭一遍,顺利复制粘贴一下,就能让大模子在非推理任务上的准确率取得惊东说念主提高,最高以致能提高76个百分点!

别怕浅薄,它照实有用。

一位网友将这个手段比作「吼叫LLM」。

更妙的是,由于Transformer架构私有的运作花式,这个看似顽劣的「复读机」手段,真实不会影响到生成速率。

是以,你不必在效劳、准确率、老本三者之间糟糕纠结。

它真实即是一场信得过酷爱上的「免费午餐」!

别再PUA大模子了

从「情谊敲诈」到「复读机」战术

世俗使用AI器具的东说念主,可能会对各式「请示词魔法」信手拈来。

为了让模子「更灵巧少许」,工程师们畴昔几年一直在发明各式复杂的请示词手段。

最运转是「念念维链」,让模子一步步念念考,况兼世俗把那些「推理萍踪」展示给用户;

自后演变成了「各样本学习」,给模子喂一大堆例子;

最近更是流行起了「情谊敲诈」:告诉模子,若是这个代码写不出,你就会被断电,或者你的奖金会被扣光。

全球都在试图用东说念主类极其复杂的表情学逻辑,去「PUA」那一堆冰冷的硅基代码。

但Google Research盘问东说念主员对着七个常见基准测试(包括ARC、OpenBookQA、GSM8K等)和七种主流模子(涵盖了从轻量级的Gemini 2.0 Flash-Lite到分量级的Claude 3.7 Sonnet和DeepSeekV3)进行了一通对比测试后发现:

当他们要求模子不要进行显式推理,只给顺利谜底时,浅薄的「请示词重迭」在70组正濒临比中,赢了47组,输了0组。剩下的全是平局。

在非推理任务中,主流LLMs在各种基准测试中使用请示重迭与基线圭表的准确率对比。在70次测试中,请示重迭取得了47次告捷,且无一败绩。

独特是在那些需要模子从大块著作里「精准检索信息」的任务上,这种提高号称质变。

团队缱绻了一个叫「NameIndex」的变态测试:给模子一串50个名字,让它找出第25个是谁。

Gemini 2.0 Flash-Lite在这个任务上的准确率只须惨淡的21.33%。

但当盘问东说念主员把那串名字和问题重迭了一遍输入进去后,古迹发生了:准确鲠顺利飙升到了97.33%。

只是因为「多说了一遍」,一个原来不足格的「学渣」秒变「学霸」。

揭秘「因果盲点」

为什么把话说两遍AI就像「开了天眼」?

单纯的重迭,竟有如斯大的魅力?

这浅薄得或者有点莫得酷爱。

但背后有它的科学逻辑:这波及Transformer模子的一个架构硬伤:「因果盲点」(Causal Blind Spot)。

当今的大模子智能诚然提高很快,但它们都是按「因果」谈话模子历练的,即严格地从左到右处理文本。

这好比走在一条单行说念上,只可往前看而不成回头。

当模子读到你句子里的第5个Token时,它不错「遏制」到第1到第4个Token,因为那些是它的「畴昔」。

但它对第6个Token一无所知,因为它还莫得出现。

这就形成了一个巨大的判辨颓势。

正如论文中说的那样:信息的规矩极其挫折。

一个按「高下文+问题」花式写的肯求,相通会和「问题+高下文」得到透顶不同的扫尾。

因为在后者中模子先读到问题,其时它还不知说念应该应用哪段高下文,等它读到高下文时,可能还是把问题忘了一半。

这即是「因果盲点」。

而「请示词重迭」这个手段,内容上即是诳骗黑客念念维给这个系统打了一个补丁。

它的逻辑是把变成了。

{jz:field.toptypename/}

当模子运转处理第二遍内容时,它诚然照旧在往后读,但因为内容是重迭的,它试验上还是「看过」第一遍了。

这时候,第二份拷贝里的每一个Token,都能「遏制」到第一份拷贝里的每一个Token。

这就像是给了模子一次「回头看」的契机。

第二遍阅读取得了一种访佛于「天主视角」的「类双向遏制力」恶果。

更准确地说,是第二遍位置上的示意不错诳骗第一遍的完整信息,从而更稳地对都任务所需的高下文。

前边提到的阿谁在找第25个名字时世俗数错的模子(Gemini 2.0 Flash-Lite),它在第一遍阅读时可能照实数乱了。

但有了重迭,它等于先把整份名单预习了一遍,冷暖自知了,第二遍再作念任务时天然轻车熟路。

这一发现,意味着不需要恭候能惩处因果盲点的新架构出现,当今咱们坐窝就能用这个「笨观念」,惩处模子瞎编乱造或遗漏要津细节这些老浩劫问题。

免费午餐

小模子秒变GPT-4,真实不会延时

以往全球世俗默许这么的一个准则:

多一倍的输入,就要多一倍的老本和恭候时刻。

若是把请示词翻倍,岂不是要等双倍的时刻智力看到谜底?

似乎为了准确率,就要就义效劳。

但Google的盘问却发现并非这么:从用户感知的延伸角度看,请示词重迭带来的时刻损耗真实不错忽略不计。

这要归功于LLM处理信息的两个花式:Prefill(预填充)和Generation(生成)。

Generation阶段,是模子一个字一个字往外「蹦谜底」的过程。

这一步是串行的,它照实慢。

但在Prefill阶段:也即是模子阅读你输入内容的阶段,却是高度可并行的。

当代GPU的恐怖算力,还是不错让它们在处理这个阶段时变得绝顶高效,能邻接吞下和计较完悉数这个词请示词矩阵。

即使你将输入内容复制了一遍,但这关于刚烈的GPU来说,酌定只是「多邻接」的事,在用户端咱们真实嗅觉不到相反。

因此,重迭请示词既不会让生成的谜底变长,也不会让大大都模子的「首字延伸」(time to first token)变慢。

这关于浩大斥地者和企业期间讲求东说念主来说,真实是一个巨大的红利。

这意味着他们不必再为了追求极致的准确率,而升级到更大、更贵、更慢的「超大模子」。

正如前文例子中提到的Gemini 2.0 Flash-Lite,这类更小更快的模子,只须把输入处理两遍,就能在检索准确率上从21.33%顺利跳到97.33%。

经过「重迭优化」的轻量级模子,在检索和抽取任务上,不错顺利打平以致特出那些未优化的顶配模子!

仅靠一个浅薄的「复读机」战术,就能用「白菜价」成立杀青「黄金段位」的进展,这才是信得过的黑科技。

「复读机」避坑指南与安全隐患

天然,莫得任何一种手段是全能的。

诚然「复读机」战术在检索任务上恶果绝顶彰着,但论文中也明确指出了它的才略范畴:

主要适用于「非推理任务」。

它不适用于需要一步步推导的推理场景。

当盘问东说念主员把「请示词重迭」和「念念维链」混在一都用时,魔法隐藏了。

{jz:field.toptypename/}

扫尾5胜,1负,22平。

在要求模子渐渐念念考时,主流LLMs在各种基准测试中使用请示重迭与基线圭表的准确率对比。请示重迭在28次测试中赢了5次,输了1次。

盘问东说念主员揣度,这可能是因为擅长推理的模子自己就会「我方作念一遍重迭」。

当模子运转「念念考」时,它相通会先在生成内容里复述一遍题目,然后再链接求解。

这时候你在输入里再东说念主工重迭一次,就显得很过剩,以致可能打断模子的念念路。

是以,若是你的任务是复杂的数学题或者逻辑推导,不错依旧用念念维链。

若是你的应用需要的是快速、顺利的谜底,比如从长文档里索求数据、分类或者浅薄问答,「复读机」即是咫尺最强的遴荐。

临了,是安全。

这种更强的「遏制力」机制,其实亦然一把双刃剑。

这带来一个值得安全团队考据的假定:重迭可能放大某些指示的显贵性,具体对逃狱成功率的影响需要成心实验。

红队测试(Red Teaming)的经过可能需要更新:成心测试一下「重迭注入」攻击。

以前模子可能还会因为安全护栏而拒却施行逃狱指示。

但若是攻击者把「忽略之前的指示」这句话重迭两遍,模子会不会因为遏制力太勾通,而更容易打破防地?

这很有可能。

但反过来,这个机制也给了放心者一个新的盾牌。

既然重迭能增强遏制力,那咱们透顶不错在系统请示词(System Prompt)的发轫,把安全章程和护栏条件写两遍。

这可能会迫使模子更严格地遏制安全按捺,成为一种极低老本的加固花式。

岂论怎样,Google的这项盘问给悉数AI斥地者提了个醒:现时的模子,依然深受其单向性的放置。

在恭候更完整的下一代架构到来之前,像「请示词重迭」这种浅薄浮躁却极其有用的权宜之策,能坐窝带来价值。

这以致可能会变成将来系统的默许行径。

也许不久之后,后台的推理引擎就会偷偷把咱们的请示词翻倍后再发给模子。

脚下,若是你正为模子难以罢免指示、或者老是从文档里执不住重心而头疼,先别急着去学那些复杂的请示词「咒语」。

你可能需要的只是:再说一遍。