抢庄牛牛app Gemini准确率从21%飙到97%! 谷歌只用了这一招: 复制粘贴

点击次数：195发布日期：2026-01-26 23:20

【新智元导读】浅薄到难以置信！近日，Google Research一项新盘问发现：想让大模子在不启用推理树飞快更准确，只需要把问题复制粘贴再说一遍，就能把准确率从21.33%提高到97.33%！

一个浅薄到「令东说念主发指」的请示词手段，竟能让大模子在不要求张开推理的情况下，将准确率从21.33%提高到97.33%！

最近，Google Research发现了一条浅薄浮躁、独特有用的请示词手段。

它颠覆了以往诸如「念念维链」（Chain of Thought）「各样本学习」（Multi-shot）「情谊敲诈」等复杂的请示工程和手段。

在这篇题为《Prompt Repetition Improves Non-Reasoning LLMs》论文中，盘问东说念主员用数据告诉咱们：

想要让Gemini、GPT-4o、Claude或者DeepSeek这些主流模子中进展得更好，根柢不需要那些花里胡梢的表情战。

你只须把输入问题重迭一遍，顺利复制粘贴一下，就能让大模子在非推理任务上的准确率取得惊东说念主提高，最高以致能提高76个百分点！

别怕浅薄，它照实有用。

一位网友将这个手段比作「吼叫LLM」。

更妙的是，由于Transformer架构私有的运作花式，这个看似顽劣的「复读机」手段，真实不会影响到生成速率。

是以，你不必在效劳、准确率、老本三者之间糟糕纠结。

它真实即是一场信得过酷爱上的「免费午餐」！

别再PUA大模子了

从「情谊敲诈」到「复读机」战术

世俗使用AI器具的东说念主，可能会对各式「请示词魔法」信手拈来。

为了让模子「更灵巧少许」，工程师们畴昔几年一直在发明各式复杂的请示词手段。

最运转是「念念维链」，让模子一步步念念考，况兼世俗把那些「推理萍踪」展示给用户；

自后演变成了「各样本学习」，给模子喂一大堆例子；

最近更是流行起了「情谊敲诈」：告诉模子，若是这个代码写不出，你就会被断电，或者你的奖金会被扣光。

全球都在试图用东说念主类极其复杂的表情学逻辑，去「PUA」那一堆冰冷的硅基代码。

但Google Research盘问东说念主员对着七个常见基准测试（包括ARC、OpenBookQA、GSM8K等）和七种主流模子（涵盖了从轻量级的Gemini 2.0 Flash-Lite到分量级的Claude 3.7 Sonnet和DeepSeekV3）进行了一通对比测试后发现：

当他们要求模子不要进行显式推理，只给顺利谜底时，浅薄的「请示词重迭」在70组正濒临比中，赢了47组，输了0组。剩下的全是平局。

在非推理任务中，主流LLMs在各种基准测试中使用请示重迭与基线圭表的准确率对比。在70次测试中，请示重迭取得了47次告捷，且无一败绩。

独特是在那些需要模子从大块著作里「精准检索信息」的任务上，这种提高号称质变。

团队缱绻了一个叫「NameIndex」的变态测试：给模子一串50个名字，让它找出第25个是谁。

Gemini 2.0 Flash-Lite在这个任务上的准确率只须惨淡的21.33%。

但当盘问东说念主员把那串名字和问题重迭了一遍输入进去后，古迹发生了：准确鲠顺利飙升到了97.33%。

只是因为「多说了一遍」，一个原来不足格的「学渣」秒变「学霸」。

揭秘「因果盲点」

为什么把话说两遍AI就像「开了天眼」？

单纯的重迭，竟有如斯大的魅力？

这浅薄得或者有点莫得酷爱。

但背后有它的科学逻辑：这波及Transformer模子的一个架构硬伤：「因果盲点」（Causal Blind Spot）。

当今的大模子智能诚然提高很快，但它们都是按「因果」谈话模子历练的，即严格地从左到右处理文本。

这好比走在一条单行说念上，只可往前看而不成回头。

当模子读到你句子里的第5个Token时，它不错「遏制」到第1到第4个Token，因为那些是它的「畴昔」。

但它对第6个Token一无所知，因为它还莫得出现。

这就形成了一个巨大的判辨颓势。

正如论文中说的那样：信息的规矩极其挫折。

一个按「高下文+问题」花式写的肯求，相通会和「问题+高下文」得到透顶不同的扫尾。

因为在后者中模子先读到问题，其时它还不知说念应该应用哪段高下文，等它读到高下文时，可能还是把问题忘了一半。

这即是「因果盲点」。

而「请示词重迭」这个手段，内容上即是诳骗黑客念念维给这个系统打了一个补丁。

它的逻辑是把变成了。

当模子运转处理第二遍内容时，它诚然照旧在往后读，但因为内容是重迭的，它试验上还是「看过」第一遍了。

这时候，第二份拷贝里的每一个Token，都能「遏制」到第一份拷贝里的每一个Token。

这就像是给了模子一次「回头看」的契机。

第二遍阅读取得了一种访佛于「天主视角」的「类双向遏制力」恶果。

更准确地说，是第二遍位置上的示意不错诳骗第一遍的完整信息，从而更稳地对都任务所需的高下文。

前边提到的阿谁在找第25个名字时世俗数错的模子（Gemini 2.0 Flash-Lite），它在第一遍阅读时可能照实数乱了。

但有了重迭，它等于先把整份名单预习了一遍，冷暖自知了，第二遍再作念任务时天然轻车熟路。

这一发现，意味着不需要恭候能惩处因果盲点的新架构出现，当今咱们坐窝就能用这个「笨观念」，惩处模子瞎编乱造或遗漏要津细节这些老浩劫问题。

免费午餐

小模子秒变GPT-4，真实不会延时

以往全球世俗默许这么的一个准则：

多一倍的输入，就要多一倍的老本和恭候时刻。

若是把请示词翻倍，岂不是要等双倍的时刻智力看到谜底？

似乎为了准确率，就要就义效劳。

但Google的盘问却发现并非这么：从用户感知的延伸角度看，请示词重迭带来的时刻损耗真实不错忽略不计。

这要归功于LLM处理信息的两个花式：Prefill（预填充）和Generation（生成）。

Generation阶段，是模子一个字一个字往外「蹦谜底」的过程。

这一步是串行的，它照实慢。

但在Prefill阶段：也即是模子阅读你输入内容的阶段，却是高度可并行的。

当代GPU的恐怖算力，还是不错让它们在处理这个阶段时变得绝顶高效，能邻接吞下和计较完悉数这个词请示词矩阵。

即使你将输入内容复制了一遍，但这关于刚烈的GPU来说，酌定只是「多邻接」的事，在用户端咱们真实嗅觉不到相反。

因此，重迭请示词既不会让生成的谜底变长，也不会让大大都模子的「首字延伸」（time to first token）变慢。

这关于浩大斥地者和企业期间讲求东说念主来说，真实是一个巨大的红利。

这意味着他们不必再为了追求极致的准确率，而升级到更大、更贵、更慢的「超大模子」。

正如前文例子中提到的Gemini 2.0 Flash-Lite，这类更小更快的模子，只须把输入处理两遍，就能在检索准确率上从21.33%顺利跳到97.33%。

经过「重迭优化」的轻量级模子，在检索和抽取任务上，不错顺利打平以致特出那些未优化的顶配模子！

仅靠一个浅薄的「复读机」战术，就能用「白菜价」成立杀青「黄金段位」的进展，这才是信得过的黑科技。

「复读机」避坑指南与安全隐患

天然，莫得任何一种手段是全能的。

诚然「复读机」战术在检索任务上恶果绝顶彰着，但论文中也明确指出了它的才略范畴：

主要适用于「非推理任务」。

它不适用于需要一步步推导的推理场景。

当盘问东说念主员把「请示词重迭」和「念念维链」混在一都用时，魔法隐藏了。

{jz:field.toptypename/}

扫尾5胜，1负，22平。

在要求模子渐渐念念考时，主流LLMs在各种基准测试中使用请示重迭与基线圭表的准确率对比。请示重迭在28次测试中赢了5次，输了1次。

盘问东说念主员揣度，这可能是因为擅长推理的模子自己就会「我方作念一遍重迭」。

当模子运转「念念考」时，它相通会先在生成内容里复述一遍题目，然后再链接求解。

这时候你在输入里再东说念主工重迭一次，就显得很过剩，以致可能打断模子的念念路。

是以，若是你的任务是复杂的数学题或者逻辑推导，不错依旧用念念维链。

若是你的应用需要的是快速、顺利的谜底，比如从长文档里索求数据、分类或者浅薄问答，「复读机」即是咫尺最强的遴荐。

临了，是安全。

这种更强的「遏制力」机制，其实亦然一把双刃剑。

这带来一个值得安全团队考据的假定：重迭可能放大某些指示的显贵性，具体对逃狱成功率的影响需要成心实验。

红队测试（Red Teaming）的经过可能需要更新：成心测试一下「重迭注入」攻击。

以前模子可能还会因为安全护栏而拒却施行逃狱指示。

但若是攻击者把「忽略之前的指示」这句话重迭两遍，模子会不会因为遏制力太勾通，而更容易打破防地？

这很有可能。

但反过来，这个机制也给了放心者一个新的盾牌。

既然重迭能增强遏制力，那咱们透顶不错在系统请示词（System Prompt）的发轫，把安全章程和护栏条件写两遍。

这可能会迫使模子更严格地遏制安全按捺，成为一种极低老本的加固花式。

岂论怎样，Google的这项盘问给悉数AI斥地者提了个醒：现时的模子，依然深受其单向性的放置。

在恭候更完整的下一代架构到来之前，像「请示词重迭」这种浅薄浮躁却极其有用的权宜之策，能坐窝带来价值。

这以致可能会变成将来系统的默许行径。

也许不久之后，后台的推理引擎就会偷偷把咱们的请示词翻倍后再发给模子。

脚下，若是你正为模子难以罢免指示、或者老是从文档里执不住重心而头疼，先别急着去学那些复杂的请示词「咒语」。

你可能需要的只是：再说一遍。

上一篇：牛牛思选一部信号好的手机, 需要看什么?
下一篇：牛牛筹画机上“中断”的本体是什么？

真钱牛牛

首页

二人牛牛

多人牛牛

百人牛牛

千人牛牛

抢庄牛牛

骰子牛牛

牛牛棋牌

真钱牛牛

牛牛游戏官方网站

牛牛游戏官方网站

热线电话：

牛牛游戏官方网站

首页

二人牛牛

多人牛牛

百人牛牛

千人牛牛

抢庄牛牛

骰子牛牛

牛牛棋牌

真钱牛牛

抢庄牛牛app Gemini准确率从21%飙到97%! 谷歌只用了这一招: 复制粘贴