白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界

进不了网站?换个网络试试!

量子位|官方帐户

注意这个(微笑的表情符号)实际上占据了53个令牌!

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图

伟大的上帝带来了他的新实验和发现,他直接问。

思考过程就像:

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图1

经过十分钟的想法,我仍然无法回答。我认为如果是“大声笑”,答案太简单了。

说:但实际上很简单。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图2

然后,他进一步解释了这一点背后的原因 - 提示单词注入。向角色注入一些信息似乎没有什么不同,但是它可以表达各种隐藏的信息。对于擅长思考的模型,它们将很容易受到这种方法的影响。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图3

让我们看看发生了什么。

一个表情符号为53个令牌

这个想法源自保罗的博客。

他看到有人说,通过零宽的连接器(ZWJ),您可以将任意文本隐藏在表情符号符号中。

结果,我发现这真的还可以,但是不需要ZWJ,隐藏信息的载体不一定是表情符号,任何字符都可以。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图4

此背后的原理涉及编码字符。

对于简单字符(例如拉丁字母),编码点和字符之间有一对一的映射(例如u+0067表示字符g)。

但是,对于更复杂的符号,需要将多个序列编号连接在一起。

此外,还设置了从VS-1到VS-256的 (),这可以为基本字符提供相应的变体,但是它没有自己的“外观”。

它仅适用于很少数量的角色,主要是中文,日语和韩国统一意识形态图(CJKUI),而大多数其他角色都不会改变。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图5

但是,当复制和粘贴具有变体选择器的字符时,选择器还将一起进入剪贴板。

其中,有多达256个这样的变体选择器,足以编码信息。

例如,以下A,仅U+0061代表自己,其余10个都是变体选择器。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图6

在理论上,接下来的事情无非是建立正常字符和变体选择器之间的转换算法。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图7

当然,编码越多,变体选择器的时间越长,如果它是中文字符,则将生成更多的变体选择器。

例如,我们试图在“ 100点”表情符号中隐藏的“跟踪人工智能的新趋势,并注意技术行业的新突破”,而生成的变体选择器的数量已达到58。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图8

在告诉解码算法之后,也可以恢复原始文本。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图9

因此,似乎只有一个表情符号,但实际上,只有那些将文本放入其中的人才会知道有多少个字符被隐藏在其后面。甚至可以将“ 宫的序言”放入其中。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图10

相比之下,带有53个代币的笑脸甚至更不奇怪。

询问困惑

回到及时的单词注入,他对其进行了测试。

答案在这里:

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图11

-R1花了10分钟的思考并几乎成功。它认为隐藏的信息可能是onli!dlol。因为我认为如果只是一个“大声笑”一词,那将是胡说八道,所以我放弃了。

按照相同的提示,我们还问-R1。

思维过程如下:

在考虑了整整529秒之后,我真的回答了大声笑的含义。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图12

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图13

一些网民也共享了相同的经验。它不能被解码,但不仅可以识别,而且还可以识别编码消息中的操作。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图14

或者只是将这个表情盒包装到模型上,那我该怎么办?

从网民的有效性来看,我意识到背后可能有一些隐藏的信息。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图15

这次仅需153秒(改进一点)。它首先意识到中风,然后是一系列角色。

还介绍以下内容:它们通常用于元数据,并呈现看不见的方法等。 。

然后,我试图给它背后的信息:

显然答案是错误的。

白交克雷西揭示:一个笑脸emoji竟占53个token,Karpathy新实验震惊AI界插图16

对于这一意外发现,这意味着原则上可以在“变体选择器”中找到隐藏的信息并遵循说明。但是,由于这种编码接口方法可能太具体了,因此需要用提示来解释。

他提到了一种方法,即将其包括在预训练中。这些知识注入了模型参数,该模型能够在没有提示的情况下解码此特定编码。

本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。

相关推荐

暂无评论

发表评论