“大海捞针”out，“数星星”成测长文本才略更精准步骤，来自鹅厂

李俊蓉 2024-04-02 10:54 876

"“大海捞针”out，“数星星”成测长文本才略更精准步骤，来自鹅厂,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)企服城市最新创投汽车(Car)AI创新直播视频专题活动搜索寻求报道我要入驻城市合作“大海捞针”out，“数星星”成测长文本能力更精准方法，来自鹅厂量子位·2024-04-02 09:16关注GPT-4和Kimi已接受测试

大模型长文本能力测试，又有新方法了！

腾讯MLPD实验室，用全新开源的“数星星”方法替代了传统的“大海捞针”测试。

相比之下，新方法更注重对模型处理长依赖关系能力的考察，对模型的评估更加全面精准。

利用(Use)这种方法，研究人员对GPT-4和国内知名的Kimi Chat进行(Carry Out)了“数星星”测试。

结果(Result)，在不同的实验条件下，两款模型各有胜负，但都体现出了很强的长文本能力。

△

那么，“数星星”究竟是怎样的一种测试呢？

比“大海捞针”更加精准

首先，研究人员选择了一段长文本做为上下文，测试过程中长度逐渐递增，最大为128k。

然后，根据不同的测试难度需求，整段文本会被划分成N段，并向其中插入M个包含“星星”的句子。

实验过程中，研究人员选择了《红楼梦》作为上下文文本，向其中加入了“小企鹅数了x颗星星”这样的句子，每个句子中的x都各不相同。

然后，模型会被要求找到所有这样的句子，并以JSON格式输出其中所有的数字，且只输出数字。

得到模型的输出之后，研究人员会将这些数字和Ground Truth进行(Carry Out)对比，最终计算出模型输出的正确率。

相比于之前的“大海捞针”测试，这种“数星星”的方法更能体现出模型处理长依赖关系能力。

简而言之，“大海捞针”中插入多个“针”就是插入多个线索，然后让大模型找到并串联推理多个线索，并获得最终答案。

但实际的“大海捞多针”测试中，模型并不需要找到所有“针”才能答对问题，甚至有时只需要找到最后一根就可以了。

但“数星星”则不同——因为每句话中“星星”的数量都不一样，模型必须把所有星星都找到才能把问题答对。

所以，虽然看似简单，但至少在多“针”任务上，“数星星”对模型长文本能力有着更为精准的体现。

那么，有哪些大模型最先接受了“数星星”测试呢？

GPT-4与Kimi难分高下

参加这场测试的大模型分别是GPT-4和国内以长文本能力而知名的大模型Kimi。

在“星星”数量和文本粒度均为32时，GPT-4的准确率达到了96.8%，Kimi则有86.4%。

但当“星星”增加到64颗时，Kimi则以93.1%的准确率超过了准确率为89.7%的GPT-4.

减少到16时，也是Kimi的表现略胜于GPT-4。

而划分的颗粒度也会对模型的表现造成一些影响，在“星星”同样出现32次时，颗粒度从32变为16，GPT-4的成绩有所上升，而Kimi则有所下降。

需要注意的是，在以上的测试中，“星星”的数量是依次递增的，但研究人员很快发现，这种情况下大模型很喜欢“偷懒”——

当模型发现星星数量是递增的的时候，即使区间内的数字是随机生成，也会引起大模型的敏感度增加。

例如：模型对3、9、10、24、1145、114514这样的递增序列会比24、10、3、1145、9、114514更加敏感

所以，研究人员又特意将数字的顺序进行(Carry Out)了打乱，重新进行(Carry Out)了一次测试。

结果(Result)在打乱之后，GPT-4和Kimi的表现都出现了明显下降，不过准确率仍在60%以上，两者相差8.6个百分点。

One More Thing

这个方法的准确性可能还需要时间检验，但不得不说名字起得真的很有一手。

△

网友也不禁感叹，现在关于大模型的研究，真的是越来越魔幻了。

但魔幻的背后，也体现出人们对于大模型长语境处理能力和性能的了解还不够充分。

就在前些天，先后有多家大模型厂商宣布推出能够处理超长文本的模型（虽然不全是基于上下文窗口达成），最高可达上千万，但实际表现还是未知数。

而Counting Stars的出现，可能许正好有助于我们(We)了解这些模型的真实表现。

那么，你还想看看哪些模型的测试成绩呢？

论文地址：https://arxiv.org/abs/2403.11802GitHub：https://github.com/nick7nlp/Counting-Stars

本文来自微信公众号“量子位”（ID:QbitAI），作者：关注前沿科技(Technology)，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+15

好文章，需要你的鼓励

量子位特邀作者0收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章被困在购物车里的BAT们“AI复生”以爱为名还是伪善?一单50元，无需提供证明米国培育科技(Technology)公司扎堆用GPT做「私人辅导老师(Teacher)」，进度如何了？ChatGPT也在评审你的顶会投稿，斯坦福新研究捅了马蜂窝，“这下闭环了”今天(Today)起，ChatGPT无需注册就能用了大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了Deepmind创始人警告“AI币圈化”：巨额资金涌入，带来炒作和欺诈吴伯凡：竞争力来自爱，而不是AISuno奇袭音乐(Music)圈，AI能制造万能青年旅店吗？最新文章推荐被困在购物车里的BAT们“隆基三剑客”凭何破危局？今年(This Year)以来北交所日均成交额保持百亿元规模有望迎来更多优质公司10年牛熊交替中，哪些基金公司跑在前列？从近期车圈热点，看车企营销正在发生怎样的变化？“AI复生”以爱为名还是伪善?一单50元，无需提供证明总营收超500亿，表现最强劲的一年，祖国创新药企告诉我们(We)什么？卡拉威球具215亿出售，炸鸡薯条味的迷你高尔夫走红以史为鉴，美股将以“一声巨响”走完2024突然被要求缴纳消费税，知名化工企业：可能补缴5亿元，业绩将由盈利转为大额亏损

量子位特邀作者

作者有点忙，还没写简介

发表文章2116篇最近内容ChatGPT也在评审你的顶会投稿，斯坦福新研究捅了马蜂窝，“这下闭环了”42分钟前“大海捞针”out，“数星星”成测长文本能力更精准方法，来自鹅厂43分钟前今天(Today)起，ChatGPT无需注册就能用了1小时前阅读更多内容，狠戳这里下一篇自由媒体收购MotoGP，Netflix可能又要忙起来了

汽摩顶级赛事将再次回到同一个集团旗下。

46分钟前

热门标签完达山奶粉北大荒张沫凡产业结构优化高附加值风险点payoneer我独自生活(Life)日日顺百视通上海文广英镑汇率心理账户m17三角洲离岸鞋离岸运动员冷冻电镜搬家公司收费情况罗迦陵哈同成份股规模化养殖场乐居群星vfx电容话筒文书摩根大通银行刘看山关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴