阿里360月之暗面角逐长文本 记者实测国内大模型长文本哪家强

大模型应用Kimi智能助手火了,随之Kimi概念股华策影视在3月20日至22日连续三天20%的涨停板。消息面上,其运营公司月之暗面3月18日宣布Kimi长上下文窗口技术突破至200万字。

但200万字并非大语言模型的极限。3月22日,阿里云旗下的通义千问宣布重磅升级,向所有人免费开放1000万字的长文档处理功能。3月23日凌晨,360智脑也宣布继2月29日360AI浏览器开放100万字长文本阅读功能之后,500万字长文本处理功能也即将入驻。

巨头鏖战为何选择长文本,大模型长文本能力靠的是什么?3月24日至26日,新京报贝壳财经记者采访了多位大模型行业从业人员、学者,了解到大模型要实现长文本功能在算法和算力上都面临着挑战,但在上线长文本功能上,通过调优算法或者通过算力大力出奇迹甚至使用RAG(检索增强生成技术,是对大型语言模型输出进行优化的方法,使其能够在生成响应之前引用训练数据来源之外的知识库),都可以打造出该体验。

因此,贝壳财经记者对目前支持上传文档分析的大模型进行了实测,包括Kimi、智谱清言、通义千问、文心一言、讯飞星火和360浏览器AI助手,发现目前虽然许多大模型都能够分析文档,但生成的内容质量良莠不齐,上传文件大小或上传文件格式也存在限制。

为何选择长文本?长是否可保证精?

实际上,各个大模型对长文本的争夺很早就开始了。百川智能、零一万物等都曾以长文本领先业界为其宣传噱头,可以上传一部《三体》(第一部20万字)可上传《百年孤独》(近30万字)。

不过,在实际应用上因长文本等功能率先在关注度上脱颖而出的还是月之暗面旗下的Kimi智能助手。根据七麦数据,该APP在效率(免费榜)排名从1月14日的436名提升至3月19日的11名。2月份访问量达到近300万次,流量增长104.99%。分别位列AI产品国内总榜Top3和全球增速榜Top1。其还引发了Kimi概念股的走红。

对于长文本功能,月之暗面CEO杨植麟很早就提出了自己的设想,通往通用人工智能(AGI)的话,无损的长上下文将会是一个很关键的基础技术。历史上所有的模型架构演进,本质上都是在提升有效的、无损的上下文长度。上下文长度可能存在摩尔定律,但需要同时优化长度和无损压缩水平两个指标,才是有意义的规模化 。

在他看来,长文本作为月之暗面登月的第一步,是新的计算机内存,很本质,个性化并非通过微调实现,上下文定义了个性化过程。杨植麟还认为,大模型的马拉松刚开始,接下来会有更多差异化。

对于长文本功能,中国人民大学高瓴人工智能学院长聘副教授,曾主导研发算法生成人类史上第一本人工智能诗集《阳光失了玻璃窗》的宋睿华告诉贝壳财经记者,长窗口在计算效率上有一些挑战,但技术进步也不是线性的,月之暗面解决掉一些性能上的问题,确实可以一下子做到很长。另外,和它专注做长窗口有关,其他一些模型可能觉得那么长没有太多需求。

不过,随着Kimi的持续火爆,越来越多的大模型也开始了长文本领域的军备竞赛:3月18日至23日,Kimi和通义千问、360AI浏览器先后宣布将支持200万、1000万以及500万字的长文本功能。其中,Kimi和360AI浏览器的相关功能处于内测和即将推出状态,而通义千问已经可以直接支持1000万字的文档上传了。

对此,新京报贝壳财经记者将一部400万字左右的网络小说《诡秘之主》TXT文档上传至了通义千问,并对其提出了问题,通义千问很快做出了回复,不过其内容并非百分之百准确,如其在回答中搞混了该小说中途径和序列的区别,不过对于一些重点问题还是给出了正确的回答。

在通义千问中上传400万字文档后对其提问的回答结果截图。

而记者将同样的文档上传至Kimi智能助手和360AI浏览器,则发现该文档字数超过了Kimi的字数限制,Kimi只能阅读前4%的内容,不过其回答得更加详细。而360AI浏览器则不支持上传TXT或Word格式,只支持上传PDF格式。

Kimi智能助手阅读部分文档后,对提问结果的回答截图。

3月24日,某大模型厂商研究机构负责人告诉新京报贝壳财经记者,长文本的挑战在算法上主要是要加大训练参数规模的问题,大模型的本质是算概率,长文本的学习主要依靠对复杂文本的概率模型变化,所以为了保证效率算法调优是关键,当然如果算法搞不定也可依靠算力大力出奇迹,因此大厂通过堆资源的方式很快就能挑战Kimi的长文本功能。

有AI大模型的用户表示,长文本功能在许多场景都极具吸引力,如从冗长的公司财报中找到有价值的信息、上传自己撰写的小说寻求修改意见、总结会议纪要内容等,但对于一些对内容准确度要求高的工作,大模型还只能起到辅助作用,毕竟由于AI生成本身的幻觉问题,难保不会出现数据错误,因此还需要人最后再检查一遍。

实测长文本能力总结书籍、财报各有千秋 遗忘问题难解

贝壳财经记者发现,目前大多数大模型已经支持文本上传功能,例如对于12万字左右的PDF格式《中国移动有限公司2023年年度报告》,文心一言、360AI浏览器、Kimi、讯飞星火均可以进行分析,而智谱清言可以上传但显示本次回答已被终止,通义千问也可以上传但显示由于当前的交互模式限制,我无法直接访问或解析PDF文件内容。

记者横向比较财报分析内容发现,当要求根据财报文档分析中国移动业绩情况,以及其营收的主要增长点时,大部分模型都给出了最重要的营收和净利润数据,不过在分析营收增长点时,不同的大模型侧重点也不同,如Kimi侧重于个人市场、家庭市场、政企市场的营收,文心一言和讯飞星火均侧重于无线上网业务、有线宽带业务的营收,360则泛泛提到了营收正在增长。

文心一言对《中国移动有限公司2023年年度报告》的分析结果截图。

Kimi对《中国移动有限公司2023年年度报告》的分析结果截图。

360AI浏览器对《中国移动有限公司2023年年度报告》的分析结果截图。

讯飞星火对《中国移动有限公司2023年年度报告》的分析结果截图。

而对于8万字的Word格式《牛津通识读本》,上述大模型中除360AI浏览器不支持该格式上传外,其余大模型均可以进行内容总结和分析,其中总结的内容大同小异。

通义千问对《牛津通识读本》的解析结果截图。

360智谱对《牛津通识读本》的解析结果截图。

对于长文本能力的测试,AI科学家、硅谷创业者贾扬清认为,从严谨科研的角度,目前大海捞针的benchmark(基准测试)已经无法准确评价算法的优势。他认为,可以写一份从1到9999的数列,并随机在中间调换两个数字的位置,然后让大模型来寻找顺序错乱的一个,目前还没有找到稳定能成功的大模型。

对此,贝壳财经记者准备了包含从1到999顺序排列数字的一行Word文档,并将其中569和568两个数字的顺序对调,结果发现上述大模型中,360AI浏览器和通义千问无法解析内容,讯飞星火先显示只能数到527后表示没有两个顺序不同的数字,而Kimi则一口咬定顺序不同的数字是21和22以及999和1000。只有智谱清言和文心一言给出了正确的答案。

对大模型长文本解析能力的数字测试截图。

对于大模型的长文本能力,有致力于云厂商AI生态合作的从业者对贝壳财经记者表示,其实很多AI可以做成怎么样(包含但不限于长文本),看学术论文就能看到方法,但确实要实现方法不是人人都能做到,做到的效果也未必都一致,并不一定是越长越好,现在宣传的长文本并不等于该公司有那么长文本的模型。对用户界面就是上传个PDF之类的,并不能看出背后的模型的能力。不排除是用RAG或其他方式打造出来的体验。

在采访中,有多位AI从业者认为,目前,长文本能力或可以成为大模型公司吸引市场关注,赢得竞争的路径之一,不过要做好长准、成本三者之间的平衡,还需要不断摸索。

记者联系邮箱:luoyidan@xjbnews.com

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆

免责声明:本文作者:“新京报”,版权归作者所有,观点仅代表作者本人。本站仅提供信息存储分享服务,不拥有所有权。信息贵在分享,如有侵权请联系ynstorm@foxmail.com,我们将在24小时内对侵权内容进行删除。
(159)
张铭恩回应感情争议(娱乐圈里发生过哪些你
上一篇 2024年03月30日
含盐量高的蔬菜蚂蚁庄园(大连哪里有可以免
下一篇 2024年03月30日

相关推荐

  • 二次元游戏插画师培训怎么选?二次元游戏插画师培训推荐哪家?

    二次元游戏插画师培训怎么选?二次元游戏插画师培训推荐哪家?随着二次元文化的兴起,二次元游戏插画师的需求越来越大。越来越多的年轻人也希望能够成为一名优秀的二次元游戏插画师。但是,市面上的二次元游戏插画师培训机构众多,如何选择一家靠谱的培训机构成...

    2024年01月09日
  • 最牛女专科生曹晓洁:高考385分读技校,后被三家跨国公司疯抢

    2006年6月,四川女孩曹晓洁第二次走进高考的考场,6月底,四川高考成绩放榜,曹晓洁第一时间查到自己的成绩,总分385分。最后,她收到了江西先锋软件职业技术学院,软件开发专业的录取通知书。2008年底,曹晓洁专科毕业,同时收到福富软件公司、印...

    2024年01月22日
  • 云南闭壳龟(潘氏闭壳龟湖北种和四川种的区别)

    潘氏闭壳龟(学名:Cuorapani)是一种珍稀的陆龟,分布于中国的湖北和四川地区。虽然两个亚种都属于潘氏闭壳龟,但它们在外貌和分布上有一些区别。以下是湖北种和四川种之间的主要区别:...

    2024年01月27日
  • 部落最强小队!魔兽世界:补丁特种部队

    魔兽世界中有很多有趣的NPC,从大灾变版本一直到8.0争霸艾泽拉斯,相信补丁带头的地精战斗小组给大家留下了深刻的印象,还记得第一次遇到他们是在什么地方吗?大家一起来回忆一下吧!地精小队有5位成员组成,分别是补丁,蝾螈,钟摆,伏特,砂砾。他们是...

    2024年01月30日
  • 功守道揭幕战大咖云集,黑白太极谱写中华武术新篇章

    格斗世界快讯:11月15日14:30分,备受全球关注的中国原创体育IP《功守道》在北京星光影视园拉开揭幕战,作为近期最为火爆的体育关键词,功守道自11月12日优酷开播以来便创下收视奇迹,马云、李连杰、甄子丹、吴京、邹市明、洪金宝等武坛巨星在银...

    2024年02月25日
  • 昆山建行(843121开头的是什么银行卡)

    操作843121开头的是什么银行卡如下:建设银行银行卡开头843121是中国建设银行股份有限公司昆山分行,可以通过询问人工服务查询到的。...

    2024年02月29日
  • 孙中山三民主义(新三民与旧三民分别是什么)

    孙中山基本概念主义:一种思想,信仰,力量。民族与国家:由于王道自然力结合而成的是民族,在于霸道人为力结合而成的便是国家。民族的形成与血统、生活、语言、宗教和风俗习惯相关。政治:政:众人的事;治:管理;政治:管理众人的事民族主义那时候中国人只有...

    2024年03月06日
  • 未来家园(潮白河孔雀城潮白家园未来发展如何)

    潮白家园是由华夏集团开发的孔雀城系列产品之一,距离北京通州仅一河之隔,距国贸30公里,由于其交通优势(地铁6号线距离楼盘3.8公里,八通线也会设创展家居站)和区域规划的工业园区以及合理的城市级道路及配套规划。这里在未来会比燕郊更具发展潜力。产...

    2024年03月09日
  • 吻痕怎么快速消除(如何消除脖子上的吻痕)

    1、如果吻痕较浅,那么只需要一块热毛巾反复热敷几次,从而达到活血化瘀的作用,让吻痕变浅。2、如果吻痕较深,取两个鸡蛋煮熟,鸡蛋煮熟以后趁热捞出,然后剥壳,再找一块薄纱布,把鸡蛋裹在里面,手抓着纱布,拿剥壳的鸡蛋趁热在有痕迹的地方滚动。如果鸡蛋...

    2024年04月12日
  • 匈牙利足球(克罗地亚和匈牙利奥地利的足球水平是否一直处于中下)

    自从九十年代克罗地亚独立开始,他们的足球水平一直都比匈牙利和奥地利高多了。从96欧洲杯开始,克罗地亚一直都是世界杯和欧洲杯的常客,其中不乏经典赛事。至于匈牙利和奥地利?最近二十年来,只是偶尔打进世界杯或欧洲杯正赛,战绩平平,大部分时候,都是连...

    2024年05月11日
返回顶部