吴恩达ChatGPT课爆火：AI放弃了倒写单词，但理解了整个世界-热点聚焦

量子位公众号 2023-06-04 11:03:54

没想到时至今日，ChatGPT竟还会犯低级错误?

(资料图片)

吴恩达大神最新开课就指出来了:

比如让它反转下lollipop这个词，输出是pilollol，完全混乱。

哦豁，这确实有点大跌眼镜啊。

以至于听课网友在Reddit上发帖后，立马引来大量围观，帖子热度火速冲到6k。

而且这不是偶然bug，网友们发现ChatGPT确实无法完成这个任务，我们亲测结果也同样如此。

△实测编程客栈ChatGPT（GPT-3.5）

甚至包括Bard、Bing、文心一言在内等一众产品都不行。

△实测Bard

△实测文心一言

还有人紧跟着吐槽， ChatGPT在处理这些简单的单词任务就是很糟糕。

比如玩此前曾爆火的文字游戏Wordle简直就是一场灾难，从来没有做对过。

诶?这到底是为啥?

关键在于token

之所以有这样js的现象，关键在于token。token是文本中最常见的字符序列，而大模型都是用token来处理文本。

它可以是整个单词，也可以是单词一个片段。大模型了解这些token之间的统计关系，并且擅长生成下一个token。

因此在处理单词反转这个小任务时，它可能只是将每个token翻转过来，而不是字母。

这点放在中文语境下体现就更为明显:一个词是一个token，也可能是一个字是一个token。

针对开头的例子，有人尝试理解了下ChatGPT的推理过程。

为了更直观的了解，OpenAI甚至还出了个GPT-3的Tokenizer。

比如像lollipop这个词，GPT-3会将其理解成I、oll、ipop这三个部分。

根据经验总结，也就诞生出这样一些不成文法则。

1个token≈4个英文字符≈四分之三个词;

100个token≈75个单词;

1-2句话≈30个token;

一段话≈100个token，1500个单词≈2048个token;

单词如何划分还取决于语言。此前有人统计过，中文要用的token数是英文数量的1.2到2.7倍。

token-to-char（token到单词）比例越高，处理成本也就越高。因此处理中文tokenize要比英文更贵。

可以这样理解，token是大模型认识理解人类现实世界的方式。它非常简单，还能大大降低内存和时间复杂度。

但将单词token化存在一个问题，就会使模型很难学习到有意义的输入表示，最直观的表示就是不能理解单词的含义。

当时Transformers有做过相应优化，比如一个复杂、不常见的单词分为一个有意义的token和一个独立token。

就像annoyingly就被分成“annoying”和“ly”，前者保留了其语义，后者则是频繁出现。

这也成就了如今ChatGPT及其他大模型产品的惊艳效果，能很好地理解人类的语言。

至于无法处理单词反转这样一个小任务，自然也有解决之道。

最简单直接的，就是你先自己把单词给分开喽~

或者也可以让ChatGPT一步一步来，先tokenize每个字母。

又或者让它写一个反转字母的程序，然后程序的结果对了。（狗头）

不过也可以使用GPT-4，实测没有这样的问题。

△实测GPT-4

总之，token就是AI理解自然语言的基石。

而作为AI理解人类自然语言的桥梁，token的重要性也越来越明显。

它已经成为AI模型性能优劣的关键决定因素，还是大模型的计费标准。

甚至有了token文学

正如前文所言，token能方便模型捕捉到更细粒度的语义信息，如词义、词序、语法结构等。其顺序、位置在序列建模任务（如语言建模、机器翻译、文本生成等）中至关重要。

模型只有在准确了解每个token在序列中的位置和上下文情况，才能更好正确预测内容，给出合理输出。

因此，token的质量、数量对模型效果有直接影响。

今年开始，越来越多大模型发布时，都会着重强调token数量，比如谷歌PaLM2曝光细节中提到，它训练用到了3.6万亿编程客栈个token。

以及很多行业内大佬也纷纷表示，token真的很关键!

今年从特斯拉跳槽到OpenAI的AI科学家安德烈卡帕斯（Andrej Karpathy）就曾在演讲中表示:

而且他强调，模型的性能并不只由参数规模来决定。

比如LLaMA的参数规模远小于GPT-3（65B vs175B），但由于它用更多token进行训练(1.4T vs300B)，所以LLaMA更强大。

而凭借着对模型性能的直接影响，token还是AI模型的计费标准。

以OpenAI的定价标准为例，他们以1K个token为单位进行计费，不同模型、不同类型的token价格不同。

总之，踏进AI大模型领域的大门后，就会发现token是绕不开的知识点。

嗯，甚至衍生出了token文学……

不过值得一提的是，token在中文世界里到底该翻译成啥，现在还没有完全定下来。

直译“令牌”总是有点怪怪的。

GPT-4觉得叫“词元”或“标记”比较好，你觉得呢?

参考链接:

[1]https://www.re编程客栈ddit.com/r/ChatGPT/comments/13xxehx/chatgpt_is_unable_to_reverse_words/

[2]https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them

[3]https://openai.com/pricing

X 关闭

吴恩达ChatGPT课爆火：AI放弃了倒写单词，但理解了整个世界-热点聚焦

量子位公众号 06-04

【新要闻】bellypunch是什么意思（punch是什么意思）

乐拇指 06-04

《蜘蛛侠：纵横宇宙》票房超预期|全球即时看

快科技 06-04

精彩看点：宋朝来客之铁锅英雄（关于宋朝来客之铁锅英雄介绍）

互联网 06-04

仙剑三天妖皇火鬼王_仙剑三天妖皇

互联网 06-04

当前看点!甜心战士：Re 三部曲OVA

哔哩哔哩 06-04

天天速递！罪恶都市3怎么下载-罪恶都市3游戏电脑版

互联网 06-04

45号钢多少钱一公斤最新_45号钢多少钱一公斤天天微资讯

互联网 06-04

抽象派和印象派区别_抽象派世界快播报

互联网 06-04

公务员体检标准歧视（国家公务员体检标准湿疹）

06-03

狸窝swf转mp4格式转换器_狸窝ppt转换器如何将swf转换成mp4

互联网 06-03

动态：憨豆先生动画片中文版全集_憨豆先生动画版中文版全集

互联网 06-03

B 站错付 Z 世代

钛媒体 06-03

江苏：夏粮收购不得压级压价、抬级抬价

云财经 06-03

【全球报资讯】夏季的穿搭，不仅仅是要面料的轻薄透气，更需穿对颜色才高级洋气

鱼司辰 06-03

当前关注：无尽夏_关于无尽夏介绍

互联网 06-03

涉案百万！滨海公安火速出警报案当日破获案件

鲁中晨报 06-03

6、广誉远长期跟踪-股东人数跟踪篇23.6.3-天天热讯

雪球网 06-03

詹姆斯生涯总得分最新数据（詹姆斯总得分最新数据）-世界看热讯

互联网 06-03

虎皮鹦鹉怎么养才亲人_养虎皮鹦鹉对人的危害

互联网 06-03

全球快消息！霍格沃茨之遗我的井啊任务视频攻略

bilbili 06-03

Google（Chrome Frame如何使用 Google Chrome Frame使用教程）

互联网 06-03

湖南娄底“空心房”变身美丽屋场擦亮乡村振兴“底色” 时快讯

中国新闻网 06-03

环球最资讯丨夏天脚肿怎么办夏天脚肿是什么原因引起的

城市网 06-03

6月2日基金净值：嘉实新兴产业股票最新净值3.82，涨0.84%

证券之星 06-03

美国失业率跃升至3.7%被视为一个警告信号

金融界 06-03

RCEP对15个签署国全面生效-当前滚动

新华网 06-03

政策持续支持科创类企业年内已有82家相关公司上市

证券日报 06-03

微头条丨吴邪肺癌第几集治好的（吴邪肺癌）

互联网 06-03

美国加州浸会大学DBA排名一览

会计网 06-03

全球今日讯！内容运营岗位职责范本_内容运营岗位职责

互联网 06-03

环球即时：浙江宁波：争章嘉年华禁毒同守护

中国禁毒网 06-03

战歌军需官在哪里_战歌军需官在

互联网 06-03

华夏幸福：公司不存在您所描述的没人上班回复、倒闭及退市的情况环球时讯

证券之星 06-03

人类文明还剩多少年？马斯克：经济政治和AI都是不稳定因素

鞭牛士 06-03

新疆塔县中巴边民互市贸易区迎来今年首批进口货物世界通讯

中国新闻网 06-02

刑满释放男子冒充女生加好友，隔空猥亵多名女童！在沪判了！

上海法治报 06-02

2021欧洲杯决赛结束时间（2021欧洲杯决赛时间）

互联网 06-02

港股异动 | 海底捞(06862)早盘持续走高涨超7% 机构认为公司降本增已现明显效果业绩将呈现较大弹性-每日热点

智通财经 06-02

快看：张朝阳称考上大学不是难事具体详细内容是什么

互联网 06-02

出生仅950克襄阳“巴掌宝宝”闯关成功

荆楚网（湖北日报网） 06-02

乌外长就美媒涉华报道辟谣，李辉：美方挑拨中乌关系不得人心

澎湃新闻 06-02

稳！掘金今年季后赛已取得七连胜连斩太阳、湖人和热火

直播吧 06-02

天天新消息丨登记在册在世的南京大屠杀幸存者仅剩40人

中国新闻网 06-02

世界视讯！凯华贷最新2023清退消息：2023年最新兑付方案来了，清退通告权威发布!

互联网 06-02

皇后永远想不到，太后一向不喜叶澜依，却还让她住自己隔壁的真实原因-天天资讯

金婷婷777 06-02

吕端大事不糊涂——价值投资是投资者的认知和性格的合力-环球快讯

攒股记 06-02

8GB显卡3199元起英伟达黄仁勋回应质疑：这容量就对了今日热文

快科技 06-02

到了夏天才发现小白鞋不时兴了！满大街都在穿“乐福鞋”，真洋气播资讯

暴龙哥 06-02

焦点快看：拜金主义的人生观拜金主义

城市网 06-02

社会学史（关于社会学史介绍）

互联网 06-02

晶粒和晶胞_晶粒

互联网 06-02

世界热消息：印度教科书删除元素周期表及进化论教育界批“莫名其妙”

海外网 06-02

三国杀八神合体_三国杀八神

互联网 06-02

天天消息！李桂南_关于李桂南的介绍

互联网 06-02

中国电视制造商TCL电子推出了首款智能手机_环球观天下

互联网 06-02

世界热文：极简时尚史_关于极简时尚史概略

互联网 06-02

美甲步骤教程贴甲片全过程_美甲步骤有哪些

元宇宙网 06-02

每日热文：重磅微视频：少年志丨美好的未来属于你们

新华网 06-02

从未见过发射的航天人详细内容

互联网 06-02

《喜马拉雅儿童收听数据报告》发布环球微头条

中国青年网 06-02

百事通！福晋还年幼txt（福晋还年幼）

06-02

我爱大海作文_两篇我爱大海的作文

万能网 06-02

一护虚化卍解_一护的虚化变身s wj怎么变|每日报道

互联网 06-02

大宗交易：长江电力成交4817.14万元，溢价0.58%（06-01）

东方财富Choice数据 06-02

数字人民币乘车码首发，杭州、绍兴率先试点_热推荐

36氪 06-01

蚂蚁集团2022可持续发展报告：2022年科研投入超204亿元

鞭牛士 06-01

狠人！情侣自带玻璃碴划破嘴敲诈17家饭店，涉案金额…… 热推荐

北京青年报官网 06-01

每日快看：偏旁都有哪些偏旁_偏旁子都有哪些

互联网 06-01

乌鲁木齐高新区（新市区）税务局：“问、解、优” 助力政策直达快享

中新网新疆 06-01

天天观天下！2023年｜能源中国-青年菁英记者计划全国招募启动

国是直通车 06-01

大乐透23062期曝彩堂预测：前区胆码-全球短讯

唯彩看球 06-01

即时焦点：志士不饮盗泉之水仁者不受嗟来之食_志士不饮盗泉之水廉者不受嗟来之食什么意思

互联网 06-01

为什么惠普星14 Pro堪称轻薄本性价比天花板-即时焦点

中关村在线 06-01

生意社：5月碳酸锂价格持续走高大涨超50%_焦点讯息

智通财经 06-01

护航“三夏”丨舞阳：宜机地块大面积收获即将开始抢收突击组昼夜不停开干

大河网 06-01

鸿智科技过会：今年IPO过关第125家海通证券过9.5单

中国经济网 06-01

手绢是由什么演变而来的（第二人生手绢是由什么演变而来）|世界要闻

互联网 06-01

淘宝商标转让多少钱？转让需要注意什么问题？-全球热议

宿迁网 06-01

2023世界新能源新材料大会将在鄂尔多斯市举办

人民网 06-01

退休养老金上调方案2023公布四川省2023年养老金上调方案何时正式公布

社保网 06-01

全国水库安全度汛电话抽查工作全面启动已电话抽查2300座水库

人民日报 06-01

飞猪商家版登录（飞猪商家后台登陆）

互联网 06-01

6月债券总偿还规模近5万亿，3张图了解兑付压力和风险状况

Wind万得 06-01

兴山县榛子乡中心幼儿园举行亲子趣味运动会-每日观察

荆楚网（湖北日报网） 06-01

内江隆昌体育场所缺失市教体局：将试点开放学校体育场地

新浪网 06-01

证券行业协会投诉电话-世界报资讯

互联网 06-01

系统教程篇：Windows操作系统中的公文包是什么世界快播报

互联网 06-01

天天热点！永丰营站_关于永丰营站简述

互联网 06-01

全球观天下！永世不变的爱_关于永世不变的爱简述

互联网 06-01

环球微资讯！260是多少码对照表_260是多少码

互联网 06-01

比特币与天秤座这是两种加密货币之间的主要区别_关注

互联网 05-31

小米618全渠道支付金额破30亿元

电商报 05-31

Cell：揭示对大多数基因而言，转录开始位点决定了转录结束位点|全球今亮点

生物谷原创 05-31

小白测评数据库更新红米 Note12TPro 续航性能图文版

小白测评 05-31

复星：南钢集团作为有独立请求权第三人参与沙钢诉讼II-当前独家

观点地产网 05-31

看足球说地理北京时间6月1日凌晨3点，欧联杯决赛... 当前热点

懂球帝 05-31

最高检：依法严惩“隔空猥亵”等侵害未成年人犯罪_全球速递

人民日报客户端 05-31

华嵘控股（600421）5月31日主力资金净买入68.57万元-世界快看点

证券之星 05-31

短讯！极影动漫吧肉片_极影动漫网

互联网 05-31

△实测编程客栈ChatGPT（GPT-3.5）

△实测Bard

△实测文心一言

关键在于token

△实测GPT-4

甚至有了token文学

相关文章