微信扫一扫 分享朋友圈

已有 69 人浏览分享

[api设置]    什么是OPENAI的TOKEN ,如何计算

api设置 2024-6-6 15:46:52690
什么是Token以及如何计算

什么是Token?
Tokens可以被认为是单词的一部分。在API处理请求之前,输入会被分解为多个token。这些token并不是精确地按照单词的开头或结尾来切割的,它们可能包含尾随空格甚至子词。以下是一些关于token长度的有用规则:

· 1 token ≈ 4个英文字符
· 1 token ≈ ¾个单词
· 100 tokens ≈ 75个单词

· 1·2句话 ≈ 30 tokens
· 1段话 ≈ 100 tokens
· 1,500个单词 ≈ 2048 tokens

为了进一步了解token的累积情况,可以参考以下示例:

· Wayne Gretzky的名言 "You miss 100% of the shots you don't take" 包含11个tokens。
· OpenAI的章程包含476个tokens。
· 美国《独立宣言》的抄本包含1,695个tokens。

单词如何被分割成tokens也与语言有关。例如,西班牙语的"Cómo estás"("How are you")包含5个tokens(总共10个字符)。较高的token与字符比例可能使非英语的API实现成本更高。

您可以使用Openai的互动Token工具进一步探索token化,计算tokens数量并查看文本如何被分割成tokens。请注意,不同模型的确切token化过程有所不同。较新的模型如GPT·3.5和GPT·4使用的tokenizer与之前的模型不同,对相同的输入文本会生成不同的tokens。

或者,如果您希望以编程方式进行文本token化,可以使用Tiktoken,它是OpenAI模型专用的快速BPE tokenizer。

Token限制
根据所使用的模型,请求可以使用多达128,000个token,这些token在提示和完成之间共享。一些模型(如GPT·4 Turbo)对输入和输出tokens有不同的限制。

在限制范围内通常有一些创造性的解决问题的方法,例如压缩提示文本,将文本分成更小的片段等。

Token定价
API提供多种模型类型,价格不同。对不同模型的请求定价也不同。详细的token定价信息请参考此处。

探索tokens
API根据语料库数据中的上下文处理单词。模型接收提示,将输入转换为token列表,处理提示,并将预测的tokens转换回Openai在响应中看到的单词。

相同的单词在不同上下文中可能生成不同的tokens。以下是API根据上下文生成'token值'的示例:
Chatgpt帮助文档-什么是OPENAI的TOKEN ,如何计算(1)
Chatgpt帮助文档-什么是OPENAI的TOKEN ,如何计算(2)
在第一个示例中,token“2266”代表“ red”(带有尾随空格)。
Chatgpt帮助文档-什么是OPENAI的TOKEN ,如何计算(3)
Chatgpt帮助文档-什么是OPENAI的TOKEN ,如何计算(4)
token“2296”代表“ Red”(带有前导空格并以大写字母开头),与小写字母“ red”的token“2266”不同。
Chatgpt帮助文档-什么是OPENAI的TOKEN ,如何计算(5)
Chatgpt帮助文档-什么是OPENAI的TOKEN ,如何计算(6)
当“Red”出现在句子开头时,生成的token不包含前导空格。token“7738”不同于前两个示例中的单词。

观察结果:
token编号越低,表示该token在语料库中的出现频率越高:

在所有3个句子中,句号的token编号相同(“13”)。这是因为在语料库中,句号的使用在上下文中非常相似。

‘red’在句子中的位置不同,生成的token也不同:

· 在句中小写:‘ red’ · (token:“2266”)
· 在句中大写:‘ Red’ · (token:“2297”)
· 在句首大写:‘Red’ · (token:“7738”)

  • 联系我们
  • 邮箱:1992608358#qq.com(请把#改成@)
  • 微信:mianfeixueai
  • QQ客服 1992608358
  • 工作时间:周一至周五(早上9点至下午5点)
  • 微信公众平台

  • 扫描访问手机版

QQ|NIUBOYI ( 京ICP备17025393号 )|网站地图

GMT+8, 2024-7-19 08:57 , Processed in 0.046404 second(s), 37 queries .

POWERED BY NIUBOYIAI! 主理人:NIUBOYIAI  点亮哥

Copyright © 2001-2020, NIUBOYI AI.