[隐私政策] ChatGPT和其他的语言模型是如何开发的

显示全部楼层 · 隐私政策

OpenAI的大型语言模型，包括驱动ChatGPT的模型，是通过三个主要信息来源开发的：

（1）公开可用于互联网的信息
（2）从第三方许可的信息
（3）的用户或人类训练者提供的信息

本文概述了用于开发模型的公开可用信息以及如何收集和使用这些信息，以符合隐私法律的规定。要了解如何收集和使用来自服务的用户信息，包括如何选择退出让ChatGPT对话用于帮助教的模型，请参阅的隐私政策和这篇帮助中心文章。

什么是ChatGPT，它是如何工作的？

ChatGPT是一种基于人工智能的服务，您可以通过互联网访问。您可以使用ChatGPT来组织或总结文本，或者编写新的文本。ChatGPT被开发成能够理解并回应用户的问题和指令。它通过“阅读”大量现有文本并学习单词如何在上下文中出现来实现这一点。然后，它使用所学到的知识来预测在响应用户请求时可能出现的下一个最可能的单词，以及随后的每个单词。这类似于搜索引擎、智能手机和电子邮件程序上的自动完成功能。

例如，在模型学习过程中（称为“训练”），可能让模型尝试完成这样一个句子：“instead of turning left, she turned ___.” 在训练之前，模型会用随机单词回答，但随着它阅读和学习了许多行文本，它会更好地理解这种类型的句子，并能更准确地预测下一个单词。然后，它会在非常多的句子中重复这个过程。

因为在这个句子中可能出现许多可能的单词（例如，instead of turning left, she turned “right,” “around,” 或 “back”），所以模型的响应存在一定的随机性，在许多情况下，的模型会用不同的方式回答相同的问题。

机器学习模型由大量数字组成，称为“权重”或“参数”，以及解释和执行这些数字的代码。模型不包含或存储它们学到的信息的副本。相反，随着模型的学习，组成模型的一些数字会略微改变以反映它所学到的内容。在上面的例子中，模型读取了帮助它从预测随机不正确的单词改进到预测更准确的单词的信息，但实际上模型本身发生的只是数字略微改变。模型没有存储或复制它读取的句子。

用于教授ChatGPT的信息类型

如上所述，ChatGPT和的其他服务是使用

（1）公开可用于互联网的信息
（2）从第三方许可的信息
（3）用户或人类训练者提供的信息开发的。

本文重点介绍第一类信息：公开可用于互联网的信息。

对于这组信息，仅使用在互联网上免费和公开可用的信息 - 例如，不会寻找付费信息或来自“暗网”的信息。会应用过滤器并删除不希望的模型从中学习或输出的信息，例如仇恨言论、成人内容、主要聚合个人信息的网站和垃圾邮件。然后，使用这些信息来教导的模型。

正如前面提到的，ChatGPT不会在数据库中复制或存储训练信息。它实际上是学习单词之间的关联性，这些学习有助于模型

微信扫一扫 分享朋友圈

[隐私政策] ChatGPT和其他的语言模型是如何开发的

微信扫一扫分享朋友圈