| 爬虫是每个AI爱好者的必备软件,无论你做哪种AI都离不开数据,Gpt-crawler 是版主非常推荐的,利好新手,安装简单,只需要花10几分钟时间就可以开始你的抓取任命了,让我们开始今天的教程。 
 
 
	 安装NOde.JS打开node官网,https://nodejs.org/en 。点击donload ,下载下来之后点击下一步下一步就可以了。
 
   
 
 
	 安装Gpt-crawler在你想安装的电脑盘里 建立一个文件夹 比如就叫 Gpt-crawler 然后在这个文件夹的路径上输入CMD
 
   
 输入安装指令安装主程序:git clone https://github.com/builderio/gpt-crawler
 
 
   
 安装完以后进入这个文件夹 输入 cd gpt-crawler
 
 
   
 进入这个文件夹之后 输入安装依赖项命令:npm i
 至此安装完成。
 
 
 
	 配置抓取文件在主程序文件夹里点击config.ts ,用记事本或任意编译软件打开都行。
 
 
   
 为了利好新手我就用记事本打开了,看的清晰些。这里面我已经写好了必备的一些参数和对应的中文解释,这些配置代表了我们抓取的网址,抓取的内容包括什么。
 
 
   代码我放在这里了,需要可以复制。
 
 import { Config } from "./src/config";
 
 export const defaultConfig: Config = {
 url: "https://www.niuboyi.com/thread-222-1-1.html",
 /** 开始爬网的URL,如果提供了网站地图,则将使用它并下载网站地图中的所有页面*/
 match: "https://www.niuboyi.com/thread-222-1-1.html",
 /**从中获取内部文本的选择器*/
 selector: `.docs-builder-container`,
 /**要爬的内容标签*/
 maxPagesToCrawl: 50,
 /**爬行的页面不要超过这个数量*/
 outputFileName: "output.json",
 /**输出名称*/
 maxTokens: 2000000,
 /**字数*/
 };
 
 配置好以后我们输入指令 npm start 回车就可以开始抓取了
 
   
 抓取好的文件都在 目录的 output-1.json  这个文件里面,这个文件内容足够多的时候就可以成为你的知识库了。
 
 
   
 
 
	 利用知识库创建专属GPTS
 打开gpts 创建界面,https://chat.openai.com/gpts/editor
 
 
   
 至此你现在已经拥有了自己的爬虫,可以爬绝大多数的网站了
 
 |