了解AI 玩转AI 数据抓取工具：Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程，小白利器

显示全部楼层

安装NOde.JS

打开node官网，https://nodejs.org/en 。点击donload ，下载下来之后点击下一步下一步就可以了。

了解AI 玩转AI-数据抓取工具：Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程，小白利器(1)

安装Gpt-crawler

在你想安装的电脑盘里建立一个文件夹比如就叫 Gpt-crawler 然后在这个文件夹的路径上输入CMD

了解AI 玩转AI-数据抓取工具：Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程，小白利器(2)

输入安装指令安装主程序：git clone https://github.com/builderio/gpt-crawler

了解AI 玩转AI-数据抓取工具：Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程，小白利器(3)

安装完以后进入这个文件夹输入 cd gpt-crawler

了解AI 玩转AI-数据抓取工具：Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程，小白利器(4)

进入这个文件夹之后输入安装依赖项命令：npm i
至此安装完成。

配置抓取文件

在主程序文件夹里点击config.ts ，用记事本或任意编译软件打开都行。

了解AI 玩转AI-数据抓取工具：Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程，小白利器(5)

为了利好新手我就用记事本打开了，看的清晰些。这里面我已经写好了必备的一些参数和对应的中文解释，这些配置代表了我们抓取的网址，抓取的内容包括什么。

了解AI 玩转AI-数据抓取工具：Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程，小白利器(6)

代码我放在这里了，需要可以复制。

import { Config } from "./src/config";

export const defaultConfig: Config = {
  url: "https://www.niuboyi.com/thread-222-1-1.html",
  /** 开始爬网的URL，如果提供了网站地图，则将使用它并下载网站地图中的所有页面*/
  match: "https://www.niuboyi.com/thread-222-1-1.html",
  /**从中获取内部文本的选择器*/
  selector: `.docs-builder-container`,
  /**要爬的内容标签*/
  maxPagesToCrawl: 50,
  /**爬行的页面不要超过这个数量*/
  outputFileName: "output.json",
  /**输出名称*/
  maxTokens: 2000000,
  /**字数*/
};

配置好以后我们输入指令 npm start 回车就可以开始抓取了
了解AI 玩转AI-数据抓取工具：Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程，小白利器(7)

抓取好的文件都在目录的 output-1.json 这个文件里面，这个文件内容足够多的时候就可以成为你的知识库了。

了解AI 玩转AI-数据抓取工具：Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程，小白利器(8)

利用知识库创建专属GPTS

打开gpts 创建界面，https://chat.openai.com/gpts/editor

了解AI 玩转AI-数据抓取工具：Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程，小白利器(9)

至此你现在已经拥有了自己的爬虫，可以爬绝大多数的网站了

微信扫一扫 分享朋友圈