微信扫一扫 分享朋友圈

已有 132 人浏览分享

了解AI 玩转AI    数据抓取工具:Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程,小白利器

2024-4-2 16:28:43132 0
爬虫是每个AI爱好者的必备软件,无论你做哪种AI都离不开数据,Gpt-crawler 是版主非常推荐的,利好新手,安装简单,只需要花10几分钟时间就可以开始你的抓取任命了,让我们开始今天的教程。

安装NOde.JS

打开node官网,https://nodejs.org/en 。点击donload ,下载下来之后点击下一步下一步就可以了。

了解AI 玩转AI-数据抓取工具:Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程,小白利器(1)

安装Gpt-crawler

在你想安装的电脑盘里 建立一个文件夹 比如就叫 Gpt-crawler 然后在这个文件夹的路径上输入CMD

了解AI 玩转AI-数据抓取工具:Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程,小白利器(2)

输入安装指令安装主程序:git clone https://github.com/builderio/gpt-crawler

了解AI 玩转AI-数据抓取工具:Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程,小白利器(3)

安装完以后进入这个文件夹 输入 cd gpt-crawler

了解AI 玩转AI-数据抓取工具:Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程,小白利器(4)

进入这个文件夹之后 输入安装依赖项命令:npm i  
至此安装完成。

配置抓取文件


在主程序文件夹里点击config.ts ,用记事本或任意编译软件打开都行。

了解AI 玩转AI-数据抓取工具:Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程,小白利器(5)

为了利好新手我就用记事本打开了,看的清晰些。这里面我已经写好了必备的一些参数和对应的中文解释,这些配置代表了我们抓取的网址,抓取的内容包括什么。

了解AI 玩转AI-数据抓取工具:Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程,小白利器(6)
代码我放在这里了,需要可以复制。
import { Config } from "./src/config";


export const defaultConfig: Config = {
  url: "https://www.niuboyi.com/thread-222-1-1.html",
  /** 开始爬网的URL,如果提供了网站地图,则将使用它并下载网站地图中的所有页面*/
  match: "https://www.niuboyi.com/thread-222-1-1.html",
  /**从中获取内部文本的选择器*/
  selector: `.docs-builder-container`,
  /**要爬的内容标签*/
  maxPagesToCrawl: 50,
  /**爬行的页面不要超过这个数量*/
  outputFileName: "output.json",
  /**输出名称*/
  maxTokens: 2000000,
  /**字数*/
};


配置好以后我们输入指令 npm start 回车就可以开始抓取了
了解AI 玩转AI-数据抓取工具:Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程,小白利器(7)

抓取好的文件都在 目录的 output-1.json  这个文件里面,这个文件内容足够多的时候就可以成为你的知识库了。

了解AI 玩转AI-数据抓取工具:Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程,小白利器(8)

利用知识库创建专属GPTS



打开gpts 创建界面,https://chat.openai.com/gpts/editor

了解AI 玩转AI-数据抓取工具:Gpt-crawler 通用文案爬虫抓取网站上的数据安装和使用教程,小白利器(9)

至此你现在已经拥有了自己的爬虫,可以爬绝大多数的网站了

精彩内容推荐
  • 联系我们
  • 邮箱:1992608358#qq.com(请把#改成@)
  • 微信:leileiseo
  • QQ客服 1992608358
  • 工作时间:周一至周五(早上9点至下午5点)
  • 微信公众平台

  • 扫描访问手机版

QQ|NIUBOYI ( 京ICP备17025393号 )

GMT+8, 2024-5-16 23:05 , Processed in 0.042095 second(s), 38 queries .

POWERED BY NIUBOYIAI! 主理人:NIUBOYIAI  点亮哥

Copyright © 2001-2020, NIUBOYI AI.