微信扫一扫 分享朋友圈

已有 130 人浏览分享

[模型微调]    数据合并,当采集数据样本数量过多的时候怎么处理,多种方法和工具汇总

模型微调 2024-5-5 01:04:35130 0

分类整合的必要性


数据收集过程结束后是要对数据进行整理,这包括需要对数据进行分类、整合这两个部分。考虑这样做的原因是便于管理以及数据的读取限制和速度等问题,一般api和gpts之类的模型都有数量限制和大小限制,并且需要我们对数据进行一定的指导和介绍方便gpt理解。

数据分类工作


分类工作相对简单,我们在采集的过程中就应该注意,将不同的采集内容放置到不同的文件夹中,这一步注意即可。

数据整合工作



整合工作也并不复杂,针对不同的内容类型我们有不同的解决办法,这包括、文章文档、表格、图片、视频、音频,我们需要进行不同的整合方式,下面我们进行分别介绍。其实方法有很多种,这里只推荐版主推荐我自己常用的几种方式,觉得有用可以收藏,我会持续更新。

txt 类内容整合办法


使用python,一般采集网站内容我们最常用的方式就是把网站的不同栏目的文章保存到本地对应的文件夹中,并以文章标题为文件名称,但是这样就会出现大量的txt文档。

方法1python脚本
整合步骤同样通过python脚本来进行,以下为具体代码。

import os

def merge_text_files(folder_path, output_file):
    with open(output_file, 'w', encoding='utf-8') as outfile:
        for filename in os.listdir(folder_path):
            if filename.endswith('.txt'):
                file_path = os.path.join(folder_path, filename)
                with open(file_path, 'r', encoding='utf-8') as infile:
                    for line in infile:
                        outfile.write(line)

# 注意路径字符串前的 r,表示这是一个原始字符串
merge_text_files(r'D:\360MoveData\Users\Administrator\Desktop\python\seleresult\huizong', r'D:\360MoveData\Users\Administrator\Desktop\python\seleresult\openai.txt')

请将文件夹位置和 整合后的文件名称改为你自己的
注意事项:请注意gpts支持10个文档和每个文档8000KB以内的数据量

图片和pdf整合方法


此工具我们已经在新手大礼包中提供,是一块万能的PDF免费工具,可以做几乎任何的整合拆分,格式转换等,链接中附带详细的下载和使用介绍,需要请点击下方链接去下载。
工具介绍和下载地址:https://www.niuboyi.com/thread-635-1-1.html



  • 联系我们
  • 邮箱:1992608358#qq.com(请把#改成@)
  • 微信:mianfeixueai
  • QQ客服 1992608358
  • 工作时间:周一至周五(早上9点至下午5点)
  • 微信公众平台

  • 扫描访问手机版

QQ|NIUBOYI ( 京ICP备17025393号 )|网站地图

GMT+8, 2024-7-16 21:33 , Processed in 0.035701 second(s), 36 queries .

POWERED BY NIUBOYIAI! 主理人:NIUBOYIAI  点亮哥

Copyright © 2001-2020, NIUBOYI AI.