合并多个JSON文件为一个
原创大约 1 分钟
背景
在机器学习的训练中,多个小的数据集训练,需要将多个数据集合并为一个数据集,方便训练
环境以及依赖package
NStudyPy==0.0.12
NStudyPy 工具包 , 一个有用的工具包,可以简化开发流程,详细介绍可以参考 NStudyPy
本教程使用python 3.10.13
作为开发环境 , 原则上适用于python 3.9+
本教程开发环境为windows 10
,原则上其他系统应该也可以。
主要流程
- 创建项目,安装依赖
pip install NStudyPy==0.0.12
- 调用方法
from NStudyPy import PyFile
_dir_prefix = r'E:\Projects\xxxx'
PyFile.merge_json(
PyFile.get_file_list(_dir_prefix),
rf"{_dir_prefix}\all.json",
data={}
)
- 核心源码
def merge_json(source_files: [str], target_file: str, data={}) -> None:
"""
合并json文件,支持字典类型和列表类型
:param source_files: 源文件列表
:param target_file: 目标文件
:param data: 初始化数据类型
:return: None
"""
for f in source_files:
with open(f, 'r', encoding='utf-8') as f1:
if type(data) is dict:
data = {**data, **json.loads(f1.read())}
elif type(data) is list:
data.extend(json.loads(f1.read()))
save_json(data, target_file)