主页

训练你的大模型

性能卓越通用易用专为消费级GPU设计

> pip install roundpipe

快速开始↗

🧠

超大模型支持

仅需24GB显存，支持64K+超长上下文训练，支持32B大模型全量微调，支持235B大模型LoRA微调。

⚡

释放显卡算力

完全释放4090算力，训练速度提升多达6倍，性能比肩A800 NVLINK。

📈

线性并行扩展

无需修改代码，节点内全自动多GPU线性扩展，且语义不变。

✨

简单易用

串行编程接口，无需并行编程经验。支持Jupyter Notebook，轻松上手。

🔧

灵活通用

支持任意深度神经网络，任意训练流程，任意参数更新策略。

🔄

跨平台兼容

纯PyTorch实现，兼容Nvidia、AMD、昇腾等多种GPU平台。

超大模型支持

仅需 24GB 显存，支持 64K+ 超长上下文训练

单卡即可全量微调 32B 大模型、LoRA 微调 235B 大模型

相比 PyTorch FSDP，最大输入序列长度至多提升 7+ 倍

释放显卡算力

4090 在大模型训练中达到接近 A800 NVLINK 的吞吐量

训练速度相比 FSDP Offload 提升多达 6 倍

对于更大的模型，RoundPipe 吞吐量全面超越 FSDP

线性并行扩展

无需修改任何代码，节点内全自动多 GPU 线性扩展

吞吐量随 GPU 数量近似线性增长

且每张 GPU 的最大输入序列长度保持不变

简单易用 & 灵活通用

串行编程接口，无需并行编程经验

支持 Jupyter Notebook，所见即所得

import torch
from roundpipe import RoundPipe, OptimizerCtx
# 任意深度神经网络
model = torch.nn.Sequential(layer1, layer2, layer3, ...)
# 任意 PyTorch 优化器
with OptimizerCtx():
    optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
# 任意训练流程
for data in dataloader:
    loss = model.forward_backward(data)
    # 任意参数更新策略
    def step_fn():
        optimizer.step()
        optimizer.zero_grad()
    model.step(step_fn)

跨平台兼容

纯 PyTorch 实现

天然兼容 Nvidia、AMD、昇腾等多种 GPU 平台

一份代码，多平台运行