跳转至

RoundPipe Banner RoundPipe Banner

训练你的大模型

性能卓越通用易用专为消费级GPU设计

> pip install roundpipe
快速开始↗


超大模型支持

仅需 24GB 显存,支持 64K+ 超长上下文训练

单卡即可全量微调 32B 大模型、LoRA 微调 235B 大模型

相比 PyTorch FSDP,最大输入序列长度至多提升 7+ 倍

超大模型支持 超大模型支持

释放显卡算力

4090 在大模型训练中达到接近 A800 NVLINK 的吞吐量

训练速度相比 FSDP Offload 提升多达 6 倍

对于更大的模型,RoundPipe 吞吐量全面超越 FSDP

释放显卡算力 释放显卡算力

线性并行扩展

无需修改任何代码,节点内全自动多 GPU 线性扩展

吞吐量随 GPU 数量近似线性增长

且每张 GPU 的最大输入序列长度保持不变

线性并行扩展 线性并行扩展

简单易用 & 灵活通用

串行编程接口,无需并行编程经验

支持 Jupyter Notebook,所见即所得

import torch
from roundpipe import RoundPipe, OptimizerCtx
# 任意深度神经网络
model = torch.nn.Sequential(layer1, layer2, layer3, ...)
# 任意 PyTorch 优化器
with OptimizerCtx():
    optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
# 任意训练流程
for data in dataloader:
    loss = model.forward_backward(data)
    # 任意参数更新策略
    def step_fn():
        optimizer.step()
        optimizer.zero_grad()
    model.step(step_fn)

跨平台兼容

纯 PyTorch 实现

天然兼容 Nvidia、AMD、昇腾等多种 GPU 平台

一份代码,多平台运行

跨平台兼容 跨平台兼容