训练你的大模型
性能卓越通用易用专为消费级GPU设计
>
快速开始↗
pip install roundpipe
🧠
超大模型支持
仅需24GB显存,支持64K+超长上下文训练,支持32B大模型全量微调,支持235B大模型LoRA微调。
⚡释放显卡算力
完全释放4090算力,训练速度提升多达6倍,性能比肩A800 NVLINK。
📈线性并行扩展
无需修改代码,节点内全自动多GPU线性扩展,且语义不变。
✨简单易用
串行编程接口,无需并行编程经验。支持Jupyter Notebook,轻松上手。
🔧灵活通用
支持任意深度神经网络,任意训练流程,任意参数更新策略。
🔄跨平台兼容
纯PyTorch实现,兼容Nvidia、AMD、昇腾等多种GPU平台。
超大模型支持
仅需 24GB 显存,支持 64K+ 超长上下文训练
单卡即可全量微调 32B 大模型、LoRA 微调 235B 大模型
相比 PyTorch FSDP,最大输入序列长度至多提升 7+ 倍
释放显卡算力
4090 在大模型训练中达到接近 A800 NVLINK 的吞吐量
训练速度相比 FSDP Offload 提升多达 6 倍
对于更大的模型,RoundPipe 吞吐量全面超越 FSDP
线性并行扩展
无需修改任何代码,节点内全自动多 GPU 线性扩展
吞吐量随 GPU 数量近似线性增长
且每张 GPU 的最大输入序列长度保持不变
简单易用 & 灵活通用
串行编程接口,无需并行编程经验
支持 Jupyter Notebook,所见即所得
import torch
from roundpipe import RoundPipe, OptimizerCtx
# 任意深度神经网络
model = torch.nn.Sequential(layer1, layer2, layer3, ...)
# 任意 PyTorch 优化器
with OptimizerCtx():
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
# 任意训练流程
for data in dataloader:
loss = model.forward_backward(data)
# 任意参数更新策略
def step_fn():
optimizer.step()
optimizer.zero_grad()
model.step(step_fn)
跨平台兼容
纯 PyTorch 实现
天然兼容 Nvidia、AMD、昇腾等多种 GPU 平台
一份代码,多平台运行