超大型的深度神经网络 (DNN),无论是用于自然语言处理 (如 GPT)、计算机视觉 (如规模巨大的视觉 Transformer),还是语音 AI (如 Wave2Vec 2),都具有区别于其较小规模同类模型的特殊属性。基于海量数据集训练出来的 DNN 的规模越来越大,使得它们只需再经过少量示例训练就能够适应新任务要求,从而加快了向通用人工智能的迈进。使用庞大的数据集,训练包含数百亿到千亿参数的模型并非易事,这需要独特的方法来综合运用人工智能、高性能计算 (HPC) 和系统知识。本课程的目标就是学习如何训练超大型的神经网络并将其部署到生产中。
学习目标
完成本课程后,您将能够:
- 跨多个服务器训练神经网络
- 使用激活检查点、梯度累积和各种形式的模型并行等技术,来克服与大型模型内存占用相关的挑战
- 捕获并了解训练性能特征以优化模型架构
- 使用 NVIDIA TensorRT-LLM 将超大型多 GPU 模型部署到生产环境
下载课程大纲 (PDF 518 KB)