讲师指导的培训班
加速计算基础——CUDA C++
前沿技术

本门课程将为你全面介绍如何使用 CUDA 进行通用 GPU 编程。您将学习如何编写、编译和运行 GPU 加速代码,通过 CUDA 核心库来利用现代 GPU 加速器提供的大规模并行能力,优化 CPU 和 GPU 之间的内存迁移,实现您自己的算法。课程结束时,您将可以访问额外的资源来创建自己的 GPU 加速应用。

 

学习目标

完成本课程后,您将学到如何应用基本工具和技能,利用 CUDA 实现 GPU 加速的 C++ 应用,并能够:

  • 编写和编译在 GPU 上运行的代码
  • 优化 CPU 和 GPU 之间的内存迁移
  • 利用强大的并行算法来简化向代码添加 GPU 加速
  • 直接使用 CUDA 内核编程 GPU 来实现自己的并行算法
  • 利用并发 CUDA 流来重叠内存传输和计算
  • 了解在何处、何时以及如何最好地向现有的仅 CPU 应用程序添加 CUDA 加速
  • 课程大纲待更新

课程大纲

介绍
(15 分钟)
  • 讲师介绍
  • 登录 DLI 学习平台
CUDA 简易入门:使用并行算法加速应用
(120 分钟)

    为了让您尽可能轻松地迈出 GPU 编程的第一步,本课程教您如何利用强大的并行算法,通过更改几行代码就能轻松实现代码的 GPU 加速。此过程中,您将学习执行空间和内存空间、并行性、异构计算和内核融合等基本概念。这些概念将为您在加速计算领域的进步奠定基础。完成后,您将能够:

  • 编写、编译和运行 GPU 代码
  • 重构标准算法以在 GPU 上执行
  • 扩展标准算法以适应您的独特场景
休息 (60 分钟)
释放 GPU 的全部潜力:利用 CUDA 流实现异步
(120 分钟)

    在之前的课程中,您学习了如何使用并行算法。然而仅利用并行还不足以加速您的应用。为了充分利用 GPU,本课程将教您另一个基本概念:异步。您将学习如何以及何时利用异步。您将使用 Nsight Systems 来区分同步和异步算法,并识别性能瓶颈。完成后,您将能够:

  • 使用 CUDA 流来重叠执行和内存传输
  • 使用 CUDA 事件进行异步依赖管理
  • 使用 NVIDIA Nsight Systems 对 CUDA 代码进行性能分析
休息 (15 分钟)
使用 CUDA 内核实现新算法
(120 分钟)

    之前的课程为您建立了基本概念,您了解了如何使用标准并行算法提供既方便又快速的 GPU 加速。然而,有时您的独特场景可能无法被加速库覆盖。接下来,您将学习 CUDA SIMT 编程模型,使用 CUDA 内核直接对 GPU 进行编程。此外,还将介绍 CUDA 生态系统提供的实用工具,以便于开发自定义 CUDA 内核。完成后,您将能够:

  • 编写和启动自定义 CUDA 内核
  • 控制线程层次结构
  • 利用共享内存
  • 使用协作算法
评估测试和总结
(60 分钟)
  • 回顾所学关键内容
  • 完成测试,获取证书
  • 填写培训调查表
下一步

学习更多 DLI 相关课程:

 

培训详情

课程时长:8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额)

价格:

  • AI 培训班每人 3500 元(提供发票)
  • 企业专属培训:联系我们,微信添加 NVIDIALearn

预备知识:

  • 基本的 C/C++ 编程能力,包括熟悉 lambda 表达式、循环、条件语句、函数、标准算法和容器
  • 无需预先了解 CUDA 编程

工具、库和框架:CUDA, NVIDIA Nsight Systems

课程测评问题类型:基于技能的编码测试

培训证书:成功完成本课程和测试后,您将获得 NVIDIA DLI 证书,以证明您在这一主题领域的能力,助力您的职业发展。

学习此课程的硬件要求:您需要一台笔记本电脑或台式机,且能够运行最新版 Chrome 或 Firefox 浏览器。我们为您提供在云端完全配置的 GPU 加速工作站的专用访问权限。

课程语言:中文

学习更多 DLI 课程

深度学习新手入门

深度学习基础——理论与实践入门

高效定制大语言模型 (LLM)

构建基于大语言模型 (LLM) 的应用

构建基于扩散模型的生成式 AI 应用

模型并行 —— 构建和部署大型神经网络

如果您的企业希望获取或提升在 AI、加速数据科学或加速计算方面的核心技能,NVIDIA DLI 有讲师指导的培训将是您的信心之选。

遇到问题 ?

Select Location
Middle East