数据工程是数据科学的基础,为分析和建模奠定了基础。为了让组织机构能够从结构化和非结构化数据中提取信息和见解,快速访问准确且完整的数据集至关重要。处理不同来源的海量数据需要复杂的基础设施和专业技能。当扩展到数百万乃至数万亿个数据点时,看似微不足道的低效有可能导致巨大的时间和金钱成本。
在此课程中,我们将探讨 GPU 如何改进数据工作流,以及如何运用先进的数据工程技术和工具,显著加速性能。通过更快速的数据通道创建仪表板和机器学习(ML)模型,用户可以随时获得最新信息。
学习目标
参加本次培训,您将学习到:
- 数据在计算机内的移动方式。如何在 CPU、DRAM、磁盘内存与 GPU 之间构建适当的平衡。硬件如何读取和操控不同的文件格式。
- 通过多个 GPU, 如何使用 NVTabular 扩展 ETL 通道。
- 如何构建交互式 Plotly 仪表板,让使用者秒筛数百万的数据点。
下载课程大纲 (PDF 318 KB)