鉴于许多数据处理任务的并行性质,GPU 的大规模并行架构自然应能并行执行 Spark 数据处理查询,并能像 GPU 加快人工智能 (AI) 领域的深度学习 (DL) 那般来加快此查询速度。因此,NVIDIA® 已与 Spark 社区合作,共同致力在 Spark 3.x 中实现 GPU 加速。
虽然 Spark 是以分割数据形式在节点分区中分发计算,但其向来是在 CPU 核心上执行计算操作。但若在 Spark 中引入 GPU 加速,则可带来诸多优势。其一,可减少所需的服务器数量,降低基础设施成本。而且凭借查询速度的提升,用户有望缩短获得结果的时间。此外,由于 GPU 加速是透明的,您无需更改专为在 Spark 上运行而构建的应用程序,即可让应用程序获得 GPU 加速的优势。