NVIDIA Home
NVIDIA Home
Close
Close icon
Close
Close icon
Close
Close icon
Caret down icon
Accordion is closed, click to open.
Caret down icon
Accordion is closed, click to open.
Caret up icon
Accordion is open, click to close.
Caret right icon
Click to expand
Caret right icon
Click to expand
Caret right icon
Click to expand menu.
Caret left icon
Click to collapse menu.
Caret left icon
Click to collapse menu.
Caret left icon
Click to collapse menu.
Shopping Cart
Click to see cart items
Search icon
Click to search
Visit your regional NVIDIA website for local content, pricing, and where to buy partners
specific to your country.
Argentina
Australia
België (Belgium)
Belgique (Belgium)
Brasil (Brazil)
Canada
Česká Republika (Czech Republic)
Chile
Colombia
Danmark (Denmark)
Deutschland (Germany)
España (Spain)
France
India
Israel
Italia (Italy)
México (Mexico)
Middle East
Nederland (Netherlands)
Norge (Norway)
Österreich (Austria)
Peru
Polska (Poland)
Rest of Europe
România (Romania)
Singapore
Suomi (Finland)
Sverige (Sweden)
Türkiye (Turkey)
United Kingdom
United States
СНГ (CIS)
한국 (Korea)
中国 (Mainland China)
台灣 (Taiwan)
日本 (Japan)
AI 推理是指部署预训练的 AI 模型以生成新数据的过程,也是 AI 产出成果、推动各行业创新的环节。AI 模型的规模、复杂度和多样性正在迅速扩展,不断突破界限。为了成功使用 AI 推理,企业组织需要支持端到端 AI 生命周期的全栈方法,以及助力团队在新的扩展定律 时代实现目标的工具。
AI 推理:平衡成本、延迟与性能
阅读《IT 负责人的 AI 推理与性能指南》,掌握如何降低每个 token 的成本,并获取最佳 AI 模型的性能。
获取 NVIDIA AI 推理的最新动态
注册获取 NVIDIA 最新的 AI 推理新闻、动态等内容。
在应用程序、AI 框架、模型架构和平台之间实现标准化地部署模型。
轻松与云、本地数据中心和边缘设备上的工具和平台集成。
通过 AI 基础设施实现高吞吐量和高利用率,从而降低成本。
实现生成式 AI 推理的最快途径
NVIDIA NIM 是一套易于使用的预构建容器工具,目的是帮助企业客户加速在云、数据中心和工作站中部署生成式 AI 模型。
适用于所有 AI 工作负载的统一推理服务器
NVIDIA Triton 推理服务器是一款开源的推理服务软件,它可以帮助企业整合定制的 AI 模型服务基础设施,缩短在生产环境中部署新 AI 模型的时间,并提升 AI 推理和预测能力。
用于优化推理和运行时的 SDK
NVIDIA TensorRT 包含推理运行时环境和模型推理优化器,可为生产级应用程序提供低延迟和高吞吐量。TensorRT 的生态系统包括 TensorRT,TensorRT-LLM,TensorRT 模型优化器 和 TensorRT Cloud。
利用针对 NVIDIA 加速基础设施优化的 NVIDIA AI 推理软件,获得无与伦比的 AI 性能。NVIDIA H200、L40S 和 NVIDIA RTX™ 技术可为跨数据中心、云和工作站的 AI 推理工作负载提供卓越的速度和效率。
NVIDIA H200 Tensor Core GPU
NVIDIA H200 Tensor Core GPU 以颠覆性的性能和内存能力,为生成式 AI 和高性能计算 (HPC) 工作负载提供强大助力。作为第一款采用 HBM3e 的 GPU,H200 更大更快的内存使生成式 AI 和大型语言模型 (LLM) 进一步加速,同时提升 HPC 工作负载的科学计算能力。
NVIDIA L40S GPU
将 NVIDIA 的全栈推理服务软件与 L40S GPU 相结合,为准备进行推理的训练模型提供了一个强大的平台。凭借对结构化稀疏的支持和广泛的精度,L40S 的推理性能比 NVIDIA A100 Tensor Core GPU 提升多达 1.7 倍。
NVIDIA RTX 技术
NVIDIA RTX 技术将 AI 引入视觉计算,通过自动化任务和优化计算密集型流程来加速创造力。借助 CUDA® 核心的强大功能,RTX 可增强实时渲染、AI、图形和计算性能。
NVIDIA Project DIGITS 将 Grace Blackwell 的强大功能引入开发者桌面。GB10 Grace Blackwell 超级芯片结合了 128GB 的统一的系统内存,可让 AI 研究人员、数据科学家和学生在本地使用具有多达 200B 参数的 AI 模型。
了解 NVIDIA AI 如何支持行业应用场景,以及相关精选示例,来快速启动 AI 开发。
数字人
内容生成
生物分子生成
欺诈检测
AI 聊天机器人
安全漏洞分析
NVIDIA ACE 是一套帮助开发者构建栩栩如生的数字人的技术。部分 ACE 微服务使用 NVIDIA NIM 优化和部署,NIM 是易于使用、高性能的预构建容器工具。这些 ACE 微服务可在 NVIDIA RTX AI PC 或 NVIDIA Graphics Delivery Network (GDN) 上运行,GDN 是一个全球性的 GPU 网络,可向 100 个国家/地区提供低延迟的数字人技术。
借助生成式 AI,您可以基于企业所在领域的专业知识和专有 IP,生成高度相关、定制且准确的内容。
借助生物分子生成模型和 GPU 的计算能力可高效地探索化学空间,快速生成针对特定药物靶标或属性的多样化小分子集。
金融机构需要检测和防止复杂的欺诈活动,如身份盗用、账户接管和洗钱。AI 赋能的应用可以减少交易欺诈检测中的误报,提高身份验证准确性以满足了解客户 (KYC) 要求,并使反洗钱 (AML) 工作更加有效。从而改善客户体验和您公司的财务状况。
企业组织正在寻求使用检索增强生成 (RAG) 技术构建更智能的 AI 聊天机器人。借助 RAG,聊天机器人能够从企业组织的知识库中检索信息,并以自然语言提供实时回复,从而准确回答特定领域的问题。这些聊天机器人可用于增强客户支持、个性化 AI 头像、管理企业知识、简化员工入职、提供智能 IT 支持、创建内容等。
修补软件安全的问题正变得越来越具有挑战性,因为在常见漏洞和暴露 (CVE) 数据库中报告的安全漏洞数量在 2022 年创下历史新高。 利用生成 AI,使得在提升漏洞防御能力的同时,减轻安全团队的负担。
Amdocs
提升生成式 AI 的性能并降低成本
了解 Amdocs 如何使用 NVIDIA DGX™ Cloud 和 NVIDIA NIM 预构建容器工具,来构建 amAIz,这是一个面向电信行业的专用生成式 AI 平台,旨在降低延迟、提高准确性并降低成本。
Snapchat
利用 AI 增强服装购物体验
了解 Snapchat 如何利用 Triton 推理服务器增强服装购物体验和感知表情符号的光学字符识别功能,从而实现扩展规模、降低成本并加速产品上市时间。
Amazon
提高客户满意度
了解 Amazon 如何使用 TensorRT 将推理加速到 5 倍来提高客户满意度。
探索生成式 AI 和 大语言模型的学习路径
通过我们全面的学习路径提升您在生成式 AI 和大语言模型方面的技术能力。
在生产环境中使用 NVIDIA NIM 部署生成式 AI
利用 NVIDIA NIM 释放生成式 AI 的潜力。视频深入介绍了 NVIDIA NIM 如何将 AI 部署转变为生产就绪的强大引擎。
Triton 推理服务器简化推理的五大原因
Triton 推理服务器可简化 AI 模型在生产环境中的大规模部署。作为一款开源推理服务软件,Triton 允许团队在本地存储或基于任何 GPU 或 CPU 基础设施的云平台上,部署使用任何框架训练的 AI 模型。
NVIDIA 推出 NIM
NVIDIA NIM 技术能做什么?深入探索令人惊叹的数字人和机器人世界,了解 NIM 能实现什么。
探索您启动开发 AI 应用所需的一切资源,包括最新的文档、教程、技术博客等。
准备好开始了吗?
探索您启动开发 AI 应用所需的一切资源,包括最新的文档、教程、技术博客等。
获取 NVIDIA AI 推理的最新动态
注册获取 NVIDIA 最新的 AI 推理新闻、动态等内容。
Deploying Generative AI in Production
Optimizing and Scaling LLMs With TensorRT-LLM for Text …
AI Inference in Action: Success Stories and Best …
Deploying, Optimizing, and Benchmarking Large …
Optimize Generative AI inference with Quantization …
Deep Dive into Training and Inferencing Large …
Optimizing Inference Performance and …
Universal Model Serving via Triton and TensorRT
A Temporal Fusion Framework for Efficient Autoregressive …
Scaling AI Inference on the Edge (Presented by …
Scaling Generative AI Features to Millions of …
Accelerating End-to-End Large Language Models …
Optimizing Inference Model Serving for Highest …
Simplifying OCR Serving with Triton Inference Server
Inference at the Edge: Building a Global, Scalable …
Unlocking AI Model Performance: Exploring …
Move Enterprise AI Use Cases From Development to …