使用 NVIDIA NIM 和 NeMo 构建代理式 AI

浏览经优化的最新 AI 模型，使用 NVIDIA NeMo 将 AI 智能体与数据连接，并通过 NVIDIA NIM 微服务随时随地部署。

开始探索观看视频

集成

开始探索

集成

只需调用 API 即可加速 AI

使用熟悉的 API 快速启动并运行。

使用世界级模型开始构建

Cosmos 世界基础模型生成物理感知视频和世界状态，用于物理 AI 开发。Llama Nemotron LLM 利用 NVIDIA 的最新技术加速运行最佳开源模型，以实现无可比拟的性能。

详细了解 Cosmos

使用 Cosmos Nemotron

详细了解 Llama Nemotron

与各种热门库无缝兼容

只需几行代码，即可在现有工具和应用中使用 NVIDIA API。

使用您喜欢的工具

兼容最常用的 LLM 编程框架，包括 LangChain 和 LlamaIndex，并可将最新 AI 模型轻松集成到您的应用程序中。

详细了解如何使用这些工具和 NVIDIA NIM 构建应用

解锁企业数据中的洞察

数据为现代企业应用程序提供动力支持。借助采用检索增强生成 (RAG) 技术的 AI 查询引擎，将 AI 代理大规模地连接到企业数据，为员工提供即时、准确的企业内部知识。

了解详情

NVIDIA Blueprint

构建具有重大影响的代理式 AI 应用所需的一切。每个蓝图均包括 NVIDIA NIM™、NeMo 和合作伙伴微服务、一个或多个 AI 智能体、示例代码、定制说明以及用于部署的 Helm 图表。

了解详情

开始开发

随处运行

借助 NVIDIA NIM 加速 AI 部署

NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分，是一套易于使用的预构建容器工具，可在任何云或数据中心上加速部署基础模型，并帮助您确保数据安全。

开始部署

Accelerate Your AI Deployment With NVIDIA NIM

详细了解 NVIDIA NIM

了解如何在五分钟内部署 NIM

部署 NIM

用单个命令为您的模型部署 NIM。您还可以轻松地使用微调模型运行 NIM。

运行推理

借助最佳运行时引擎，在 NVIDIA 加速基础设施的基础上启动并运行 NIM。

构建

开发者只需通过几行代码，即可集成自托管 NIM 端点。

Deploy

Run

Build

docker run nvcr.io/nim/publisher_name/model_name

 
 curl -X 'POST' \ 
  'http://0.0.0.0:8000/v1/completions' \ 
  -H 'accept: application/json' \ 
  -H 'Content-Type: application/json' \ 
  -d '{ 
  "model" : "model_name", 
  "prompt" : "Once upon a time", 
  "max_tokens" : 64 
 }' 

 
 import openai 
 client = openai.OpenAI( 
  base_url = "YOUR_LOCAL_ENDPOINT_URL", 
  api_key="YOUR_LOCAL_API_KEY" 
 ) 
 chat_completion = client.chat.completions.create( 
  model="model_name", 
  messages=[{"role" : "user" , "content" : "Write me a love song" }], 
  temperature=0.7 
 ) 

使用 Kubernetes 进行本地发布或扩展

在任何 NVIDIA 加速基础设施上无缝部署容器化 AI 微服务，涵盖从单一设备到数据中心的各种规模。

安全、自信地进行部署

依靠生产级运行时（包括持续的安全更新），使用稳定的 API 运行业务应用，并获得企业级支持。

Continually Lower Costs and Your Carbon Footprint

降低成本并减少碳足迹

使用不断优化的 AI 运行时，在 NVIDIA 加速基础设施上实现低延迟和高吞吐量，从而降低在生产中运行模型所需的运营成本。

吞吐量

NVIDIA NIM 提供开箱即用的优化吞吐量和延迟，可更大限度地提高 Token 生成速度，为高峰期并发用户提供支持并提高响应能力。

配置：Llama3.1-8B-instruct, 1x H100SXM；输入 Token 长度：1000，输出 Token 长度：1000。并发客户端需求：200。NIM On：FP8，吞吐量 6,354 tokens/s, TTFT 0.4s, ITL: 31ms；NIM Off：FP8，吞吐量 2,265 tokens/s, TTFT 1.1s, ITL: 85ms