浏览经优化的最新 AI 模型,使用 NVIDIA NeMo 将 AI 智能体与数据连接,并通过 NVIDIA NIM 微服务随时随地部署。
集成
使用熟悉的 API 快速启动并运行。
Cosmos 世界基础模型生成物理感知视频和世界状态,用于物理 AI 开发。Llama Nemotron LLM 利用 NVIDIA 的最新技术加速运行最佳开源模型,以实现无可比拟的性能。
只需几行代码,即可在现有工具和应用中使用 NVIDIA API。
兼容最常用的 LLM 编程框架,包括 LangChain 和 LlamaIndex,并可将最新 AI 模型轻松集成到您的应用程序中。
数据为现代企业应用程序提供动力支持。借助采用检索增强生成 (RAG) 技术的 AI 查询引擎,将 AI 代理大规模地连接到企业数据,为员工提供即时、准确的企业内部知识。
构建具有重大影响的代理式 AI 应用所需的一切。每个蓝图均包括 NVIDIA NIM™、NeMo 和合作伙伴微服务、一个或多个 AI 智能体、示例代码、定制说明以及用于部署的 Helm 图表。
随处运行
NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分,是一套易于使用的预构建容器工具,可在任何云或数据中心上加速部署基础模型,并帮助您确保数据安全。
用单个命令为您的模型部署 NIM。您还可以轻松地使用微调模型运行 NIM。
借助最佳运行时引擎,在 NVIDIA 加速基础设施的基础上启动并运行 NIM。
开发者只需通过几行代码,即可集成自托管 NIM 端点。
在任何 NVIDIA 加速基础设施上无缝部署容器化 AI 微服务,涵盖从单一设备到数据中心的各种规模。
依靠生产级运行时(包括持续的安全更新),使用稳定的 API 运行业务应用,并获得企业级支持。
使用不断优化的 AI 运行时,在 NVIDIA 加速基础设施上实现低延迟和高吞吐量,从而降低在生产中运行模型所需的运营成本。
NVIDIA NIM 提供开箱即用的优化吞吐量和延迟,可更大限度地提高 Token 生成速度,为高峰期并发用户提供支持并提高响应能力。
配置:Llama3.1-8B-instruct, 1x H100SXM;输入 Token 长度:1000,输出 Token 长度:1000。并发客户端需求:200。NIM On:FP8,吞吐量 6,354 tokens/s, TTFT 0.4s, ITL: 31ms;NIM Off:FP8,吞吐量 2,265 tokens/s, TTFT 1.1s, ITL: 85ms
定制
NVIDIA NeMo™ 是一个用于随时随地开发自定义生成式 AI 的端到端平台。该平台包含用于训练、定制、检索增强生成 (RAG)、护栏、数据管护和模型预训练的工具,使企业可以轻松、经济、快速地使用生成式 AI。
应用场景
了解 NVIDIA API 如何为行业用例提供支持,并通过精选示例快速启动 AI 开发。
生态系统
加入领先的合作伙伴,使用我们生态系统中的模型、工具包、向量数据库、框架和基础设施开发 AI 应用。
资源
探索技术文档,使用 NVIDIA API 开始进行原型设计并构建企业 AI 应用,或使用 NVIDIA NIM 对基础设施进行扩展。