Step 3.7 Flash 在具有多模式 AI 的 NVIDIA GPU 上首次亮相

Step 3.7 Flash 是一种 198B 参数多模式 AI 模型，针对 NVIDIA GPU 进行了优化，重新定义了企业级 AI 的跨文本、图像和视频推理功能。

Step 3.7 Flash Debuts on NVIDIA GPUs with Multimodal AI

StepFun 推出了 Step 3.7 Flash，这是一种尖端的多模式 AI 模型，专为企业级应用程序而设计，利用 NVIDIA GPU。该模型拥有 1980 亿个海量参数和 110 亿个活跃参数混合专家 (MoE) 架构，专为跨文本、图像、视频和其他模式的复杂推理任务而定制。它标志着 2026 年初发布的广受讨论的 Step-3.5-Flash 的重大升级。

步骤 3.7 Flash 针对高吞吐量用例进行了优化，例如财务数据分析、并发编码代理和大规模文档智能。其架构包括 256k 上下文窗口和三个推理级别（低、中、高），为企业提供应对不同工作负载的灵活性。该模型集成了对图像和视频输入的本机支持，使其成为大规模多模式处理的理想选择。

对于开发人员来说，StepFun 在 Hugging Face 上提供了 NVFP4 量化检查点，可以降低内存和存储要求，从而实现更快的推理。它可以使用 NVIDIA TensorRT-LLM、SGLang 和 vLLM 等开源框架进行部署，这些框架针对 NVIDIA 的 GPU 基础设施进行了优化。

为什么重要

Step 3.7 Flash 满足了对能够跨模态实时推理的 AI 模型不断增长的需求，这是从早期纯文本生成模型的转变。其先进的 MoE 架构平衡了计算效率和性能，这是考虑到企业人工智能部署通常受到硬件和成本限制的关键因素。

Step-3.x Flash 系列已成为多模式 AI 的基准，据报道，早期的 Step-3.5-Flash 在代理和编码任务方面优于 GLM-4.7 和 DeepSeek v3.2 等竞争对手。新版本建立在这一血统的基础上，通过增加规模和功能进一步挑战极限。

企业部署

NVIDIA 提供多种途径将 Step 3.7 Flash 集成到生产环境中。企业可以利用 build.nvidia.com 上的 GPU 加速端点进行快速原型设计，或使用 NVIDIA NIM（神经推理微服务）进行容器化部署。 NIM 通过标准化 API 支持本地、云或混合设置，使公司能够更轻松地扩展多模式工作流程。

定制是另一个突出的功能。使用 NVIDIA 的 NeMo 框架，开发人员可以直接使用来自 Hugging Face 检查点的特定领域数据对 Step 3.7 Flash 进行微调。监督微调 (SFT) 和 LoRA（低阶适应）等技术可实现高效更新，确保模型符合独特的企业需求。

背景和市场趋势

Step 3.7 Flash 的发布符合 2026 年稀疏激活模型和多模态 AI 的行业趋势。这些创新旨在在不牺牲性能的情况下降低推理成本，这是人工智能在各行业采用不断增长的关键因素。步骤 3.7 Flash 中看到的 MoE 方法可实现动态参数激活，从而在保持高精度的同时减少计算开销。

此次发布也反映了 NVIDIA 更广泛地推动人工智能硬件软件堆栈的主导地位。通过将 Step 3.7 Flash 等模型与其 GPU 技术紧密集成，NVIDIA 巩固了其作为可扩展 AI 解决方案首选平台的地位。

下一步是什么？

步骤 3.7 Flash 现在可用于测试和部署。开发人员可以在 Hugging Face 上探索模型，通过 NVIDIA 的 build.nvidia.com 探索原型工作流程，或使用 NVIDIA DGX Station 上的 vLLM Playbook 进行本地部署。对于需要强大生产设置的企业，NIM 框架提供了交钥匙解决方案。

随着人工智能系统变得越来越复杂，多模态推理成为常态，像 Step 3.7 Flash 这样的创新正在为企业人工智能可以实现的目标设定新标准。

书签