Jetson AGX Orin 64GB LLM 推理测试（2026）

本文所有数据来自 Jetson AGX Orin 64GB Developer Kit 真机测试，目标是为边缘 AI 选型提供实际参考——非合成数据，非厂商规格表。

测试环境

规格	数值
设备	NVIDIA Jetson AGX Orin Developer Kit
统一内存	64 GB
JetPack 版本	6.1
CUDA 版本	12.6
计算能力	8.7
推理框架	llama.cpp（CUDA 后端）
GPU 层卸载	全量（`-ngl 999`）
Flash Attention	开启（`-fa 1`）

Orin 的 64 GB 统一内存由 CPU 和 GPU 共享，没有独立显存池。测试的三个模型均可完整加载到统一内存，无需 CPU 卸载。

测试模型

选取了三个覆盖不同场景和内存体积的模型：

Llama 3.1 8B Q4_K_M — 通用英文模型，生态丰富，部署广泛
Qwen2.5 7B Q4_K_M — 中英双语能力强，适合中文场景
Phi-3 Mini Q4_K_M — 3.8B 紧凑模型，针对效率优化

三个模型均使用 Q4_K_M 量化，在边缘硬件上兼顾输出质量与内存占用。

测试结果

模型	参数量	量化	文件大小	生成速度	首 token 延迟	内存占用
Llama 3.1 8B	8B	Q4_K_M	4.9 GiB	28 t/s	1.2s	5.8 GB
Qwen2.5 7B	7B	Q4_K_M	4.7 GiB	31 t/s	1.0s	5.2 GB
Phi-3 Mini	3.8B	Q4_K_M	2.4 GiB	47 t/s	0.7s	2.8 GB

结果分析

生成速度

人类阅读速度约为 3–5 token/秒，三个模型均远超这一门槛：

Phi-3 Mini：47 t/s — 约为阅读速度的 10 倍，短输出几乎无等待感
Qwen2.5 7B：31 t/s — 约为阅读速度的 6–10 倍，交互对话和文档处理均流畅
Llama 3.1 8B：28 t/s — 参数量与 Qwen2.5 7B 相近但略慢，可能与架构差异和词表大小有关

首 Token 延迟（TTFT）

TTFT 决定第一个输出字符出现前的等待时间，直接影响流式场景的体验：

0.7s（Phi-3 Mini）：聊天界面几乎感知不到
1.0s（Qwen2.5 7B）：绝大多数场景可接受
1.2s（Llama 3.1 8B）：有轻微感知，但对长文档处理场景影响不大

三者均在生产级边缘应用的可接受范围内。

内存占用

Orin 的 64 GB 统一内存在跑模型的同时仍有充裕余量：

模型	已用内存	剩余可用
Phi-3 Mini	2.8 GB	61.2 GB
Qwen2.5 7B	5.2 GB	58.8 GB
Llama 3.1 8B	5.8 GB	58.2 GB

理论上可以同时加载三个模型，仍剩余 50+ GB 可供相机流水线、嵌入模型或更大的 KV Cache 使用。

部署命令

启动持久化推理服务：

# 启动 llama.cpp 服务（兼容 OpenAI API，端口 8080）
cd ~/llama.cpp
LD_LIBRARY_PATH=build/bin build/bin/llama-server \
  -m /models/qwen2.5-7b-q4_k_m.gguf \
  -ngl 999 \
  -fa 1 \
  --host 0.0.0.0 \
  --port 8080 \
  --ctx-size 4096

服务启动后暴露兼容 OpenAI 的 /v1/chat/completions 接口，无需修改即可接入任何支持 OpenAI API 的客户端。

# 测试运行中的服务
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5-7b",
    "messages": [{"role": "user", "content": "你好，你能做什么？"}],
    "max_tokens": 100
  }'

如何选择模型

选 Phi-3 Mini，如果：

速度优先
需要为其他应用保留更多内存
任务为英文问答、分类或短文本生成

选 Qwen2.5 7B，如果：

需要中文语言支持
构建中英双语助手或处理中文文档
需要比 Phi-3 Mini 更强的复杂推理能力

选 Llama 3.1 8B，如果：

需要最广泛的开源生态兼容性
场景受益于 Llama 的各类微调变体（指令跟随、代码等）
英文推理质量是首要考量

Orin vs Thor：背景参考

Orin 64GB 在 Jetson 产品线中低于 Jetson AGX Thor。Thor 拥有约 2 倍的内存（123 GB）和更新的 GPU 架构，可承载 FP8 精度下的 35B+ 大模型。

对于 7–13B 规模的模型，Orin 是性价比很高的平台。28–47 t/s 的生成速度完全满足实时应用、机器人控制流水线和设备端私有助手的需求。

测试数据采集于 2026 年 5 月，硬件为实际运行设备。不同 JetPack 版本、模型变体或散热状态下结果可能存在差异。