MultimodalFlow
← 返回博客

Jetson AGX Orin 上运行 LLM 的实测数据

JetsonLLM边缘推理benchmark

测试环境

  • 设备:NVIDIA Jetson AGX Orin 64GB
  • JetPack:6.1
  • 推理框架:llama.cpp(CUDA 后端)

测试结果

| 模型 | 量化 | Token/s | 首 token 延迟 | 显存 | |------|------|---------|-------------|------| | Llama 3.1 8B | Q4_K_M | 28 | 1.2s | 5.8 GB | | Qwen2.5 7B | Q4_K_M | 31 | 1.0s | 5.2 GB | | Phi-3 Mini | Q4_K_M | 47 | 0.7s | 2.8 GB |

结论

Phi-3 Mini 在速度和显存上优势明显,适合对话类应用。Qwen2.5 7B 中文效果更好,是中文知识库问答的优先选择。

# 启动推理服务示例
./llama-server -m qwen2.5-7b-q4_k_m.gguf -ngl 999 --host 0.0.0.0 --port 8080

后续会补充 Jetson AGX Thor 和 DGX Spark 的对比数据。