RK1820的开发框架全解析：从模型训练到端侧推理，Neardi让AI落地更高效

2025.10.17

在边缘AI应用逐步普及的今天，如何让AI模型在端侧快速、高效地运行，成为开发者普遍关注的核心问题。面对复杂的AI算法与算力需求，RK1820作为一款集成RISC-V协处理器与高性能AI加速引擎的SoC，为开发者提供了一套完整、易用的端到端AI开发体系。

本文将带你深入解析RK1820的开发框架，从PC端模型开发到板端AI部署，看看Neardi如何让AI协处理器真正“落地”。

在嵌入式系统和 AI 加速场景下，主控芯片负责通用控制与资源管理，协处理器则承担高强度、专用或实时的计算任务。通过共享内存、FIFO、RPC 等机制实现高效协同，能够显著提升系统性能、降低功耗并保持设计的灵活可扩展性，这也是现代 SoC 越来越多采用协处理器架构的根本原因。RK1820是一款AI协处理器，与RK3588/RK3576相结合，通过PCIe通信能灵活、快速的、高效地使用。

角色	功能定位	典型芯片
主控SOC（Host）	系统调度、外设管理、任务分配、应用逻辑执行	RK3588、RK3576、RK3568
协处理器（Device）	负责特定类型的计算加速（如AI推理、加密、图像处理）	RK1820、RK1808、BM1684X、Hailo-8
PCIe(通信接口)	实现主控与协处理器之间的低延迟、高带宽数据交互。	-

主控芯片（CPU）在嵌入式系统中的职责CPU 负责“让系统按正确顺序、在正确时间、以最低能耗完成感知、计算、通信、控制”的全部杂活；其他专用引擎（NPU、DSP、FPGA 协核）只负责“算得快”，但什么时候算、算什么、算完给谁，都得听 CPU 指挥。

CPU 就是嵌入式系统的“全能管家”：它一边读程序、一边把指令翻译成真正要做的运算，还让 ALU 去把活干完；同时操心内存、缓存、时钟怎么分才公平，像财务总监一样盯着有限的资源。对外，GPIO、UART、I²C、SPI、USB、网口都是它的“嘴”和“手”，传感器、屏幕、网络模块想通信都得先找它。任务多了，它立刻变项目经理，在 RTOS 里按优先级切时间片，保证电机、刹车这类急件秒级响应。上电那一刻，它先自检、再拉 Bootloader 验身份，确认系统“干净”才放行。发现系统空闲，就自动降频降压甚至睡觉，帮电池续命。最后，它还是“总指挥”——DSP、NPU 这些外挂算力什么时候开工、搬什么数据、结果放哪，全听它一声令下；整条计算、存储、外设、加速器的流水线，都在它手里协调得明明白白。

协处理器的概念与工作原理

协处理器（coprocessor）就是“CPU 的外挂技能包”：自身不能独立取指跑操作系统，只接受主 CPU 下达的微指令或数据块，在专用硬件阵列上把特定算子（乘加、卷积、浮点、FFT、AES、CRC、三角函数……）干到高性能/低功耗，算完把结果扔回公共存储器并中断通知 CPU。编译器先“打标签”：把程序里那些算矩阵、做卷积之类的大块头函数，标成“这活儿让外挂干”。CPU 读到这些标记后，不自己硬算，而是把参数丢进协处理器的“收件箱”——可能是几个寄存器，也可能是 FIFO 或 DMA 缓冲区——然后按一下“开始”按钮。

接下来，协处理器在自己的时钟域里全速开工，CPU 则该干嘛干嘛，两边真正并行。

等协处理器算完，它会通过三种方式喊一声“我好了”：拉高某个状态位、发中断，或者把结果直接写回共享内存。CPU 收到信号后，过来把结果取走，程序继续往下走。

万一协处理器出了岔子（溢出、非法指令啥的），它会先把错误码写在状态寄存器里，再向 CPU 报异常；CPU 一看异常向量，就知道该怎么收场。整个过程就像老板把图纸递给专职机器，机器轰隆隆加工，老板继续接电话，机器做完按铃交货，有故障就亮红灯，流程顺畅又省心。

主控芯片与协处理器之间是如何通信的？为了让两者高效协作，它们之间通常通过高速互联总线进行通信，最常见的通信方式 PCIe PCIe 是一种点对点的高速串行总线标准，具有高带宽、低延迟、可扩展性强的特性，因此成为 CPU、GPU、NPU 等高性能器件之间通信的首选。

数据带宽高：每通道（x1）速率可达1 GB/s（PCIe 3.0）甚至 4 GB/s（PCIe 4.0），低延迟：点对点架构减少了仲裁与等待时间，适合实时AI数据交换。双向传输：全双工通道同时支持发送与接收，保证数据同步。热插拔特性：部分设计中支持模块级热插拔，方便维护与扩展。

	PCIe 3.0 x4	PCIe 4.0 x4	USB 3.2 Gen2×1
理论带宽	32 Gbps（≈3.94 GB/s 单工）	64 Gbps（≈7.88 GB/s 单工）	10 Gbps（≈1.25 GB/s 双工）
实测持续吞吐	3.5 GB/s 读 / 3.0 GB/s 写	7.0 GB/s 读 / 6.5 GB/s 写	1.05 GB/s 读 / 0.95 GB/s 写
接口延迟	3–5 µs（DMA 直写）	3–5 µs	120–250 µs（主从调度）
最大抖动	<1 %	<1 %	10–20 %（总线竞争）
拓扑结构	点对点，独占通道	点对点，独占通道	主从星型，多设备共享
可靠性机制	LCRC + AER 错误报告，可纠错	LCRC + AER 错误报告，可纠错	CRC16 + 重传，无 AER
热插拔	支持，即插即用	支持，即插即用	支持，即插即用
实时控制	纳秒–微秒级闭环，抖动极低	纳秒–微秒级闭环，抖动极低	毫秒级，抖动大

RK1820的开发框架全解析

PC端开发环境：从训练到模型转换

在AI模型开发的初期，PC端主要承担模型训练、转换与性能评估等任务。RK1820提供了一整套成熟的软件工具链，包括：

RKNN3 Toolkit - 模型转换与性能评估核心工具，RKNN Toolkit 是Rockchip推出的AI模型开发工具包，可支持从主流深度学习框架（如 PyTorch、TensorFlow、ONNX）导出的模型进行一键转换为 RKNN 格式。开发者可利用该工具完成：模型格式转换（PyTorch → RKNN）、推理性能分析与优化、精度与速度权衡评估。这一过程使模型能够充分适配RK1820的硬件加速特性，实现最大化算力释放。

RKNN3 Model Zoo - 开箱即用的AI模型仓库，Rockchip官方提供了丰富的AI模型示例库，包括图像分类、目标检测、语义分割、手势识别、人脸识别等多种类型。开发者可直接调用或基于这些模型进行二次开发，大幅缩短AI项目从“概念”到“产品”的落地周期。

板端开发环境：让模型真正跑起来

模型完成转换后，就可以部署到RK1820协处理器上进行推理执行。Neardi在RK1820平台上，提供了完善的板端开发支持，包括：

RKNN3 Runtime - 模型推理执行引擎，在端侧运行阶段，RKNN3 Runtime提供完整的API接口，支持开发者在应用中加载和执行RKNN模型。除RKNN3 API外，RK1820平台还支持OpenAI兼容API调用LLM模型，这意味着开发者可以在嵌入式设备上尝试运行轻量化的大模型应用。

Examples - 丰富的AI应用参考示例

Neardi为RK1820平台提供多种AI应用示例，如智能摄像头、人脸识别、目标检测、手势控制、OCR识别等。这些示例不仅展示了AI模型在RK1820上的性能表现，也帮助开发者快速理解API调用流程与模型部署细节。

Neardi在开发套件中集成了调试与性能工具：

RKNN-SMI：实时监控NPU使用率与运行状态；
RKNN Console：命令行工具，用于模型加载、推理测试与性能对比。

驱动支持，RK1820协处理器通过PCIe或USB高速接口与主控SoC互联，并提供完整的 RK182X PCIe EP驱动与配套固件支持。

这种主从协同架构让主控芯片负责任务调度、I/O管理，而RK1820专注于AI推理加速，在功耗与算力之间实现理想平衡。

上一篇：嵌入式世界中国大会来了，neardi与你相约未来边缘智联下一篇：从2TOPS到2.5TOPS：Neardi海思35xxDV500系列速览

返回列表

新闻中心

RK1820的开发框架全解析：从模型训练到端侧推理，Neardi让AI落地更高效

2025.10.17

企业级开源硬件平台

无论是问题、建议还是合作，我们都很乐意听到您的声音。