本书共9章,围绕具身智能发展趋势、灵巧手结构和灵巧手软硬件系统、灵巧手运动控制与技能学习策略(模仿学习+强化学习)、具身智能灵巧操作、灵巧操作应用场景5个部分展开。
第1部分介绍具身智能发展趋势。
第2部分介绍灵巧手的本体结构设计,包括自由度设计、机械结构、驱动方式等,并对灵巧手软硬件系统架构做进一步的剖析,分别围绕灵巧手电机驱控的硬件系统和软件控制系统进行详细阐述。
第3部分对灵巧手的运动控制与技能学习策略展开详细描述:从运动模型构建到控制策略设计展开了系统性描述,并介绍灵巧手的仿真平台与训练环境搭建,包括虚拟仿真系统、数据生成方法及强化学习训练框架,用于提升灵巧手在复杂操作任务中的学习效率和泛化能力;进一步聚焦让灵巧手高效学会干活的主线,先用强化学习在仿真里自主探索、快速试错,再引入人类示范的模仿学习来压缩训练时间、提升精细动作,最终把两种方法融合,实现从抓杯子到拧螺丝等复杂操作技能的秒级迁移。
第4部分着重阐述如何把大模型的常识与推理能力接入具身智能体,使灵巧手在开放环境中用自然语言理解任务、在线规划动作并自我纠错,实现说干啥就能干的零样本或极少量样本操作。
第5部分展示灵巧手已落地的三大场景:完成叠衣、洗碗等日常劳务;完成精密装配与高危作业;以EAI for Science模式进入实验室自动操作仪器、加速科学发现。
第1章围绕具身智能展开,介绍其作为通向通用人工智能的核心路径,强调智能体通过身体与环境实时交互生成智能,其兴起得益于 AI、机器人技术等多学科交叉融合,核心技术体系也源于这些领域。同时,阐述灵巧操作在具身智能中的关键地位,仿人灵巧手作为人形机器人的核心部件,能赋能复杂操作任务,满足劳动密集型产业、特种高危作业等行业需求,市场规模增长潜力大,但在硬件性能、软件算法等方面仍存在技术瓶颈。最后,概述本书的研究框架与内容安排。
第2章聚焦灵巧手结构,作为灵巧手实现操作功能的基础支撑,其结构设计需匹配灵巧操作需求,既要具备合适的机构尺寸以适配不同任务场景,又要满足各关节精准协同运动的要求,为后续硬件系统搭建和软件算法实现提供物理载体,保障灵巧手能够顺利完成抓取、操控等复杂动作,是赋能人形机器人执行复杂操作任务的重要前提。
第3章围绕灵巧手硬件系统展开,以模块化设计理念和分层控制方法为核心,先介绍硬件控制系统的重要性及总体架构,明确其是实现操作抓取任务和软件算法的基础,整体分为接口防护、电源、主控、电机驱动、传感器、通信六个核心模块;随后详细阐述了各模块的设计要点,包括核心接口防护模块的防护目标、电路设计及滤波策略等。
第4章围绕灵巧手软件系统架构展开,从系统软件构架、微型电机控制策略、柔性传感器及力融合控制、系统通信和人机交互界面五个核心方面,完整呈现了灵巧手系统的构建逻辑与实现细节;介绍了一主多从模式的软件架构,核心采用空心杯无刷电机及FOC控制算法实现精准控制;通过柔性电子皮肤实现力融合控制,同时设计了含关节选择、全手校准等功能的人机交互界面,保障系统的高效运行与便捷操作。
第5章围绕灵巧手运动控制基础展开,核心涵盖刚体运动学和灵巧操作中的约束控制两部分。刚体运动学部分介绍了多刚体运动学建模的数学工具(旋转矩阵、四元数等)、正反运动学求解方 法及灵巧手抓取运动学的应用实例。约束控制部分重点阐述了阻抗控制、导纳控制、力位混合控制策略,以及接触约束与摩擦约束的物理原理和应用,为灵巧手精细、安全的操作提供理论支撑。
第6章聚焦灵巧手的仿真与训练环境,为灵巧手技术从理论走向现实提供试验支撑。内容涵盖三部分:一是仿真环境,作为灵巧手开发的核心试验平台,可模拟复杂物理场景与交互过程,降低实机测试成本与风险;二是探讨仿真环境与真实场景的差异问题,以及缩小这一差距的技术路径,确保仿真中训练的技能能有效迁移到实机;三是数据集与基准测试,介绍支撑灵巧手算法训练与性能评估的数据集构建方法,以及用于衡量系统性能的基准测试标准,为技术优化提供量化依据。
第7章聚焦强化学习与模仿学习在灵巧操作中的应用,核心是为灵巧手高效获取操作技能。模仿学习通过行为克隆和逆强化学习从专家演示中学习,行为克隆简单高效但易受状态分布漂移影响,逆强化学习可推断潜在奖励函数以提升泛化性。强化学习以马尔可夫决策过程为基础,通过DQN、策略梯度、执行者 评论者等方法求解,适用于复杂操作任务,但存在依赖奖励设计、 训练成本高的局限。在实际应用中常将二者结合,如ACT算法采用模仿学习预训练+强化学习微调 + 加权混合梯度的联合训练范式,实现样本有限情况下的高性能策略学习。
第8章围绕大模型与具身智能的融合展开,核心是探索大模型赋能具身智能发展的路径与方向,内容涵盖多模态大语言模型在具身控制中的应用,视觉语言动作模型(VLA)的构建与作用,能够模拟物理世界规律的世界模型,以及具身决策与分层控制的实现逻辑。同时,探讨跨本体、跨任务的泛化能力提升,以及群体具身智能的协同操作模式,为具身智能突破技术瓶颈、拓展应用边界提供了关键思路与方向。
第9章聚焦灵巧操作的实际应用场景,展现其技术落地价值。在家庭场景中,灵巧手可实现家务执行、情感陪护等功能,适配居家非结构化环境,提升生活便利性;在工业场景中,针对劳动密集型产业、小批量多品种生产及特种高危作业等需求,灵巧手凭借高柔性和精准操作能力,能够优化生产流程、降低成本与安全风险;在AI for Science领域,灵巧手为科学研究提供助力,通过精准的实验操作、数据采集等,推动相关科研工作高效开展。
冀晓强 美国哥伦比亚大学博士,香港中文大学(深圳)理工学院/人工智能学院助理教授、校长青年学者、博士生导师,兼任深圳市人工智能与机器人研究院具身智能中心副主任、广东省具身智能机器人工程技术研究中心副主任,中国仿真学会智能物联专委会委员,东盟-中国人工智能实验室首席科学家。研究主要集中在人工智能控制系统,主持多个科研及人才项目,至今在IEEE Transactions on Automatic Control、Automatica、Journal of Field Robotics等国际期刊及会议发表论文数十篇。特别是在非最小相位系统方面,是该领域全球范围内学习控制设计的推动者之一,并提出有限时间稳定逆方法。
陈毅东 博士,高级工程师,深圳市兆威机电股份有限公司副总经理,灵巧手公司总经理。兼任国家企业技术中心副主任、深圳市智能机器人微型驱动控制系统工程研究中心主任。兼任浙江大学、中国科学院大学、东南大学等7所高校的企业硕士生/博士生导师。发表学术论文20余篇,参加重大项目80余项,申请国家发明专利160余项。主导三代灵巧手的定义、设计、发布等,在行业内产生了重要的影响。提出灵巧手+灵巧手生态灵巧手三小三大概念,加速推动具身末端执行落地。荣获机器人产业新生代领袖奖、中国自动化领域年度人物奖、中国家电科技进步奖、深圳百优工匠、佛山科技进步一等奖、深圳宝安大工匠、宝安区高层次人才等荣誉。
陈勇全 机器人与智能系统领域知名学者、香港中文大学(深圳)机器人与智能制造研究院副院长、深圳市人工智能与机器人研究院具身智能中心研究员,深圳市海外高层次人才、深圳市鹏城孔雀计划人才。专注于具身智能机器人、灵巧手、手-眼-脑-肢协同的灵巧精细控制等关键技术研究和产业化应用,主持或参与国家级、省市级科研项目30多项,发表高水平期刊和会议论文40余篇,累计授权发明专利30余项。荣获2023年深圳市第三届人工智能行业应用奖,率领团队获得2025年第二届珠海国际灵巧操作挑战赛亚军。
刘少山 加州大学欧文分校计算机工程专业博士,深圳市人工智能与机器人研究院具身智能中心主任,研究方向为具身智能技术与科技政策。发表高水平学术论文150余篇,授权国内外发明专利100余项,撰写《具身智能机器人系统》等10部中英文著作,在《学术前沿》《中国科学院院刊》《政策分析报告》等期刊发表多篇科技政策文章。
第1章 具身智能:连接人工智能与物理世界
1.1 具身智能的前景与应用
1.1.1 具身智能的理论基础与学科融合
1.1.2 具身智能的应用场景
1.1.3 具身智能面临的挑战
1.2 灵巧操作在具身智能领域的地位与挑战
1.2.1 灵巧操作在具身智能领域的地位
1.2.2 灵巧操作面临的挑战
1.3 本书研究框架与内容概览
第2章 灵巧手结构
2.1 灵巧手整手设计
2.1.1 整体架构与仿生学设计理念
2.1.2 自由度设计与分布优化
2.1.3 驱动方式的技术演进与创新
2.1.4 刚性与柔性结构设计的融合创新
2.1.5 系列化产品布局与场景适配性
2.1.6 人机工程与安全性设计
2.2 灵巧手电机设计
2.2.1 微型空心杯无刷直流电机技术的特点
2.2.2 电机产品系列化与定制化设计
2.2.3 可靠性设计与耐久性测试
2.3 灵巧手传动组件设计
2.3.1 精密齿轮传动技术
2.3.2 直线传动模组创新设计
2.3.3 差动传动与自适应抓取机构
2.3.4 传动精度与回程差控制
第3章 灵巧手硬件系统
3.1 硬件系统整体概览
3.2 灵巧手驱动关键电路设计
3.2.1 电机驱动电路设计
3.2.2 电机驱动控制芯片电路设计
3.2.3 通信电路设计
3.2.4 电源电路设计
3.2.5 传感电路设计
3.3 硬件系统小结
第4章 灵巧手软件系统
4.1 系统软件架构
4.2 微型电机控制策略
4.2.1 空心杯电机
4.2.2 三相电压的磁链矢量表示
4.2.3 SVPWM算法
4.2.4 FOC算法
4.3 电子皮肤及力融合控制
4.4 灵巧手系统通信
4.4.1 灵巧手主、从MCU间的RS-485通信方式
4.4.2 灵巧手与上位机的CAN、CAN FD通信方式
4.4.3 灵巧手与上位机的EtherCAT通信方式
4.4.4 基于SPI实现灵巧手与电子皮肤的通信方式
4.5 人机交互界面
4.5.1 关节选择功能
4.5.2 全手校准功能
4.5.3 关节速度和电流的设置功能
4.5.4 指尖皮肤传感器数据交互功能
第5章 运动控制:灵巧控制基础
5.1 刚体运动学
5.1.1 多刚体运动学建模
5.1.2 正反运动学
5.1.3 灵巧手抓取运动学
5.2 灵巧操作中的阻抗控制
5.2.1 原理概述
5.2.2 灵巧手自适应阻抗控制应用
5.2.3 小结
5.3 灵巧手力位混合控制
5.3.1 力位混合控制的基本原理
5.3.2 灵巧手力位混合控制应用实例
5.3.3 小结
5.4 接触约束下的灵巧手控制
5.4.1 灵巧手接触约束控制的基本原理
5.4.2 接触约束下的灵巧手运动控制应用实例
5.4.3 小结
第6章 仿真与训练环境:通往现实的试验场
6.1 仿真环境
6.1.1 仿真平台介绍
6.1.2 灵巧手仿真平台的选型
6.2 灵巧手操作从仿真到现实的挑战
6.2.1 仿真到现实差距的系统性来源
6.2.2 域随机化:以多样性对抗不确定性
6.2.3 域自适应与系统辨识方法
6.2.4 仿真与真实结合的混合训练范式
6.3 数据集与基准测试:衡量灵巧操作能力的标准
6.3.1 灵巧操作数据集的发展脉络
6.3.2 DexMimicGen:自动化模仿数据生成
6.3.3 灵巧操作基准的设计原则
6.3.4 构建完整的数据集硬件与平台体系
6.4 灵巧手仿真实践:本地搭建Isaac Lab训练环境
6.4.1 前置准备
6.4.2 系统要求
6.4.3 Isaac Lab安装步骤
6.4.4 运行Isaac Lab灵巧手强化学习Demo
6.4.5 常见问题排查
第7章 模仿学习与强化学习:高效获取操作技能
7.1 模仿学习:从人类演示中快速学习
7.1.1 模仿学习的基本原理与方法
7.1.2 模仿学习的实现方法
7.1.3 模仿学习在灵巧操作中的应用
7.1.4 小结
7.2 强化学习在灵巧操作中的应用
7.2.1 强化学习原理与求解方法
7.2.2 强化学习在灵巧操作中的应用
7.2.3 小结
7.3 模仿学习和强化学习融合的灵巧操作案例
第8章 具身智能灵巧操作模型
8.1 具身智能灵巧操作基础模型汇总
8.2 基于 Transformer的VLA路线
8.2.1 模型架构:从感知与语言到动作的统一Transformer
8.2.2 数据来源:真实机器人多任务轨迹+互联网级图文语料
8.2.3 如何训练:多任务行为克隆与多源联合优化
8.2.4 如何推理:闭环控制、语义泛化与安全约束
8.2.5 OpenVLA
8.3 以Diffusion Policy和Octo为代表的扩散式策略网络
8.3.1 为什么用扩散来做灵巧操作策略
8.3.2 Diffusion Policy:面向灵巧操作的局部扩散策略
8.3.3 Octo:大规模多模态Transformer+扩散动作头的通用策略
8.3.4 代码实现与运行方法
8.3.5 扩散策略路线在灵巧操作中的位置
8.4 基于上下文学习的具身智能灵巧操作模型
8.4.1 为什么灵巧操作需要上下文学习这种新范式
8.4.2 ICRT 解决的核心问题:机器人的语境适应难题
8.4.3 数据从哪里来?大规模多任务演示 + 人工采集的多任务场景
8.4.4 模型长什么样?多模态编码+Transformer下一个token预测
8.4.5 怎么训练?长上下文窗口、跨轨迹拼接,以及只对回答计算 loss
8.4.6 推理是怎么跑的
8.4.7 它到底表现如何?在未见任务上领先Octo和OpenVLA
8.4.8 这些设计对灵巧操作意味着什么
8.4.9 代码实现与运行方法
8.4.10 技术路线之争:用Transformer还是Linear Attention
8.4.11 ICL 正在把灵巧操作从硬件问题变成世界模型问题
8.5 小结
第9章 灵巧操作应用
9.1 家庭服务场景下的灵巧操作
9.1.1 家庭环境感知与场景建模
9.1.2 家庭任务决策与动作规划
9.1.3 抓取执行阶段的力控反馈闭环机制
9.2 灵巧操作工业场景应用
9.2.1 工业应用场景概述
9.2.2 典型工业装配应用:轴孔装配
9.3 EAI for Science
9.3.1 AI for Science的现状
9.3.2 面向科学实验的具身灵巧操作应用方案
参考文献