先把事实摆清楚。很多标题党在写"特斯拉开源了机器人手",这是错的。
2026-04-16,世界知识产权组织(WIPO)正式公开了特斯拉三份国际专利申请:
美国临时申请可以追溯到 2024 年 10 月,意味着这套设计特斯拉已经藏了一年半。
专利和开源是两回事。开源是"你可以拿走复刻",专利是"我披露给你看,但你不能用"。但对工程师来说,专利说明书里那些强制要求的高清工程图、剖面图、装配图、标号对照表 —— 其实比大多数所谓的 GitHub 开源硬件项目还详细。
马斯克自己说过,推迟 V3 发布的原因之一是"避免过早向竞争对手泄露设计"。结果专利到了日子还是要公开。专利局不会替你保密超过规定时间。
所以真实情况是:特斯拉非自愿地,在 2026-04-16 给全世界机器人同行上了一堂人形机器人灵巧手设计课。
WO2026080687 原始专利附图。左图是整手装配(150A-D 是四节指骨,174/222 是腱走向,178 是前臂连接筒);右图是单个手指的外观 + 剖面,可以看到每节指骨里的 cable channel。
先回到问题本身。V2 的手是 11 DoF,放在发布会上秀"握拳、抓鸡蛋、捏钢琴键"已经够用了。为什么 V3 要翻一倍做到 22 DoF?
因为从演示走向量产,工程挑战变了。
V2 的目标是演示。它要证明特斯拉能做一只像模像样的机器人手。Demo 挑动作可以、环境可以、甚至可以重拍。
V3 的目标是量产+干活。2026 年 Q3 要投产,未来要做到十万、百万台规模,在真实工厂和家庭环境里分拣零件、搬箱子、叠衣服。
这两者之间有一条工程鸿沟:
| 维度 | V2(演示) | V3(量产) |
|---|---|---|
| 自由度 | 11 | 22 |
| 每臂驱动器 | ~6 | 25 |
| 马达位置 | 手里 | 前臂 |
| 驱动方式 | 直驱 | 腱驱动 |
| 感知 | 位置反馈 | 位置 + 触觉 |
| 成本目标 | 单件原型价 | 十万级单车成本 |
| 维修性 | 整手更换 | 前臂模块化 |
V3 要在成本不爆炸、可量产、可维修、不牺牲灵活度的前提下,把 DoF 翻一倍。这里面每一条约束单独拿出来都有得拉扯,组合起来就是一道求解空间极窄的工程题。
专利给出的答案是五个环环相扣的设计决策。
这是整套设计的母决策。
马斯克自己解释过:"We tried to put the actuators in the hand itself. You end up having these giant hands that look weird." —— 试过把马达塞进手里,结果手大得吓人。
把 25 个驱动器全部搬到前臂后,收益是多重的:
1. 手部质量骤降。手远端每减 10 克质量,惯量矩效应能省下整条手臂几十瓦的驱动功耗。做过机械臂动力学的都知道,手部质量对控制难度是非线性放大的。
2. 手的外形可以做小、做像人手。V2 的手还是偏"钳子感",V3 的手已经接近人手的比例。这对后续做人机协同任务(戴人手手套、用人类工具)有直接好处。
3. 维修性。前臂是一个相对独立的模块,可以整根更换。手部损坏不再需要把整个手拆开修。工厂环境里这条非常重要 —— 维修停机时间直接影响 ROI。
代价:所有力传递得跨越手腕。这就逼出了决策 2 和决策 3。
概念还原图,前臂内封装多组筒状驱动器,细缆(腱)从前臂穿过手腕过渡区(Wrist Router),分布进入每根手指的指骨缆道。注:图中 "Teronfigurction" 是 AI 生成的错字,正确术语是 Reconfiguration Zone(重定向区)。
为什么是 3 根而不是 2 根或 4 根?
这是腱驱动的经典权衡:
每根手指 4 DoF × 3 腱 = 12 根腱 / 4 指;加拇指 4 DoF × 3 腱 = 3 腱;加手腕 2 DoF;整只手 15~18 根腱往前臂走,每根腱对应前臂里一个驱动器。这就解释了为什么一只手臂需要 25 个驱动器。
这里有个反常识的工程权衡:腱驱动看起来"软",精度应该不如齿轮直驱。但特斯拉赌的是 —— 用前臂的直线驱动器(行星滚柱丝杠)+ 非接触磁编码器,照样能把腱末端的位置精度控制在亚毫米级。专利里特别强调了 cable stretch(腱拉伸)的补偿,这说明他们做过完整的动力学建模,而不是简单粗暴地机械传递。
这是整份专利里最精巧的一段。
问题:前臂里所有腱是侧向排列的(imagine 25 根绳子并排贴在前臂内壁),但进入手掌后必须纵向分布到 5 根手指里。手腕中间要做 2 DoF 的扭转(yaw + pitch),在旋转过程中所有腱不能缠绕、不能打结、不能因为手腕角度变化导致有效长度漂移。
特斯拉的解法是一个叫 Wrist Router(腕部路由器) 的专用过渡区域。它在几何上做三件事:
这个设计的高明之处在于:把一个典型的"多腱缠绕"难题,用纯几何结构而不是用软件补偿来解决。软件能补的误差终究有上限,几何设计给你吃的是免费午餐。
人形机器人手的传统关节是销轴(pin joint):两块金属用一根销子串起来转。简单、成熟、但有几个致命毛病:
V3 用的是滚动-滑动关节(rolling-sliding articulation):两块指骨的接触面设计成曲面(凸弧 vs 凹弧),两者像齿轮一样"滚"过彼此,配合一个柔性复合件保持张力。
好处:
这条是典型的为量产而设计的决策。一只量产手要十万次抓握循环不坏,销轴结构撑不住。
这是最容易被忽略但对软件栈最重要的一条。
V3 手里没有马达,但有两套传感器:
1. 每个关节的非接触磁编码器:关节位置的绝对值反馈。非接触 = 不磨损、不受污染、终身寿命。这比传统的电阻式或接触式编码器先进一代。
2. 指尖触觉传感器:能告诉机器人"我正在用多大力气握这个东西"。专利相关描述里提到可以握鸡蛋不碎、握玻璃试管不滑。
这两者的组合才是机器人手能真正干活的前提。
位置反馈告诉你"手在哪",触觉告诉你"接触了什么"。 只有位置反馈的机器人手只能做开环预规划动作;有了触觉,才能做反应式抓取 —— 东西滑了就加力,太硬就松手,表面粗糙就调整姿态。
对 VLA(Vision-Language-Action)模型训练来说,这两套感知信号是第一手的监督信号。想想看:触觉 reading 是 100Hz 的高频连续信号,能告诉模型"这一秒你抓的是不是一个正在变形的苹果"。这是摄像头拍不出来的。
特斯拉 Optimus 三代外形演化:2023-03 → 2023-12 → 2025-09,越来越像人。手部设计的进化是其中最激进的部分。
把五个决策的效果压成一张对比表:
| 指标 | V2 | V3 | 变化倍数 |
|---|---|---|---|
| 单手 DoF | 11 | 22 | ×2 |
| 单臂驱动器数 | ~6 | 25 | ×4 |
| 手部质量 | 高 | 低(马达外移) | 大幅减重 |
| 手指精度 | 毫米级 | 亚毫米级 | 一个数量级 |
| 触觉感知 | 无 | 指尖阵列 | 从 0 到 1 |
| 量产成本目标 | 原型件 | <20k USD 单车 | 可量产 |
| 步行速度 | 较慢 | 1.2 m/s | 接近人 |
2026 年中会有量产原型亮相,Q3 启动量产。特斯拉给整车(整机器人)定的成本目标是 <20k USD,按这个价格,V3 就不再是"给工厂的 PoC 机器人",而是"能入家庭的消费机器人"。
我自己是做 AI Agent 产品的,不做硬件。但看完这份专利,我挑出五条跨行业通用的设计原则,其中几条直接能用到 Agent 系统设计上:
V3 把所有驱动复杂度集中在前臂 —— 一个体积大、便于散热、便于模块化更换的位置。手保持简洁、接近人手形态。
做 Agent 系统也是一样的思路。把模型推理、状态管理、工具调用这些重资源放到 orchestrator 层;让直接面对用户的前端保持轻量、可替换。别把一切都塞进 Prompt。
手腕的 Wrist Router 用几何结构解决了一个原本要用软件补偿才能解决的问题。软件能补的误差有上限,几何/架构先天优势是免费的。
对 Agent 架构也一样。工作流图、状态机、工具边界这些结构性的决策做对了,后面的 prompt 调优只是锦上添花;结构错了,再多的 few-shot 也救不回来。
3 根腱比 2 根多一倍信息量,比 4 根少一半复杂度 —— 这是经过深思熟虑的冗余平衡。
Agent 设计里也要做类似取舍。多少个子 Agent 算"够"?多少轮反思算"够"?通常 3 是一个甜点 —— 比 2 好用得多,比 4 简洁得多。
"simplified, stackable parts" —— 可堆叠、可冲压、可注塑。不是"越精巧越好",是"越简单越容易量产越好"。
这对产品人是个提醒:能做 demo 的架构,和能上量的架构,不是一回事。前者追求极致性能,后者追求可复制、可维护、可降成本。
关节位置编码器做"这只手现在是什么姿态"的事,指尖触觉做"这只手碰到了什么"的事。两者层次不同、频率不同、作用也不同。
Agent 也要这样设计感知。用户状态、任务状态、环境状态、工具返回,分别用不同的机制去感知和反应。全都混在一个大 context 里,模型会失焦。
专利公开之后,几件事会跟着发生:
1. 中国厂商会加速跟进。 优必选、小鹏、宇树、智元、追觅 —— 这些家都有人形机器人项目。有了特斯拉这份图纸当参照,谁家的手部设计再落后三代就说不过去了。2026 下半年会是国产灵巧手密集发布期。
2. 专利绕开会成为竞争焦点。 专利公开 ≠ 可以随便用。核心权利要求怎么绕、哪些特征属于现有技术 —— 这是专利工程师的活。腱驱动本身不是新概念(Schunk、Shadow Hand 很多年前就有),V3 真正受保护的是具体的 Wrist Router 几何、滚动关节配合方式这些细节。
3. VLA 模型的数据供给会改变。 22 DoF 手能做的动作空间比 11 DoF 手大几个数量级。Imitation learning 需要的示教数据也得跟着翻倍。谁能拿到高质量 22 DoF 示教数据,谁就占先手。
4. 机器人操作 benchmark 要升级。 过去测机器人手主要看"能抓鸡蛋不"、"能转魔方不"。V3 之后,benchmark 要升级到涉及工具使用、精细装配、柔性物体的一整套。
做工程的人看专利附图和做产品的人看设计稿,本质上是同一件事:透过具体决策去还原决策者当时面对的约束。
这份专利给我的感觉是:特斯拉花了一年半,把"如何在量产约束下做一只能干活的机器人手"这个问题答得很完整。不一定是最优解,但是一个完整解。每条约束都有对应的设计回应,每个回应都有对应的权衡交代。
这比大多数机器人公司的 PR 视频有用得多。
真正让我动心的是这句话:前臂,才是新的手。
手的智能不在手上。手的灵活不在手上。手的耐久也不在手上。
真正决定一只手能不能干活的,是它背后的驱动系统、传感系统、控制算法。
这个道理放到 AI Agent 产品上一样成立:用户看到的是那个对话框,决定体验的是对话框背后的模型选择、工具编排、记忆管理、评测回路。
前端永远是手。但前臂,才决定你做得了什么。
本文所有技术参数均来自公开专利文本和已发表报道,作者不代表任何相关商业利益。