2025年的ai圈,最火的词儿莫过于“具身智能”。啥意思?说白了就是让以前只会在电脑里“思考”的ai,长出胳膊腿儿,能跑能跳能干活,真正走进咱们的现实世界。就在这个风口上,商汤科技甩出了一个大动作——成立子公司“大晓机器人”,一头扎进了机器狗和具身智能的赛道。
外界有人嘀咕:“这是不是又跟风蹭热点啊?”但内行人都清楚,商汤这步棋,早就布好了局。从早年搞视觉算法,到后来做大模型,商汤一直盯着“让机器看懂世界”这个目标,现在不过是把“看懂”升级成了“会干”,一点都不突兀。
为啥偏偏选在2025年发力?很简单,今年就是具身智能的落地元年。搁以前,机器人要么是“近视眼”,看得不远还分不清东西;要么是“路痴”,走两步就撞墙,更别说让它干点精细活了。但现在不一样了,大模型越来越聪明,传感器技术也越来越牛,机器终于有机会摆脱实验室,跑到真实世界里折腾折腾了。
一、机器人学干活,不靠瞎摔靠“偷师”人类
说到教机器人干活,以前的方法简直笨到家了,跟教刚会爬的小孩走路一样,摔了跤才知道疼,试错成本高得离谱。举个例子,想让机器人拧个螺丝,得编一堆复杂的程序,还得让它一次次试,拧滑丝了、拧太紧把零件弄坏了,都是常有的事儿,折腾半天还不一定能成。
但商汤的思路不一样,他们走了条“捷径”——让机器人先当“学徒”,看人类师傅怎么干活,再照着学。这就是他们说的“以人为中心的技术范式”,听着高大上,说白了就是“偷师学艺”。
商汤专门派了团队,跑到工厂、消防队这些地方,架起摄像头、装上传感器,盯着工人拧螺丝、消防员爬梯子的每一个细节。工人拧螺丝用了多大劲儿、转了几圈,消防员爬梯子时手脚怎么配合、重心怎么调整,这些数据全都被记录下来。然后把这些数据喂给机器人的“大脑”,让它琢磨透里面的门道。
打个比方,以前教机器人拧螺丝,是告诉它“你要转五圈,用十牛的力”;现在是让机器人看工人拧螺丝的全过程,它自己总结出“拧这个螺丝,转五圈、用十牛的力刚好合适”。一个是死记硬背,一个是融会贯通,效果天差地别。
而支撑这个“偷师”过程的,就是商汤新推出的“开悟世界模型3.0”。这个模型可不简单,它就像机器人的“超级大脑”,能同时处理视频、音频和力反馈这些信号。不光能看懂动作,还能预判下一步该干啥。比如看到工人拿起螺丝刀对准螺丝,它就能算出接下来要拧几圈、用多大劲儿,保证不滑丝、不损坏零件。
有了这个模型,机器人就不是个只会模仿的“复读机”了,它能理解干活的逻辑,遇到点小变化也能应对。比如螺丝的位置稍微偏了一点,它能自己调整角度,不用人再重新编程。
二、硬件不将就,机器狗的“眼睛”和“腿脚”都是定制款
技术路线定好了,接下来就是把蓝图变成实实在在的机器人。但做硬件这事儿,对ai公司来说可不是件容易事,商汤一开始也想省点事儿——直接买现成的机器狗底盘来组装。
结果一试,全是坑。市面上的机器狗要么是“近视眼”,视野特别窄,抬头看不到天花板上的水管,低头瞅不见脚边的小石子,很容易撞上去;要么是“娇贵命”,下雨天一淋就“罢工”,别说去户外巡检了,稍微沾点水就歇菜。这哪行啊?商汤想做的是能在工厂、变电站这些复杂场景干活的机器狗,这些毛病必须得解决。
没办法,商汤只能自己下场,拉着合作伙伴一起搞研发。首先解决的是“眼睛”的问题,他们跟全景相机制造商insta360合作,给机器狗的脑袋上装了个鱼眼镜头。这一下,机器狗的视野直接扩到了180度,天上地下、左左右右,啥都能看见,天花板上的水管、脚边的小零件,再也逃不过它的“法眼”。
眼睛解决了,接下来就是“腿脚”。机器狗要跑要跳,还要扛东西,电机和传感器必须得靠谱。商汤这些年没少投资电机和传感器公司,现在正好派上用场。他们自己制定了一套硬件设计规范,让合作伙伴照着图纸生产,自己则专心优化模型算法。
这种模式跟手机行业的“安卓模式”有点像,安卓提供系统,手机厂商负责造硬件,大家分工合作。商汤提供算法和标准,合作伙伴负责生产硬件,这样既能保证机器狗的性能,又能提高生产效率,还能控制成本。
就这么折腾下来,商汤的机器狗终于像样了——视野开阔,不怕下雨,跑起来稳当,还能精准完成各种动作。再也不是那个一碰就倒、一淋就坏的“娇气包”了。
三、先从工厂和仓库下手,家庭机器人还得再等等
机器人造出来了,总得有地方用吧?商汤心里门儿清,具身智能的最终落脚点,还是得看实际应用场景。步子不能迈太大,得一步一步来,他们给大晓机器人规划了三个阶段的目标,先易后难,一点都不着急。
短期目标:工厂和变电站的“巡检员”