林夏推开国家人工智能实验室的玻璃门时,凌晨一点的寂静裹着机房特有的冷空气扑面而来。走廊尽头的应急灯亮着幽绿的光,两侧的实验室门牌上,“自然语言处理”“计算机视觉”“强化学习”的字样在微光里若隐若现。他的工位在“情感计算与人机交互”研究室的最里面,靠墙的位置摆着两台主机,屏幕上跳动着密密麻麻的代码,旁边堆着半打速溶咖啡,还有一个印着“ai for good”的马克杯,杯底沉着一层没洗干净的咖啡渍。
作为实验室最年轻的项目负责人,林夏主攻的是老年陪伴型机器人的情感交互算法。在这个人人追逐大模型参数、比拼算力速度的时代,他偏偏一头扎进了这个“冷门”领域。同事们常说,林夏是个“不追风口”的怪人——别人忙着做能写论文、能生成图片的炫酷模型,他却天天对着一堆老人的语音数据,琢磨着怎么让机器人听懂老人的叹息,回应老人的沉默,甚至能分辨出老人语气里的孤独。
“又熬通宵?”隔壁工位的张姐披着外套走过来,她是实验室的资深研究员,负责计算机视觉方向,眼下的黑眼圈比林夏还重。她瞥了一眼林夏屏幕上的情感分类模型,“老年语音情感标注的活儿,还是那么磨人?”
林夏揉了揉酸涩的眼睛,指尖在键盘上敲了敲,调出一段波形图:“你听这个。”
一段略显沙哑的老人声音从耳机里传出来:“今天……今天太阳挺好的,就是院子里的月季,好像有点蔫了。”语音的语调很平,甚至带着点不易察觉的低落。
“普通的陈述句,对吧?”张姐凑过来听了听,“情感标签应该标‘中性’?”
林夏摇摇头,点开这段语音的背景资料:“说话的是独居老人李奶奶,子女在国外,老伴三年前走了。她院里的月季,是老伴生前种的。这段语音采集的时候,是老伴的忌日。”他又调出算法优化前后的对比数据,“之前的模型,确实标成了‘中性’。但我们优化后的算法,能捕捉到她尾音0.2秒的颤抖,还有语速比平时慢了15%——这些细微的特征,对应着‘怀念’和‘轻微抑郁’的复合情感。”
张姐愣了愣,随即叹了口气:“你啊,就是太较真。这些细微的情感,就算机器人识别出来了,又能怎么样?无非是多说两句安慰的话,能解决根本问题吗?”
林夏没说话,只是点开了一个视频文件。屏幕上,一个白色的小机器人正蹲在院子里,对着一盆月季说话:“奶奶,爷爷种的月季,一定很想念爷爷吧。不过它今天有点蔫,我们一起给它浇点水好不好?我查了,月季喜欢晒太阳,也喜欢喝温水哦。”镜头转到老人的脸上,原本落寞的眼神里,慢慢泛起了一点光。
“这是上周,我们在养老社区做的试点。”林夏的声音很轻,“李奶奶那天,主动跟机器人说了半个小时的话,讲她和老伴年轻时候的事。这是她三个月来,第一次主动跟别人聊这些。”
张姐看着视频里老人的笑容,沉默了。
林夏的执念,源于三年前的一件事。
那年他刚从大学毕业,进入实验室做助理研究员。他的外婆,也是一位独居老人,住在老家的小城里。林夏每周都会给外婆打视频电话,外婆每次都说“我好得很,你安心工作”,可他总觉得,外婆的声音里,藏着他听不懂的孤独。
直到有一次,他放假回家,推开门看到外婆坐在沙发上,对着电视机发呆。电视里放着热闹的戏曲,外婆的手里,却攥着老伴的照片,眼角还挂着泪。那天,外婆跟他说了很多话,说她晚上睡不着,总想起年轻时候的事;说她买菜的时候,看到别人成双成对,心里酸酸的;说她学会了用智能手机,却不知道该给谁发消息。
“夏夏啊,”外婆拉着他的手,声音沙哑,“有时候,我就是想找个人说说话,哪怕……哪怕是个机器呢。”
外婆的这句话,像一根刺,扎在了林夏的心里。他突然意识到,当人工智能在追逐星辰大海的时候,还有一群被遗忘的人,需要最朴素的陪伴。从那天起,他就下定决心,要做一款能真正懂老人的陪伴机器人。
这个决定,在当时遭到了很多人的质疑。实验室的主任找他谈话,劝他换个更“有前景”的方向:“小林,情感计算这个领域,投入大,见效慢,而且商业价值不高。你看现在的大模型,多火啊,你跟着做,不出两年就能出成果。”
林夏却很坚定:“主任,ai的意义,不应该只是追求技术的突破,更应该是解决人的需求。有几千万的独居老人,他们需要陪伴。这个方向,就算再难,我也要做。”
主任看着他眼里的光,最终叹了口气:“好,我给你批一个小型团队,再给你半年时间。如果半年后,没有突破性进展,你就得归队,跟着大家做主流方向。”
半年时间,要做出一个能识别复杂情感的交互算法,难如登天。
林夏的团队,加上他一共三个人:刚毕业的研究生小王,负责语音数据采集;学心理学的实习生小苏,负责情感标签的标注;而林夏自己,则扛起了算法设计和模型训练的重任。
他们的第一步,是采集数据。
林夏带着团队,跑遍了市里的十多家养老社区。一开始,老人们对他们很抵触,觉得这些年轻人拿着录音笔、摄像机,是来“凑热闹”的。有位姓王的大爷,甚至直接把他们赶出了门:“我们不需要什么机器人,你们这些年轻人,还是好好研究怎么赚钱吧!”
碰了壁,小王和小苏都有些泄气。小王耷拉着脑袋说:“林哥,要不我们算了吧?这些老人根本不配合,我们连数据都采不到,还做什么算法?”
林夏却没放弃。他知道,老人们的抵触,源于不理解。他带着团队,每天都去养老社区,不拿录音笔,不拿摄像机,就帮老人们干活——陪他们聊天,给他们读报纸,帮他们买菜,甚至帮他们修家电。
王大爷喜欢下棋,林夏就每天陪他下一盘。王大爷棋艺高,林夏总是输,可他每次都输得心甘情愿。有一次,王大爷下棋下到一半,突然叹了口气:“唉,以前我老伴总陪我下棋,她走了之后,就没人陪我玩了。”
林夏趁机说:“大爷,如果有个机器人,能陪您下棋,还能听您讲故事,您愿意试试吗?”
王大爷愣了愣,看着林夏真诚的眼睛,沉默了很久,终于点了点头。
就这样,老人们慢慢放下了戒心,开始配合他们的工作。他们采集了上千小时的语音数据,涵盖了老人们的日常对话、自言自语、甚至是梦话。这些数据里,有开心的笑声,有失落的叹息,有思念的低语,还有孤独的沉默——这些,都是在实验室里,永远也采集不到的真实情感。
数据采集好了,接下来是标注。
这是最磨人的活儿。
每一段语音,都要标注出对应的情感类型——开心、悲伤、怀念、孤独、愤怒、焦虑……有时候,一段十秒的语音,会包含多种复合情感,需要反复听,反复分析。
小苏是学心理学的,可面对这些复杂的情感,也常常犯难。有一次,她拿着一段语音来找林夏:“林哥,这段语音,我听了十遍了,还是分不清是‘怀念’还是‘抑郁’。”
林夏接过耳机,听了一遍又一遍。那段语音,是一位老人在念叨老伴的名字,语调很平,没有起伏,却带着一种深入骨髓的思念。
“都有。”林夏说,“是‘怀念’主导的,带着‘轻微抑郁’的复合情感。我们的算法,不能只做单一的情感分类,要能识别这种复合情感——这才是真实的老人。”
那段时间,他们团队三个人,每天都要听上百段语音,标注上百条情感标签。耳朵听肿了,就滴几滴眼药水;眼睛看花了,就揉一揉继续干。机房的灯,每天都亮到凌晨,咖啡喝了一杯又一杯,速溶咖啡的包装袋,堆了满满一垃圾桶。
三个月后,他们终于完成了第一批数据的标注。
接下来,是算法设计和模型训练。
林夏摒弃了传统的情感识别算法——那种算法,只能识别“开心”“悲伤”这种明显的情感,却捕捉不到老人细微的情绪变化。他创新性地将心理学中的情绪维度理论融入算法,构建了一个“多维度情感感知模型”。这个模型,不仅能识别情感类型,还能量化情感的强度,甚至能捕捉到那些“未说出口”的情绪。