“小王,”鲁智深站起身,“通知技术团队,四小时内我要一个解决方案。不需要完美翻译,只要能让不同语言的手艺人,能看懂彼此的作品,能完成交易。”
小王张了张嘴,想说什么,但看到鲁智深手里那朵藤编花,又把话咽了回去。“是,鲁总。”
四小时后,工作站变成了临时作战室。
六个程序员盘腿坐在地上,笔记本电脑在膝盖上排开。电线像藤蔓一样爬满地面,连接到嗡嗡作响的服务器。空气中弥漫着咖啡、汗味和焦虑。
“机器翻译不可能。”首席技术官阿明摇头,他是内罗毕大学计算机系的博士,被鲁智深高薪挖来,“阿姆哈拉语属于亚非语系,和英语的语法结构完全不一样。别说四小时,四个月都训练不出可用的模型。”
“那我们不用文字翻译。”鲁智深在白板上画了个圆圈,“用图。”
所有人都看他。
“这个女人。”鲁智深指着蹲在角落的埃塞俄比亚编筐女工,她正安静地编着新的篮子,“她不会说英语,但她给我编了朵花。我看懂了。你们看——”
他举起手机,打开拍照翻译软件,对准藤编花。软件识别为“flower”,然后给出法语、西班牙语的翻译。“这是现在的思路:文字→文字。但如果我们换个思路呢?”
鲁智深在圆圈里画了朵简笔画的花:“图片→图片。一个伊朗的细密画师,画了朵花。一个埃塞俄比亚的编筐女工,也编了朵花。他们语言不通,但看到彼此的图,都知道这是花。”
阿明猛地坐直身体:“你是说......跨模态识别?不通过文字,直接做图像语义匹配?”
“对。而且不只是静态图。”鲁智深调出埃塞俄比亚女人编花的视频,“她有整套动作,从选藤条,到处理,到编织。这是她的‘语言’。一个越南的竹编匠,虽然语言不同,但看到这个视频,能看懂八成。”
工作站陷入沉默,只有服务器风扇的嗡嗡声。
“理论上可行。”阿明缓缓说,“但我们没有那么多标注数据。要让ai看懂编筐动作背后的‘语义’,需要海量的视频标注,每个动作都要标记出对应的‘意图’——这是选材,这是处理,这是起头,这是收边......”
“我们有人。”鲁智深打断他,指向窗外。
排队的队伍已经超过三百人。在烈日下,那些手艺人没有闲着。陶匠在用黏土捏制小样,木雕师在刻削木块,织布工在穿梭引线。他们用各自的手艺,无声地诉说着“我是谁”“我能做什么”。
“把他们的制作过程拍下来,让他们自己标注。”鲁智深眼睛发亮,“埃塞俄比亚女人虽然不会英语,但她会指——指自己选藤条的动作,我们再配文字。三百个人,就是三百个标注员,而且是世界上最懂这门手艺的标注员!”
阿明和程序员们对视,然后同时跳起来。
“给我摄像机!”
“我去写标注界面!”
“我需要一个更简单的视频上传流程!”
“鲁总,四个小时不够,至少需要......”
“那就通宵。”鲁智深看着墙上的钟,“明天太阳升起时,我要让那个埃塞俄比亚女人,在平台上看到伊朗细密画师的作品,并且能问他:‘这金色的颜料怎么调的?’”