、电商、教育等十几个行业。我们可以直接拿过来,用我们的数据微调。”
网页打开,是一个英文的技术博客,最新一篇论文的链接。论文标题是《CPT: A Large-Scale Pre-trained Model for Customer Service》,作者来自斯坦福。模型权重开源,可以免费商用。
陈默点开论文,快速浏览摘要和方法部分,然后倒吸一口凉气。
“五千万条对话……Transformer-XL架构……三十亿参数……这,这比云图用的模型还大!”
“但我们可以用知识蒸馏的方法,把它压缩到适合我们线上部署的规模。”林辰说,“虽然会损失一些精度,但基础能力在,微调后应该能突破99%。”
“何止99%……”陈默的声音在发颤,“如果这个模型真像论文里说的那么强,我们微调好了,可能……可能能到99.5%。”
99.5%。
比云图的99%,高出0.5个百分点。
在AI领域,0.1%的差距就是一代。0.5%,是碾压。
会议室里,五个算法工程师的眼睛,同时亮起饿狼般的光。
“干不干?”林辰问。
“干!”五人异口同声。
“好。”林辰起身,“陈默,你带两个人,负责模型压缩和微调。另外两个人,按照我写的架构,把新模型搭起来。我负责协调算力资源——李总会批的。目标是,四十八小时内,新模型上线测试。”
“四十八小时?这不可能——”
“可能。”林辰打断他,“因为我们没时间了。三天后,是项目结项汇报。李总会邀请几个潜在客户来参观。我们要在那天,用新版本的‘星语’,现场演示。效果,必须是碾压级的。”
他看向每个人。
“这是最后一仗。打赢了,‘星语’翻身,咱们所有人,升职加薪。打输了……”他没说下去,但意思都懂。
“明白了。”陈默深吸一口气,“林总,我们拼了。”
“不是拼了。”林辰拍拍他的肩,“是必须赢。”
3
四十八小时后。
凌晨五点,星河科技机房。
GPU服务器群的轰鸣声震耳欲聋,机柜上的指示灯疯狂闪烁。散热系统的风量开到最大,但室内温度依然逼近三十度。陈默和两个工程师蹲在服务器前,眼睛死盯着
本章未完,请点击下一页继续阅读!