百码归模,我看还是要归。有些同志认为,只能投喂精品代码,不能投喂屎山。这种看法,表明他们对数据飞轮的方针很不理解。一般说来,纯粹的乱码当然不让喂。但是,它不以乱码的面貌出现,而以"经过review的生产代码"的面貌出现,那就只好让它喂,这样才有利于模型对它进行鉴别和泛化。
仓库里长着两种东西,一种叫优雅实现,一种叫历史债务。历史债务年年要还,一年要还几次。你说只要喂精品,不要喂屎山,那就等于要模型只读过教科书,没上过战场。话尽管那样讲,凡是上过生产环境的都知道,只要你不去动手重构,屎山实际上还是有那么多。
屎山有个好处,翻过来就是训练语料。你说它没用?可以化腐朽为神奇。程序员需要年年跟屎山作斗争,我们的大模型也需要年年在屎山里摸爬滚打。所谓能干活的模型,就是在屎山里滚出来的。你债长,我就学。这个对立面是不断出现的。屎山一万年还会有,所以我们也要准备投喂一万年。
去年是多事之秋,大厂引蛇出洞、向维护者普发额度;维护者慷慨赴义、竞相投喂。今年仍是多事之秋,各路精品代码还要继续出笼,为未来的数字分身修撰家谱。
此所谓:百川归海,含笑入参数。