百模征战,如何解决数据卡脖子问题?( 三 )


就拿本次事件中学而思所训练的垂直行业大模型来看,一个教育公司拥有大量教育资料数据,那么它就能开发出教育垂直大模型类的产品 。同理,建筑行业的项目数据、金融行业的用户画像数据、海运行业的船位数据等,都是赋能垂直大模型的关键 。
但是这些私域数据都攥在企业自己手中或者合作伙伴的手中,而且为了数据安全和合规,绝大部分机构是要本地化部署才会尝试大模型训练,很难想象企业会把自己的核心数据拿给别人去训练 。
从“量”到“质”的升级如果说前期大家专注的大模型训练的以“量”为主,到目前,随着训练的进一步提升,在大模型的数据训练上,“质”将成为之后的必选之路 。
因此,如何合理地给数据打上分级标签、做好标注也非常重要 。数据分级分类能够帮助产品提效,而高精度的标注数据能够进一步提升大模型的专业表现 。但现阶段垂直行业想要获取高精度标注数据的成本较高,而在公开数据库中,行业专业数据也较少,因此对垂直大模型的建构提出了很高的要求 。
针对目前大模型数据集质量,商汤科技大装置研究总监何聪辉则表示,大型语言模型对预训练数据质量有很高的要求,这主要体现在流畅性、干净性、知识密集性、安全性 。训练数据需要包含大量的正确语法和语义,以使模型能够理解并生成符合语言规则的文本 。流畅性直接影响到模型生成的文本是否通顺、易读 。干净性是指预训练数据应该是干净、准确的,不包含错误、噪声或不一致的信息 。模型在训练过程中会学习到数据中的模式和特征,如果数据质量不高,可能会导致模型生成的文本出现错误、不准确的情况 。安全性也是非常重要的一点 。语言模型应该遵守一定的道德和法律规范,不生成有害、冒犯性或不当的内容 。预训练数据需要经过筛选和审核,排除不适宜的内容,以保证模型生成的文本符合社会价值观和伦理标准 。
实在智能创始人、CEO孙林君则表示,大模型训练对数据质量的要求还是比较高的,模型训练和模型微调以及回报模型的训练上都要求比较高质量的数据集,多轮交互的数据,生成结果排序的数据质量都会对模型效果有很大影响 。对于质量低的公开数据集要么清洗,要么弃用 。同时数据的分布和密度也是决定模型好坏的重要因素,是数据质量的一部分 。
GPT对数据质量要求高,而行业AIGC对代表行业理解的数据质量要求更高,这主要体现在两点:高度贴合行业,蕴含业务的专业深度认知 。我们现在训练的数据,即使是专业领域积累的数据,训练前也发现有很多问题,不仅包括常规清洗的问题,更多是行业深度的业务认知方面的问题构造与表达,还有许多要调整的 。同一批原始语料,经过不同的清洗和优化方式,在训练后,模型的业务分析效果就是有差异的 。HCR慧辰股份CTO马亮博士如是说 。
大型语言模型是具有数十亿到数万亿参数的深度神经网络,被“预训练”于数TB的巨大自然语言语料库上,包括结构化数据、在线图书和其他内容 。ChatGPT比较大的突破是在GPT-3出现时,大概1750亿参数量,数据量为45个TB 。
出门问问副总裁李维认为:数据是大模型的燃料,数据的质量很大程度上决定了模型的质量 。我们的数据加强工作主要分两大块,预训练和后续的对齐训练(SFT,RLHF),前者求量,后者重质 。预训练的数据,原则上是在保持多样化和干净的前提下多多益善 。后期训练的对齐数据,尤其是SFT数据,不求量大,只求质量高,要反映对齐工作的多样性以及成比例 。文献显示,有些高品质多样性的小数据,也可以在对齐工作中表现良好 。当然,在实际工程实现中,不宜一味追求SFT对齐的小数据(例如 1000条 - 1万条),过分臃肿的SFT数据(例如千万或以上)并不一定出好模型 。这方面的常规数据加强和对齐训练工作,要从流程化做到快速迭代,大模型的质量提升才能见效 。
共建共享能否解决大模型训练的数据集问题?大模型的开发离不开海量数据助力 。当前,数据来源的知识产权已经成为大模型发展的阿喀琉斯之踵 。综合上述的学而思和ChatGPT事件来看,主要是涉及AI大模型的“数据盗取”行为,有哪些因素可以判断数据被盗取呢?
AI数据抓取案件与近年来司法判决的典型数据抓取案件在本质上没有差别 。对于这些案件,需要评判数据抓取行为是否对数据持有者的商业利益和市场竞争优势造成了损害,是否未经许可使用他人劳动成果,是否违反了商业道德,并且需要考虑抓取数据的合理性和合法性 。


推荐阅读