百模征战,如何解决数据卡脖子问题?( 二 )


其次,从大模型的技术方面来看,为持续提升提升模型性能以及加快工程化落地,预训练模型本身的网络结构创新、Transformer以及Attention的优化、通信库nccl的优化等技术也是至关重要的,需要在底层基础能力研究上进行投入,摆脱基础研究方面跟随者的地位 。
丰富、多样的数据可以帮助模型更好地理解语言结构、语义关系和上下文信息 。然而,构建高质量的数据集并非易事 。
数据是大模型训练的基石在人工智能领域的百模大战中,大型语言模型的训练成为了一个关键的竞争领域 。数据、算法和算力作为大模型训练的三驾马车,在这场竞争中发挥着至关重要的作用 。其中,数据集作为大模型训练的基石,对于模型性能和创新能力具有关键影响,尤其是数据质量问题更是不可忽视 。
目前,大模型的数据一般来自于多个来源,包括以下几种:
其一,公开数据集 。许多领域都有公开的数据集,例如Imag.NET、MNIST等图像数据集,Wikipedia等文本数据集 。这些数据集由研究机构、学者或者公司开放,并且是在特定领域内广泛使用和共享的 。公开数据集是大部分通用大模型的数据集的主要来源 。
【百模征战,如何解决数据卡脖子问题?】其二,合作数据分享 。许多公司、机构和学者拥有独特的数据资源,并愿意与其它人合作共享这些数据资源,以支持不同领域的研究和应用 。例如,很多医疗机构会收集大量的医疗影像数据,这些数据可以用于训练图像分析或者肺癌检测等任务 。这也正是笔神作文所遇到的事情,双方虽为合作对象,但在数据引用上出现了分歧 。
其三,大规模的网络数据 。当我们使用大型互联网公司的产品和服务时,公司通常会收集并存储我们的数据,包括搜索历史、浏览器记录、GPS位置、社交网络等 。这些数据可以用来训练大型的语言模型,自然语言处理模型等 。国内大模型的数据来源和自身优势业务有较强相关性,百度作为国内搜索引擎的龙头企业,其大模型产品文心一言的数据集来源便主要是网络文本、书籍、新闻、社交媒体内容、科技论文、语音转录等,这也是其模型训练的优势之一 。
其四,数据众包 。众包是一种通过向大量的用户或者工人收集数据来解决问题的方法 。通过这种方法,可以快速搜集大规模的数据集,例如图像标注、音频翻译等任务 。这些数据集可以用于训练视觉和语音模型等 。
OpenAI此前披露,为了AI像人类那样流畅交谈,研发人员给GPT-3.5提供多达45TB的文本语料,相当于472万套中国“四大名著” 。这些语料的来源包括维基百科、网络文章、书籍期刊等,甚至还将代码开源平台Github纳入其中 。
近期,国内AI准独角兽企业实在智能的自研垂直领域大语言模型——TARS(塔斯)历经半年研发后,正式开启内测!对于其目前训练大模型使用的数据集,实在智能创始人、CEO 孙林君表示,目前的数据来源是多方面的,主要包含公开的数据集、经典的书籍、文档、知识内容、百科、开源的数据集,以及自身业务沉淀的数据,如果是垂直大模型合作企业会提供相关的数据集 。占的比例来说并不固定,但是肯定是公开的数据的量最多,训练数据的接入还主要是通过建立数据库的方式 。
近期发布多款AIGC产品的HCR慧辰股份CTO、首席数据科学家马亮博士表示:我们做的是行业的专业数据分析服务,所以我们训练聚焦于构造行业性AIGC分析模型,对具体行业的业务智能生成的能力有较高水平要求 。因此训练数据中来源外部的数据很少,主要是来自公司长期各行业服务的领域数据积累,大都是基于专家生成的业务数据资源(包括大量的行业公开数据、专业问卷模板、项目建议书模板、业务分析报告模板等) 。目前尚未接入合作企业的相关数据 。
LF AI&DATA基金会董事主席堵俊平曾公开表示:“AI大模型就像一个贪吃的‘怪兽’,始终需要研究人员投喂更多的、质量更好的数据 。”他说,当前数据几乎都是从“在网络上主动收集”“从第三方购买”“利用公开数据集”这三个渠道得来 。在堵俊平看来,从第一个渠道得到的数据局限性较强,由于版权问题,很多公司只能从其私域获得数据;从第二个渠道获取的数据面临数据定价、数据质量等问题;而从第三个渠道获取的数据往往只能作为研究使用,在商用或者其他方面有很多限制 。
而行业数据更是非常核心的私域数据,私域数据量越大,质量越高,就越有价值 。


推荐阅读