在日前举办的“数·算·网”融合发展暨粤港澳大湾区(南山·前海)算力服务联盟第一期交流研讨会上,深圳数据交易所(以下简称“深数所”)发布了500个垂直行业多模态算料集,按照大模型应用的不同阶段(训练、推理、调优),有的放矢地提供数据源,让国产大模型厂商“寻数有路”。
此次深数所发布的首批500个人工智能大模型高质量训练数据集,由37家不同的数据商提供,涵盖12个“数据要素×”领域,3家境外数据商,7类数据模态(文本、图像、音频、视频、多模态、3D、GIS等)。且本批数据集首次汇聚了来自中国气象局、中国知网、中译语通、万邦同和、微梦数据(新浪微博)、前海数据、海天瑞声、拓尔思、数据堂、智慧芽、网智天元、柏川数据、深信科技等数据商的数据集作为大模型算料。其中大部分算料为全国首发。
深数所人工智能行业有关人士表示,数据作为一个高效的“乘法”因子,能够与不同行业结合,显著提升行业的生产效率或创新能力,而人工智能技术则通过“加法”方式为传统产业带来渐进式的改进和优化,两者相互交织,共同成为数字经济发展的双翼。
“数据都是零散的,国产大模型厂商无法实现批量采集数据,我们此次推出的算料集就是,将大模型需要的训练数据进行逻辑的汇聚,从而形成了一个大模型训练数据产业高地。”深数所人工智能行业有关人士告诉记者,目前,人工智能和数字经济的领域存在数据荒的问题,特别是在多模态数据、中文数据、中国文化、中国价值观数据等领域,深数所按照大模型应用的不同阶段(训练、推理、调优)提供数据源,让国产大模型厂商“寻数有路”。
技术支持 | 联系我们 | 隐私保护 | 版权声明 | 网站地图
主办单位:广东省政务服务和数据管理局 承办单位:南方新闻网
地址:广州市东风中路305号(省政府大院)9号楼
粤ICP备19156380号-1 粤公网安备44010402002045号网站标识码:4400000163