当前位置:首页 > 新闻中心 > 动态新闻

深圳数据交易所发布500个行业多模态算料集

时间 : 2024-04-22 15:46:12 来源 : 深圳特区报 【字体:

  在日前举办的“数·算·网”融合发展暨粤港澳大湾区(南山·前海)算力服务联盟第一期交流研讨会上,深圳数据交易所(以下简称“深数所”)发布了500个垂直行业多模态算料集,按照大模型应用的不同阶段(训练、推理、调优),有的放矢地提供数据源,让国产大模型厂商“寻数有路”。

  此次深数所发布的首批500个人工智能大模型高质量训练数据集,由37家不同的数据商提供,涵盖12个“数据要素×”领域,3家境外数据商,7类数据模态(文本、图像、音频、视频、多模态、3D、GIS等)。且本批数据集首次汇聚了来自中国气象局、中国知网、中译语通、万邦同和、微梦数据(新浪微博)、前海数据、海天瑞声、拓尔思、数据堂、智慧芽、网智天元、柏川数据、深信科技等数据商的数据集作为大模型算料。其中大部分算料为全国首发。

  深数所人工智能行业有关人士表示,数据作为一个高效的“乘法”因子,能够与不同行业结合,显著提升行业的生产效率或创新能力,而人工智能技术则通过“加法”方式为传统产业带来渐进式的改进和优化,两者相互交织,共同成为数字经济发展的双翼。

  “数据都是零散的,国产大模型厂商无法实现批量采集数据,我们此次推出的算料集就是,将大模型需要的训练数据进行逻辑的汇聚,从而形成了一个大模型训练数据产业高地。”深数所人工智能行业有关人士告诉记者,目前,人工智能和数字经济的领域存在数据荒的问题,特别是在多模态数据、中文数据、中国文化、中国价值观数据等领域,深数所按照大模型应用的不同阶段(训练、推理、调优)提供数据源,让国产大模型厂商“寻数有路”。