随着国内大模型纷纷进入到领域的训练、服务和应用,针对大模型对场景应用的能力评测变得越来越有指导意义。在相关部门的支持下,鹏城实验室、广州数据交易所、广东联通、数据堂(北京)科技股份有限公司、广东省人工智能产业协会联合发起了大模型应用评测的战略合作,并邀请联通(广东)产业互联网有限公司、广电运通集团股份有限公司、广州云从人工智能技术有限公司、中科紫东太初(北京)科技有限公司 、开普云信息科技股份有限公司、北京北大英华科技有限公司、京华信息科技股份有限公司、广州视源电子科技股份有限公司、摩诃脉动、深圳市未来清研科技有限公司等10余家国内领域大模型公司参与场景应用评测。
2.主观题:采用triple-check人工评测的方式,评测人员分为独立三组,比对问题和模型回答,同时参考人工标注的标准答案进行评分,最终评测结果取三组的平均分。评分细则如下:
三个重点应用场景
(1)主观题:在经济全球化的大背景下,地方经济如何通过创新驱动实现可持续发展,包括具体的策略、实施计划、预期挑战及解决方案,进行深入分析和规划。
(2)主观题:我村党员****从2023年5月20号开始违章建筑300平方左右钢架房,我们已多次向银湖街道城建办反应,给予反馈是勒令停工,反复反应,给予答复都是一样的。至今钢架棚已经修建完工!2023年10月19日又开始切砖垒高墙,望领导明察,给我们普通老百姓主持公道。
法律专场例题
(1) 主观题:未经同意录音录像合法吗?
(2) 多选题:《中华人民共和国监察法》规定,监察对象对 (____) 进行报复陷害的依法给予处理。
选项:A.控告人 B.检举人 C.证人 D.监察人员
教育专题例题
(1)选择题:某公司有员工A、B、C、D、E,他们分别负责不同的工作。已知A负责市场部,B负责财务部,C负责人力资源部,D负责研发部,E负责生产部。如果市场部需要与研发部合作,那么最有可能需要与E合作的是()
选项:A.A B.B C.C D.D
技术支持 | 联系我们 | 隐私保护 | 版权声明 | 网站地图
主办单位:广东省政务服务和数据管理局 承办单位:南方新闻网
地址:广州市东风中路305号(省政府大院)9号楼
粤ICP备19156380号-1 粤公网安备44010402002045号网站标识码:4400000163