SUV
开放数据库下载(“开放广东”平台-113个数据集去年不再开放,回撤比例较高)

结果显示,截至今年3月15日,“开放广东”平台放出97775个数据集,其中省本级开放数据集仅435个,相比2023年还回撤了130多个。有专家对此表示,广东省本级开放数据集数量在全国各省级平台中表现一般,且回撤比例较高。

今年初国家数据局召开高质量数据集建设工作启动会,要求推动高质量数据集建设。前不久,广东发布“十二条”举措推动人工智能与机器人产业创新发展,明确丰富数据要素供给,构建高质量人工智能数据集和语料库等。

作为广东省政府数据开放平台,“开放广东”平台2016年上线,建设至今,当前的数据集开放度如何?南都大数据研究院梳理发现,截至今年3月15日,“开放广东”平台有97775个数据集,其中省本级数据集仅435个。

相对开放数据集占比较高的是省商务厅,为14.0%,其次为省生态环境厅、省自然资源厅、省文旅厅、省药监局、省市监局。例如省商务厅发布的数据集包括“广东外贸进出口总值”“自贸试验区进出口总额”“自贸试验区新设企业数量”“广东省口岸运行情况”等。

三成多数据集去年以来未更新过 10个数据集下载量为0

国家层面对于开放数据集数据格式、更新频率等有相应要求。如《公共信息资源开放试点工作方案》明确试点地区,可下载的数据集应采用可机器读取格式开放,可机读率不低于90%,鼓励优先采用CSV格式;提高实时动态数据开放比重,可用API接口下载的数据集占开放数据集总量比例不低于30%等。

对照要求,南都大数据研究院发现,“开放广东”平台省本级数据更新不够及时,在能够持续开放的数据中34.9%数据集去年以来未修改更新过。数据集更新频率标注为“每天”“每季度”“每月”“每周”的一共占比2%,每年更新的占42%,为“其它”的数据集占比达56%。

分析下载/访问比例(数据集下载总量/浏览总量),平台上的省级单位整体为22.2%。其中,比例较低的包括省交通运输厅等,比例较高的是省生态环境厅、省民政厅、省商务厅等,例如省生态环境厅发布的“广东省重污染河流断面水质状况”数据集,省民政厅发布的“广东省养老机构基本信息”数据集等。

郑磊教授对此提到,他们团队把全国各地开放平台下载量高的数据集归到一起,分析下载量前十名的数据集,发现都是与衣食住行、生老病死、经济发展相关的数据,如“公交站点、路线、时刻表数据”“人口与经济指标(GDP、产业增加值、收入等)”“学校(包括幼儿园、小学、初中)基本信息数据”“企业/个体户注册登记数据”“医疗机构数据”“学校招生信息数据”“道路运输从业人员/企业数据”“施工许可数据”“商品房预售备案/许可数据”“空气质量状况数据”,“但即便就看这10个普遍下载量很高的数据维度,广东也有很多还没开放”。

探索“人工智能+” 高质量行业数据集待完善

如何破局?南都大数据研究院观察到,政策层面,广东正不断加深部署。如2023年出台《关于加快建设通用人工智能产业创新引领地的实施意见》,要求着力构建高质量多模态中文数据集;2024年广东省政务服务和数据管理局等部门联合发布“数字经济工作要点”,要求支撑通用人工智能发展及高质量公共数据资源库建设,持续提升开放数据质量,促进公共数据与社会数据融合开发利用;今年广东发布打造应用场景、丰富数据要素供给等“十二条”政策举措,推动人工智能与机器人产业创新发展,其中明确构建高质量人工智能数据集和语料库,形成一批高质量数据产品和服务等。

具体到做法,魏文涛提到,要深化数据空间建设,构建行业数据资源库;征集优质数据案例,赋能行业智能应用;加强政产学研合作,强化核心技术研发以及完善数据交易机制,保障数据有序流通等。

出品:南都大数据研究院

制图:林诗妍(即梦AI)


顶一下()     踩一下()

热门推荐

发表评论
0评