阜平县吧科学数据是一类重要的科技资源,其开放与共享对推动科技创新有重要意义。科学数据共享平台(网站)主要通过互联网开展数据共享和服务,是我国科学数据获取和再利用的主要途径之一。我国近10年来在国家和地方层面设立了系列的科学数据共享平台建设项目,包括科技部的科学数据共享工程,中国科学院的科学数据库及省(市)科技厅或下属机构的科学数据共享相关网站等。
科学数据共享工程建设的国家数据共享平台于2010年开始由建设转向运行服务阶段,各个部门和地方层面的科学数据共享网站也陆续由项目形式转为固定资金支持。由于运行的机制不同,这些网站的质量和服务也出现分化。为促进其建设和服务,有必要对这些平台的现状进行系列研究,评价则是其中重要的一部分。评价将有助于深入了解网站的情况,为科学数据共享的下一步健康发展打下基础,引导科学数据共享平台的建设,也是其绩效评价的一个重要依据。对于用户,系统化的评价结果可以为使用服务提供指导。
2012年下半年开始,中国科学技术信息研究所立项对科学数据共享网站的评价展开了研究工作,并针对中国目前尚在运行的有一定规模的科学数据共享网站进行了评价。
对科学数据共享网进行评价的理论基础是建立在科学数据共享网站的功能和特点以及现有网站评价方法的基础之上的。评价的重点是对科学数据开放共享的评价。
筛选目前我国境内运行的84个公益性科学数据资源共享网站(在Google搜索引擎上以“科学数据”关键词搜索后人工鉴定,包括数据库、数据共享平台),对选定的科学数据共享网站,抽取公益性科学数据共享网站的共性指标,制定指标的权重及打分体系,构建其基本的概要信息库,通过公开途径获取数据,从可见性、可得性、可用性三个方面对我国当前在线运行的主要科学数据共享网站进行评价,最后进行综合排名。其中,可见性反映网站上公开数据资源的整体情况;可得性是指网站的技术指标和性能以及对相关信息和数据的可访问和可获取程度;可用性是衡量用户数据使用的体验指标,是对用户使用网站达成目标是否顺利、以及在这个过程中用户是否满意的综合衡量。
采用了德尔菲法和层次分析法(AHP)构建评价的指标体系,为保证评价过程的可信性,制定了评价质量保障流程。评价采用公开的信息获取、第三方立场和用户视角等原则。基于网站这一公开的界面,以普通用户的身份进行网站访问以获取评价用数据(包括匿名和自由注册用户),评分过程中保持与建设方、投资方和管理方的独立性。指标分值的支撑数据采用普查和随机抽查两种方法之一获取,评价中采用定量统计与用户定性打分(模糊综合评判)相结合的方法,一些性能指标如首屏速度和网站稳定性委托外部技术公司代为监测。
本评价工作从2012年8月初开始,历时5个月。从84个科学数据共享网站中,以匿名或普通用户可以统计到的名义公开的数据资源(数据集或数据库)个数为8280。大多数网站以数据库组织方式为主,数据的实际公开率较低。有25%的网站没有采用元数据对数据进行描述。数据资源建设机构地理分布极不均衡,位于北京的平台占到了平台数的一半。除医药卫生领域平台外,其他平台主要集中在与自然资源相关的领域,如海洋、气象、林业、农业、人地系统等。从资助方来说,42个网站是在国家科学数据共享工程支持下进行项目建设的,占据研究对象的一半;22个由中国科学院科学数据库项目资助;省一级资助或者其他经费来源的科学数据共享网站20个。
通过对各个指标的分值进行标准化,结合权重,得出了网站的综合排名,中国科学院所构建的平台排名整体上靠前,地方科技系统的科学数据共享网站整体排名靠后。专业类的网站排名靠前,综合类的网站排名靠后。排名第一的地球系统科学数据共享网由于公开资源量远远大于其他排名靠前的网站从而综合排名领先。排名前十的如表所示。
总排名前三名的分别是地球系统科学数据共享网、极地区域数据共享运行服务中心和基础医学科学数据中心。可用性前三名分别是地球系统科学数据共享网、中国生态系统研究网络数据共享系统、极地区域数据共享运行服务中心。可得性前三名分别是林业科技基础数据分中心、太原地区科学数据库、喀斯特科学数据中心。可用性前三名分别是中国西部环境与生态科学数据中心、地球系统科学数据共享网、寒区旱区数据共享运行服务中心。
可见性方面数据资源量较少,开放程度低。科学数据共享网站整体资源量较少,分布不均衡,数据集类型网站的资源量主要在1~200区间。数据库类型的资源量大部分资源量集中在1~50区间。对于数据公开率,38%的网站数据完全公开,部分公开网站占27%,数据完全不公开的占到了35%。
可得性方面,所考查网站在具体指标上的表现差异性较大。主要体现在:一些网站上放置了许多与科学数据共享无关的内容,其主页的有效信息较少;在下载速度方面,一些资源量较大、数据质量较好的网站却没有考虑在其他网络条件下的访问速度,这直接影响到了用户对其服务的满意度。
可用性方面:从辅助信息及文档的丰富度和数据集服务的综合可用性两个指标反映出科学数据共享网站的可用性整体不高。一些网站没有考虑到用户在使用数据时候的具体需求。有12个网站具有单独的数据描述文档,可以进行下载查看。很多网站上的数据质量低造成可用性不强。
由于不同的领域学科、不同的共享方式、用户需求均有较大差异,本实践提出的指标也是一个探索,并没有对差异进行细致研究和加权。另外,一些网站虽然在科学数据共享相关项目支持下建立,由于其侧重的不同也没有归入我们的评价范围。但总体指标上表现较好的共享网站,基础平台、数据资源建设和服务比较成熟,运行机制和资金来源也比较好。指标表现较差的平台,明显存在某个或者多个方面的不足,甚至有些网站的服务处于停滞的状态。
从以上评价结果可以看出,整体上,平台的建设和使用还处于初级阶段,科学数据共享平台的健康发展还需要系统化的设计和推进工作。
需要鼓励科学数据的开放,应研究制定针对不同领域的科学数据的共享相关的制度和法规,从政策设计层面将数据共享深入到各数据资源相关的业务当中,吸引更多的机构加入到科学数据共享事业中。另外,需要促进形成常年性的基于第三方的科学数据评价机制,动态科学数据共享网站的评价和监督则可以从更深层次找到影响科学数据共享的障碍,主管部门应以招标或立项的方式支持第三方机构对科学数据的评价工作,并进行制度化。再者,要鼓励网站承建方加强元数据建设,元数据是开展科学数据共享和管理的基础技术标准。管理方需要在元数据建设方面进行宣传和强化实施,建设方则应注重提升元数据的质量和标准化程度。
当务之急,还应该建立优质科学数据资源索引,探讨科学数据的增值机制;提高数据及服务的质量,着力建设核心数据集(库);加强网站的信息构建,增强网站的专业性和稳定性等。
刘润达,博士,中国科学技术信息研究所副研究员,研究方向:科技资源管理、科学数据共享。
|