"); //-->
以下文章来源于清华大学智能法治研究院 ,作者王勤
数据要素的重要价值在于支持科学研究和技术创新,以可查找、可访问、可互操作、可重用为内容的FAIR原则有助于充分发挥数据的要素价值。中央全面深化改革委员会第二十六次会议审议通过的《关于构建数据基础制度更好发挥数据要素作用的意见》提出:促进数据高效流通使用、赋能实体经济,统筹推进数据产权、流通交易、收益分配、安全治理,加快构建数据基础制度体系。在数据流通利用的立法中,必然要提出数据流通利用的几项基本原则,FAIR原则应当纳入未来的数据流通利用立法之中。本文对FAIR原则的具体内涵、落实应用等情况予以总结。
1
数据FAIR原则的具体内容
FAIR原则在2014年1月荷兰莱顿举办的洛伦兹研讨会(Lorentz workshop)上首次被提出[1],随后2016年3月Wilkinson等学者在《科学数据》(Scientific Data)上发表文章《科学数据管理中的FAIR指导原则》(FAIR Guiding Principles for Scientific Data Management and Stewardship)首次对它进行了系统性论述。FAIR由Findabilty(可查找),Accessibility(可访问),Interoperability(可互操作)和Reuse(可重用)四个单词首字母的组成,代表了FAIR原则的四项基本原则,即可查找、可访问、可互操作、可重用。FAIR原则要求在科学研究中取得的数据都需符合上述四项基本原则。自提出以来,FAIR原则很快在科学界引发了广泛讨论,并且在世界各地的政策制定者、资助者中赢得了广泛认同。
1. 可查找(Findability)
FAIR原则的首要原则是F(Findability)原则,即数据的可查找性。如果无法识别和查找数据,则无从谈论数据的访问、互操作和重用。数据要符合Findability原则需满足四个子原则,以下分别用F1、F2、F3、F4表示。
F1:(元)数据被分配有一个全球唯一且恒久的标识符。
F1原则是所有原则的基础。如果没有一个全球唯一且恒久的标识符,FAIR的其他方面便很难实现。
全球唯一且恒久的标识符消除了数据的歧义。许多数据存储库会自动为已存储的数据生成全球唯一且恒久的标识符。标识符可以帮助人们准确理解数据的意思,帮助计算机以一种有意义的方式解释数据。标识符对人机交互至关重要,而人机交互正是开放科学的前景所在。标识符可以帮助他人在重用数据时正确引用该数据。
标识符需满足两个特征:
全球唯一。人们可以通过注册表服务获得数据的全球唯一标识符,该注册表服务使用的算法可以保证标识符的唯一性。不存在有两个不同的数据拥有同样的标识符。
恒久存在。标识符对应的网络链接应一直存在。维护网络链接需要成本,随着时间的推移,很多网络链接往往会失效。而人们通过注册表服务获得的标识符可以(在某种程度上)保证网络链接在未来一直存在。
标识符通常是一个****,即URI(Uniform Resource Identifiers)。常见的标识符类型共有四类,分别是:DOI、ARK、Identifiers.org和PURL。DOI全称为数字对象标识符(Digital Object Identifiers,DOI)。DOI系统由国际DOI基金会维护,由各区域中心的注册机构(RA)提供支持,其中最重要的注册机构是DataCite。加入DataCite的会员有权每年创设一定数量的DOI。ARK全称存档资源密钥(Archival Resource Keys)。ARK由加州数字图书馆、DuraSpace提供支持。ARK的工作原理与DOI类似,但在设计上更为宽松。超过500个注册组织已经创建了超过32亿个ARK。注册或解析ARK不收取任何费用。PURL全称为持久性统一资源定位器(Persistent Uniform Resource Locator,PURLs),PURL是在https://purl.org上创建和解析的标识符,该网站自2016年起由 OCLC移交给Internet Archive主管。DOI、ARK、Identifiers.org和PURL具体可以见如下示例[2]:
目前对标识符来说最大的挑战即为确保它的寿命,尤其是确保由不同项目或社区创建的标识符在该项目结束或者社区结束后仍能存在。因此需要保证标识符与这些项目或社区相独立。[3]
F2:数据使用了丰富的元数据进行描述。
描述数据的元数据应当非常丰富,应当包括数据的背景、质量、状况或特征等等情况。丰富的元数据可以让计算机自动完成日常且繁琐的分类和排序任务,这些任务目前耗费了研究人员大量的精力。F2原则背后的基本原理是,即使没有数据标识符,人们也应该能够根据元数据提供的信息找到数据。遵守F2原则能够帮助人们定位数据,并增加该数据的重用和引用。
F3:元数据清晰且明示地包括了它们所描述数据的标识符。
元数据和它们描述的数据集通常处于不同的文件夹中,元数据文件和数据集文件夹之间通过在元数据中提到数据集的全球唯一且恒久标识符相联系。F2要求数据使用元数据进行描述,F3表明元数据除了包含用以描述数据的元数据,还应包含被描述数据的标识符,用以确定数据的位置。
F4:(元)数据已在可检索的资源中注册或者建立了索引。
标识符和丰富的元数据并不能确保数据在互联网上“可查找”。如果数据不可查找,那么再完美的数据也将失去价值。使得数据资源可查找的方法很多,比如建立索引。谷歌通过爬虫“读取”网页并自动将它们建立索引,便可以让人们通过谷歌搜索查找到网页。对于大多数普通搜索者而言,谷歌搜索已是足够,但对于学术研究数据的检索,人们仍需要建立更明确的索引。F1-F3原则为这类索引的建立提供了核心要素。
2. 可访问(Accessibility)
FAIR原则中的第二个原则为A(Accessibility)原则,即数据的可访问性。用户在查找到所需的数据后的下一步即需访问该数据,访问可能需要进行身份验证并获得授权。数据要符合Accessibility原则需满足四个子原则,以下分别用A1、A2、A3、A4表示。
A1:(元)数据可通过标识符使用标准化的通信协议进行检索。
A1原则指出,FAIR数据的检索不需要专门或专有的工具或通信方法,使用标准化的通信协议即可。标准化的通信协议有TCP、http(s)、HTP等。大多数网络用户通过点击链接来检索数据。链接是一个名为TCP协议的高级接口,计算机执行该协议进而在用户的web浏览器中加载数据。http(s)、HTP则是构成现代互联网主干的协议,它们建立在TCP协议基础之上,但请求和提供数字资源比其他通信协议更容易。
A1.1:协议开放、免费、普遍可实现。
为最大限度地实现数据重用,FAIR数据使用的通信协议应当免费、开放、可在全球范围内实现。任何人只要有一台电脑与互联网链接,就至少可以访问元数据。这一原则将影响人们对共享数据的存储库的选择。
A1.2:协议在必要时允许认证和授权程序。
A1.2原则是FAIR原则中关键但经常被误解的一个原则。FAIR原则中的“A”并不必然意味着“开放”或“自由”。即使受到严格保护的私有数据也可以是符合FAIR原则的。“A”意味着应当提供数据可访问的确切要求。理想状况下,机器可以自动理解访问数据的要求然后自动执行该要求或提醒用户注意该要求。有些数据存储库会要求用户在存储库中创建用户帐户,这可以让存储库得以验证每个数据集的所有者(或贡献者)的身份,并可以根据用户的不同创设不同的用户权利。A1.2原则也将影响人们对共享数据存储库的选择。
A2:即使数据不再可用,元数据仍然可以被访问。
维护数据资源的在线需要成本,随着时间的推移,网上的数据常常会减损,链接会失效。而存储元数据往往比存储数据更方便、成本更低。因此,A2原则要求保证元数据应持续存在,即使数据本身不再存在。A2原则与F4原则中描述的注册和索引问题有关。
3. 可互操作(Interoperability)
数据通常需要与其他数据进行集成。此外,数据还需要与应用程序或工作流进行互操作,以进行分析、存储和处理。数据的互操作即是指通过结合相互独立的数据以获得整体的分析结果。[4]数据要符合Interoperability原则需满足三个子原则,以下分别用I1、I2、I3表示。
I1:(元)数据使用一种正式、可访问、共享和广泛适用的语言来表示知识。
正如人类之间需要能够交换和理解彼此的信息,计算机之间也需要能够互相交换和理解彼此的数据。因此数据应当是机器可读的,并且不需要借用专门或特别的算法、翻译器或映射来进行数据的转换。每个计算机至少需要了解其他计算机的数据交换格式。为实现这一点,以及为确保数据的自动可查找和互操作,需要:(1)使用常见、受控的词汇、本体和主题词表(具有可解析的全球唯一且恒久标识符);(2)使用良好的数据模型。
I2:(元)数据使用的词汇表符合FAIR原则。
用于描述数据集的受控词汇表需适用全球唯一且恒久标识符进行记录和解析,并且能够轻松地被任何使用该数据集的人查找和访问。
I3:(元)数据包括对其他(元)数据的限定引用。
限定引用是一个解释了其意图的交叉引用。例如,X是Y的监管者是比X与Y有关系、或者X也能看到Y更恰当的引用。限定引用可以在元数据之间创建有意义的连接,丰富人们对数据背景的了解,可以让人们明确一个数据集是否建立在另一个数据集之上,是否需要额外的数据集来完成目前的数据集,或者互补信息是否存储在不同的数据集中。
I原则需要注意两点:第一、根本上而言,实现数据的互操作性不是为了连接不同的数据,而是为了实现数据用户的互操作。第二、为实现数据的互操作,描述它的元数据也应当可以互操作。[5]
4. 可重用(Reuse)
FAIR原则的最终目的是实现数据的可重用。数据要符合Reuse原则需满足两个子原则,以下分别用R1、R2表示。
R1:(元)数据被多个准确且相关的属性所描述。
添加了很多标签的数据将更易被发现和重用。R1原则与F2原则相关,但R1关注的是用户(机器或人)判断数据在特定场景中是否真的有用的能力。数据发布者不仅应提供让数据能被发现的元数据,还应提供丰富的描述数据生成场景的元数据,比如实验协议、生成数据的机器或传感器的制造商和品牌等等。数据发布者不应试图预测数据消费者的身份和需求,而是应当尽可能多地提供元数据,即使提供的元数据看起来与数据不甚相关。
R1.1:(元)数据在发布时需提供清晰且可访问的数据使用许可(usage license)。
许可中应当清晰地描述数据使用的范围。重用数据的组织都在努力遵循数据使用的种种限制和规范,如果数据使用的范围描述不清,将会严重限制数据的重用。而随着涉及到更多许可考虑的自动搜索技术的发展,许可状态的明确将变得更加重要。因此必须让机器和人都清楚数据可以使用的条件。前文提到的I原则描述的是数据在技术上的可互操作性,R1.1关于的是数据在法律上的互操作性。
R1.2:(元)数据有详细的来源。
重用数据的人应当清楚数据来自哪里,需如何引用或作者希望如何被承认。数据应当包括生产它的完整工作流:谁生成或采集了这些数据、它们是如何处理的、它们以前是否发布过、它们是否包含其他人的数据。理想情况下,这个工作流应当是机器可读的。
R1.3:(元)数据符合相关领域的社区标准。
如果数据集相似,它们将更容易重用。例如,相同类型的数据、以标准化方式组织的数据、完善和可持续的文件格式、遵循通用模板且使用通用词汇表的文档(元数据)。如果存在数据归档和共享的领域标准或最佳实践,则应该遵循这些标准或实践。例如,许多社区都有最低限度的信息标准(例如:MIAME、MIAPE)。FAIR数据至少应符合这些标准。有些情况下,提交者提交的数据可能会偏离这一类型数据的标准,这时他们都会提供有效且明确的理由。FAIR原则并不解决数据的可靠性问题。数据的可靠性取决于使用者,并且与数据的应用目的有关。
以上的FAIR原则以及它的十五个子原则并未为FAIR数据的生成提供具体的技术指引,但为提高数字资源的可查找性、可访问性、互操作性和可重用性提供了指导。如何实现以上要求,不同的利益相关者当有自己不同的方式。[6]
2
数据的FAIR化(FAIRification)
有学者在论文中提出了数据FAIR化的七个步骤[7]:1)确定FAIR目标;2)分析数据;3)分析元数据;4)定义数据和元数据的语义模型;5)让数据和元数据可链接;6)托管FAIR数据;7)评估FAIR数据。
1. 确定FAIR目标
第一步是确定FAIR目标,这属于FAIR化工作流程的前阶段。这一步需要访问数据。如果数据是敏感数据,即是数据管理员也不能访问其实际信息的数据,则可以使用匿名或模拟数据样本进行访问。这一步还需要对数据集有大致了解,并且大致熟悉FAIR原则。FAIR的目标可以是出版商、资助者或利益相关者的具体要求,也可以是提高不同来源数据的使用效率,还可以是提高数据的可查找性、可访问性和重用性等等。
2. 分析数据
第二步是分析数据以为数据将来的FAIR化作准备。这同样是FAIR化工作流的前阶段。这一步包括:(1)调查可用的数据,检查数据格式,确认数据元素的含义是否明确;(2)检查数据是否已经包含FAIR特征,比如数据元素中是否有唯一且恒久标识符。
3. 分析元数据
第三步是分析元数据,这一步同样处于FAIR化工作流的前阶段。这一步包括:1)调查描述数据的元数据,如果不存在元数据,则去确定应该收集什么元数据;2)检查元数据是否已经包含FAIR特征,例如是否有丰富的元数据和来源描述。提高元数据的可查找性、可访问性和可重用性要求在元数据中包括诸如许可证、版权声明、贡献声明之类的细节,并对数据使用条件和访问方式进行描述。
4. 定义数据和元数据的语义模型
第四步是定义数据和元数据的语义模型,该步骤处于工作流的FAIR化阶段。语义模型是将数据和元数据转换为机器可读格式的模板。生成语义模型通常是数据FAIR化过程中最耗时的步骤。不过随着时间的推移,生成语义模型的难度在逐步减小,因为目前正有越来越多的模型可供重用。 首先需检查数据和可能被重用的元数据是否已经存在一个语义模型。如果没有既存的语义模型,则需要生成一个新的语义模型。
构建一个语义数据模型需经过三步:
第一步,创建一个概念模型,列出将要FAIR化的数据元素的主要概念和它们之间的关系。
第二步,用机器可读的类和属性表示数据元素的概念和它们之间的关系。这些类和属性通常来自于来自本体知识库、词汇表和主题词表,可以通过本体查找服务(OLS)、BioPorta和BARTOC等搜索引擎进行查找。
第三步,使用概念模型和本体术语创建语义数据模型。语义数据模型以机器可读的术语表示了数据的含义。这使得转换后的FAIR数据能够方便地应用到其他系统和应用程序之中。构建语义模型需要在数据集和语义数据建模方面的专家。数据集领域的专家可以确保建模者能够理解数据的确切含义,数据建模方面的专家则可以确保语义模型能够正确地表示数据。
5. 让数据和元数据可链接
第五步是使数据和元数据可链接,这一步处于工作流的FAIR化阶段。使数据和元数据可链接的方法高度依赖于应用程序和具体的使用案例。但至关重要的是在一个可以由全球机器可理解的表示框架中对数据和元数据进行描述,即将数据和元数据转换为机器可读的形式。
将数据转换为机器可读的形式需要语义数据模型以及完成这一过程的专门工具,如FAIRifier、Karma、Rightfield和OntoMaton。将元数据转换为机器可读的形式同样需要语义元数据模型以及专门工具,如FAIR元数据编辑器(FAIR Metadata Editor)、CEDAR 和生物架构生成器(BioschemasGenerator)。
6. 托管(Host)FAIR数据
第六步是托管FAIR数据,即使数据可供使用,这一步处于工作流的FAIR化阶段。经过这一步,数据便可由人、机通过不同的接口进行访问。有许多不同的方法来在线访问和管理FAIR数据资源。FAIR Data Point(FDP)提供的通用FAIR数据访问器即是其中之一。该访问器的人机界面为一个简单的网页,它提供了一个指向FDP提供的相关元数据层的链接,点击该链接,即可获得一个机器可读的RDF文档。
7. 评估FAIR数据
第七步是评估FAIR数据,这一步处于FAIR化工作流的后阶段。此过程可能包括:1)检查步骤1中确定的目标是否实现,如果没有实现,工作流中的某些步骤可能需要重新进行;2)使用FAIR评估工具检查数据和元数据的FAIR状态,并将其与第二步和第三步中评估的FAIR状态进行比较。
以上七步工作流程适用于任何类型数据的FARI化,并已被“Bring Your Own Data(BYOD)”工作坊所采用。但它们并非数据FAIR化的定式,只是一种可以作为参考的模版。随着应用程序社区对特定数据管理问题认识和理解的增加,数据FAIR化的流程仍将继续发展。
3
FAIR原则在实践中的应用
FAIR原则在被提出之后,逐渐被应用到科学研究的各个领域。例如,生命科学研究(尤其是生物医学、卫生、生物多样性、农业领域的研究)、核能研究、气候变化研究、海洋研究、人文学科研究、经济学研究、空间科学和矿物学研究、数据科学研究等。在数据科学研究中则被应用到本体映射、机器学习算法、基于本体的访问协议、自动化技术以及世界各地数据中心的数据管理等细分领域。
FAIR原则虽然起源自欧美,80%关于FAIR原则的文献也来自欧美,但是FAIR原则的实践已经完全超越了欧美国家,扩散到中国、拉丁美洲、非洲等区域。
此外,很多国际组织都在致力于推动FAIR原则的实施和基础设施建设。如:研究数据联盟(Research Data Alliance, RDA)、科学技术数据委员会(The Committee on Data for Science and Technology)、欧洲研究基础设施战略论坛(European Strategy Forum on Research Infrastructures, ESFRI)和AGU和IUPAC。[8]
欧盟在其开放科学战略中全面采纳了FAIR原则。在2014年1月启动的“地平线2020”(Horizon 2020)科技计划中,欧盟研究委员会启动了“开放研究数据试点”项目,要求Horizon 2020资助项目的数据管理遵循FAIR原则。2016年2月,《欧盟开放科学议程》确立的五项行动之一是“建设支持开放科学的基础设施”,其目标是通过实施FAIR原则,到2020年全面实现欧盟范围的跨学科、跨机构的科学数据访问、共享和重用。2020年2月,欧盟委员会新的《数据战略》的核心内容之一是“数据访问和使用的跨部门治理框架”,首要任务是在2020年第四季度建立欧洲共同数据空间治理的立法框架。
专业的FAIR服务市场正在形成。GO FAIR基金会和Phortos顾问公司组建了FAIR服务提供商联盟(FSPC)。迄今为止,已有十余家公司加入并同意通过培训FAIR数据管理员和知识本体专家来提升提供FAIR服务的能力。部分公司正在考虑建立一个FAIR能力中心。FSPC承诺遵守GO FAIR规则,遵循GO FAIR实施网络制定的最佳实践。FSPC提供的服务范围包括FAIR意识(FAIR Awareness events)、数据的FAIR化、语义和本体建模、构建与FAIR化兼容的工具、FAIR数据管理培训和协助公司的GO FAIR进程。[9]
许多FAIR工具正在被开发出来。为了推动数据的FAIR化,工业界需要提供专业的产品和服务来支持FAIR数据的创建和使用。目前,实现数据FAIR化的过程仍包括许多手动步骤,这些步骤其实完全可以实现自动化。使用FAIR工具一方面可以减轻提供FAIR数据的负担,另一方面也可以减轻消费数据的负担,使用FAIR工具可以帮助生产更多的FAIR数据,用户也因而可以查找、访问、互操作并最终重用更多的数据。[10]
4
FAIR原则的意义
FAIR原则的提出回应了欧洲“开放科学”运动的要求。科学研究数据具有很高的价值,它是创新的关键因素,可以用于替代能源的寻找、疾病的治疗等等关键领域的研究,带来巨大的社会效益。在FAIR原则公布之前,不同领域、部门的科学数据在存储内容、格式等方面都存在很大差异。采用FAIR原则,可以让数据能够更易查找、更易访问、更易互操作和重用,可以帮助消除数据孤岛,克服学科间的界限造成的数据不易流通问题。
此外,FAIR原则实现了数据的机器可读,可以为将来人机交互、人工智能的发展奠定基础。
注释:
[1] Mons, Barend, et al. "The FAIR principles: First generation implementation choices and challenges." Data Intelligence 2.1-2 (2020): 2.
[2] Juty, Nick, et al. "Unique, persistent, resolvable: Identifiers as the foundation of FAIR." Data Intelligence 2.1-2 (2020): 30-39.
[3] Jacobsen, Annika, et al. "FAIR principles: interpretations and implementation considerations." Data intelligence 2.1-2 (2020): 15.
[4] Guizzardi, Giancarlo. "Ontology, ontologies and the “I” of FAIR." Data Intelligence 2.1-2 (2020): 183.
[5] Guizzardi, Giancarlo. "Ontology, ontologies and the “I” of FAIR." Data Intelligence 2.1-2 (2020): 182.
[6] Jacobsen, Annika, et al. "FAIR principles: interpretations and implementation considerations." Data intelligence 2.1-2 (2020): 11.
[7] Jacobsen, Annika, et al. "A generic workflow for the data FAIRification process." Data Intelligence 2.1-2 (2020): 56-65.
[8] Mons, Barend, et al. "The FAIR principles: First generation implementation choices and challenges." Data Intelligence 2.1-2 (2020): 3.
[9] van Vlijmen, Herman, et al. "The need of Industry to go FAIR." Data Intelligence 2.1-2 (2020): 282.
[10] van Vlijmen, Herman, et al. "The need of Industry to go FAIR." Data Intelligence 2.1-2 (2020): 281.
参考文献:
1. https://www.go-fair.org/fair-principles/
2. Mons, Barend, et al. "The FAIR principles: First generation implementation choices and challenges." Data Intelligence 2.1-2 (2020).
3. Juty, Nick, et al. "Unique, persistent, resolvable: Identifiers as the foundation of FAIR." Data Intelligence 2.1-2 (2020).
4. Jacobsen, Annika, et al. "A generic workflow for the data FAIRification process." Data Intelligence 2.1-2 (2020)
5. van Vlijmen, Herman, et al. "The need of Industry to go FAIR." Data Intelligence 2.1-2 (2020)
6. Guizzardi, Giancarlo. "Ontology, ontologies and the “I” of FAIR." Data Intelligence 2.1-2 (2020)
7. Jacobsen, Annika, et al. "FAIR principles: interpretations and implementation considerations." Data intelligence 2.1-2 (2020)
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。