为了帮科学家省钱省力，我们建了一个全球只有 6 所，中国只有 1 所的“银行”

luyuanhong 发表于 2023-6-18 23:58

为了帮科学家省钱省力，我们建了一个全球只有 6 所，中国只有 1 所的“银行”

如果把已有的科学数据开放共享出来，就可以让后面的科学家站在巨人的肩膀上，站在一个更高的起点上开展研究。

演讲 | 姜璐璐（中国科学院计算机网络信息中心、 "科学数据银行"产品运营负责人）

大家好，我是来自中国科学院计算机网络信息中心的姜璐璐。我从事的工作是科学数据管理和科学数据共享，简单来讲，我和我的团队的工作就是为科学家建立一所“银行”。

在介绍我们的银行之前，想跟大家聊一聊最近的“网红”ChatGPT。

ChatGPT 号称是“史上最强的人工智能”，它可以帮大学生写作业，可以帮我们写代码，甚至可以帮科学家写论文，确实很厉害。

而我作为一个科学数据管理的相关人员，关注的是它为什么可以“上知天文，下知地理”。事实上，ChatGPT 背后有海量的科学数据在源源不断地喂养着它，帮助它成长。正是这些海量的科学数据使得 ChatGPT 变得如此智能。

距离地球 5500 万光年的 M87* 黑洞

再来看一个科学家给黑洞拍照片的例子。这张照片是2019年人类拍到的首张黑洞照片，它帮助物理学家验证了广义相对论。

那给黑洞拍这样的一张照片，跟我们平时拿手机拍张照片是不一样的。拍这样的一张照片，动用了全球 8 个天文台，历经了 5 个夜晚的观测，产生了 4 个 PB 的观测数据。科学家又花费了 2 年的时间，才用这 4 个 PB 的数据计算得出这张照片。所以说，黑洞的第一张照片是根据海量的科学数据计算得来的。

在这两个例子中都有一个共同的身影，那就是科学数据。

被誉为“中国天眼”的 FAST

科学数据它可以非常大。贵州的 FAST（500 米口径球面射电望远镜）一天的观测可以产生 50 个 TB 的数据。相当于我们手边 1 TB 的移动硬盘，它一天就能用掉 50 个，那么一年就可以用掉 18250 个。

科学数据也可以非常非常小，甚至于说非常金贵。它可能产生于科学家电脑里的一个计算数据、显微镜下的一张图片，可能只有几 KB 、几 MB 这么小。一些科学家穷其一生只为了精确某一个科学数据小数点的后几位。

科学数据共享：站在巨人肩膀上

事实上，当前很多科学研究是围绕科学数据展开的。科学数据十分重要，而科学数据的开放共享是更重要的。

来源：https://www.springernature.com/gp/open-research/open-data

很多数据的得来，蕴含着科学家非常多的努力和心血。如果把这些数据开放共享出来，就可以让后面的科学家站在巨人的肩膀上，站在一个更高的起点上开展研究。

在科学研究过程中，会产生一些成功的科学数据，这当然非常宝贵。那也有实验失败的情况，产生的所谓的失败的科学数据，它也同样非常重要。

比如爱迪生在寻找电灯的灯丝材料的时候，试错了 6000 种材料才找到了钨丝。其实前面被淘汰的 6000 种材料对于后代的科学家而言也是非常重要的，因为大家不需要再在这 6000 种材料上重复试错了，可以把精力投向更多其他的研究和深入的研究上。

如果大家还没有特别直观地感受到开放科学数据有多么重要，那我们再看一个开放数据推动生命科学研究取得突破性进展的例子。

使用包括 17 万个蛋白质结构的 PDB 及 UniPort 蛋白质数据库，预测蛋白质折叠

蛋白质是生命的基础，科学家花费很多的时间研究蛋白质，试图寻找一些生命的机理。人类已知的蛋白质总共有 1.8 亿种，但科学家花了半个世纪的时间也只看清了其中 19 万个蛋白质的结构。19 万听起来好像体量已经挺大了，但放在 1.8 亿的体量里面，其实只占到了 1/1000 。

图中紫色的点就是我们花半个世纪时间观测到的蛋白质结构的体量。在 2021 年，英国的 DeepMind 公司推出了一个人工智能叫 AlphaFold DB ，它当年预测出了 100 万个蛋白质结构。从紫色的点跟浅蓝色的点的对比中，我们可以感受到这是一个非常大的突破。在 2022 年，AlphaFold DB 将体量增加到了 2000 万，就是图中深蓝色的区域。

那 AlphaFold DB 为什么可以在短短的一年时间内突破这么大体量的蛋白质结构预测呢？这得益于人类在半个世纪积累的 19 万个蛋白质结构的开放共享。如果人类没有把蛋白质结构开放共享出来，就不会有 AlphaFold DB ，也不会有生命科学领域的这一个跨越式的进步。

那么，如果大家都把科学数据攥在手里面，不拿出来跟同行、跟科学家共享又会产生什么样的结果呢？

我们来看两个数据。一个是美国的统计数据，它显示美国每年实验复现失败的年度成本估计是 280 亿美元，这是一个非常惊人的数据。所以今年（2023 年）白宫科技与政策办公室把 2023 年定为了开放科学年，把开放科学数据作为一项重要的工作。

欧洲在开放数据方面起步比较早，实现也比较早。有统计显示，到 2020 年欧盟成员国通过开放数据累积节约成本预计达到 17 亿欧元。

这两个数字可以帮我们直观感受到开放科学数据可以带来巨大的经济效益。

建一所中国的“科学数据银行”

大家可能也好奇，中国的科学家在开放数据上做得怎么样呢？

Springer Nature . 开放获取完全手册(2023)

从最近两年的一些调查研究来看，中国科学家在开放数据、数据共享上是有比较普遍的实践，大概有93%的中国的科研工作者曾经分享过他们的数据。

数据来源：Elsevier

从国际尺度上来看，中国的开放共享科学数据的体量是在逐年递增的，而且在 2020 年超越了美国成为了世界第一。大家可以看图中黄色的柱子，它就代表着中国。

那我们的科学家都是通过什么方式来共享他们的数据呢？通常做法是把数据放在一个专业的数据存储库平台上，依托专业的存储库平台让数据被更多的人看到、下载以及使用。

早些年间，数据存储库平台主要集中在欧美发达国家，我国并没有与国际连通的、可以交流的存储平台。所以我国的科学家通常要把自己的宝贵的科学数据放在国外的平台上。

国外平台的服务是收费的，而且是按存储大小收费的。我们找了一个国外非常知名的存储平台按它的报价表计算了一下，如果我们的科学家要在海外的平台上存储 1 TB 的数据，需要交付 4800 美金，折合人民币大概是 3 万元，还是挺贵的。

除了资金成本之外，还有时间成本上的问题。很多海外的平台在中国是没有存储节点的，意味着数据上传和下载是要跨越洲际传输的，速度会受到很大的限制，kb/s 这样的传输速度时有发生。

所以说，我国的科学家急切需要我们国家自己的一个数据共享平台来节约资金成本和时间成本，满足他们把数据共享给全球的科学家，实现数据流通以及学术交流的诉求。这项工作是非常必要且非常重要的。

我所在的单位中国科学院计算机网络信息中心从 1986 年就开始做科学数据的管理和相关的研究工作了。同时也牵头承担着中国科学院最早的科学数据库项目，到现在中国科学院科学数据总中心的建设任务。所以我们有近 40 年的科学数据管理和实践经验了。

在积累过程中，我们真切地了解到我们国家以及一线的科研工作者在科学数据共享上的迫切需求。这也让我们萌生了想为科学家做点什么解决他们这些急迫需求的想法。

除了科学数据领域，我们单位同时还是中国互联网的诞生地。我们运营着中国科技网，同时也运营着科学家自己的“云”——中国科技云。正是因为有这样的网络能力、存储能力和科学数据的管理能力，我们觉得可以为科学家建设一个这样的存储库。

我们设计的时候在想，给科学家建设的存储库应该是像银行一样：数据放上来，它是安全的、可靠的；它还具有良好的流通性，可以在国际的科学交流和传播过程中发挥更大的价值。所以我们给我们平台起了一个名字——“科学数据银行”。

我们在 2015 年建成了这样的一座银行，并且上线开展服务。图中就是科学数据银行的样子。

它跟货币的银行不一样，它是一排一排的机柜，一台一台的存储设备和一台一台的网络设备。这个银行里面没有办事大厅，没有营业员，主要是通过网站开放给全球的科学家，由他们来我们的站点，自助地把数据上传，也取走他们想要的有用的数据。

我们同时也做了安全性的建设，达到了国家三级等保的标准，实现了我们的网络、服务以及存储 7×24 小时的监控，拥有高级别的数据安保和备份能力。

让银行里的“钱”流动起来

事实上，在完成这些工作之后，离科学家真正在我们的银行上存数据、用数据，还是有一段距离的。

遇到的第一个困难，就是怎么让我们银行里的数据被大家用起来。这就要求数据它本身需要是可用、可被理解的。

大家知道上面的数字是什么意思吗？好像不太行。因为我们不知道这个数据它的测量单位是什么、描述对象是什么、是在什么样的条件下产生的、是否有测量误差、误差范围是多少。那科学家必须知道这样的一些上下文，才能使用数据。

我们可以再看一个具体的、真实的例子。这是我们早期收到的科学家给我们的数据，就是一个 excel 表，什么描述信息都没有。这个数据只有科学家自己知道什么意思，可能过了几年之后，科学家自己也不记得了。所以这样的数据是不符合规范的。

数据共享是有国际原则的。国际上认为良好的科学数据共享应该是可以被便捷地发现，无障碍地被其他人、被同行科学家获取。而且可以被人理解还不够，还要可以被机器理解，可以被重新利用起来。

所以我们团队制定了一套标准化的严格流程，来确保数据从存入、到处理加工、到最后发布都符合可用、可被理解的标准。现在我们平台发布出来的 600 多万的数据都是兼容国际和国内的标准，具有非常好的流通性。

那解决了数据可用、可被理解这件事情之后，我们的数据怎么被全球的科学家发现，这是我们面临的第二个问题。接下来要解决的是数据的全球流通性问题，简单来讲，就是数据国际化的问题。

我们先后跟美国、荷兰、德国以及欧盟的最重要的一些学术平台架设起传播通路。现在全球的科学家都可以在国际上最主要的一些学术传播平台里面检索到我们平台的数据。

那数据仅仅是被检索到还是不够的，最终还是要被科学家下载到他们的计算机和计算环境里面。前面有提到，我们往海外的服务器上传数据的时间成本是非常大的，国外的科学家来我们平台上使用数据或者上传数据也是面临同样的问题。

所以我们在国内建立了 2000 多个节点，优先保证我国科学家的获取数据速率。我们还在海外建立了 500 多个节点，让欧洲、美洲和其他国家的科学家都可以快速地获取我们的数据。

节点运行状态监控

我们对所有的节点进行了一些监控，上面是一个监控图。在伦敦的科学家有时候可能下载速度比在北京的科学家还要快。这是我们在加速访问上的一些工作。

我们也非常自豪，现在我们的数据已经被全球 180 多个国家和地区的科研人员使用了。他们来到我们银行，把数据拿走，用于他们的科研活动和科研创新，这意味着我们的数据被大家用起来了。

我们非常希望科学家可以自愿地把自己宝贵的数据存储在我们的平台上。我们需要解决的是科学家对我们平台信任问题，这其实是非常难跨越的一步。

我们的解决思路是找国际上最顶尖的学术出版商，让他们来对我们进行考核，让他们来说我们的平台是不是可信的平台，是不是可以帮助科学家进行科学数据开放共享。

所以我们在 2020 年开始着手一项申请的工作，联系了国际顶尖的 Springer Nature 出版商对我们平台进行非常严苛的评估，对我们的安全性、标准化、国际化、流通性以及整个团队的软实力等方面进行考核。最终在 2020 年，我们成为了 Springer Nature 向全球作者推荐的通用型科学数据存储库。

我们当时入选的时候，它名单里面有 6 家国际的科学数据存储库平台，我们是第 7 家。在 2021 年这个名单进行了缩减，又砍掉了 1 家。所以现在推荐名单里面是有 6 家存储库。

图中前两排的 3 个平台是美国的存储库平台，第三排的 2 个是欧洲的存储库平台，最后一个 Science Data Bank 科学数据银行就是我们平台。

获得了 Springer Nature 的推荐收录之后，慢慢地，越来越多科学家开始信任我们平台，把数据放在我们的平台上了。我们也陆续获得了 CellPress（《细胞》杂志社）、Elsevier (爱思唯尔）、Taylor & Francis (泰勒-弗朗西斯出版集团) 等顶级出版商推荐认可。

从此以后，我们的科学家发表在顶尖刊物上的学术成果以及背后的支撑数据就可以存储在我们国家自己的存储库平台上了，就不需要再花钱、再花时间送到海外了。

FAST 捕获来自 FRB 121102 的真实脉冲

大家有没有注意到，近年来 FAST 团队有一些非常重量级的成果产出发表在像《自然》《科学》这样的顶级期刊上，这些研究背后的科学数据都存在我们的科学数据银行里面。

渐渐地，也有越来越多海外的科学家团队把数据放在了我们的平台上。比如希腊的一个团队，他们研究睡眠呼吸暂停综合症产生的大概 1 TB 的数据，就存在我们银行。

到目前为止，我们平台已经存储了全球来自 70 多个国家和地区的科研人员的珍贵的科学数据，这也是广大科学家对我们的一份信任，我们也觉得非常荣耀。

未来，更多的可能

我们认为，科学数据银行的服务远不止步于此。那未来的科学数据银行会是什么样子呢？

现在科学数据银行里主要是一些自然科学的数据，我们希望后面的数据可以覆盖更多的学科领域。科学家可以在我们的平台里面进行一些交叉学科的交流和融合，这是服务全领域科学家的一个畅想。

我们的另外一个畅想是，希望有一天数据可以不用走出科学数据银行，直接就连通我们的超算环境，帮助科学家对海量数据进行计算。科学家可以直接拿走他们想要的一些计算结果和数据产品。

事实上这个畅想也不是凭空的，我们中心也有国家级的“东方”超级计算系统，我们也会努力实现这个梦想。

我从 2015 年到现在，一直参与科学数据银行的建设工作，看到越来越多的科学家对我们认可与信任，我们团队也是非常地骄傲和自豪。

我们也会继续努力为更多的科学家做好服务，让我们的科学数据发挥更大的价值，把小“钱”变大“钱”，把死“钱”变活“钱”。

欢迎越来越多的科学家来我们的银行共享他们的数据。

谢谢大家！

本文转载自微信公众号“格致论道讲坛”。

返朴 2023-06-15 08:03 发表于上海

页: [1]

数学中国's Archiver

为了帮科学家省钱省力，我们建了一个全球只有 6 所，中国只有 1 所的“银行”