封存数世纪的植物标本可能包含人类还未发现的新物种,但由于目前还未实现完全数字化,人工鉴别归类植物标本不仅成本高,而且速度慢。

现在,用深度学习算法可以识别植物标本的扫描图片,并判断它是否为还未被记录的新物种。

 

这项成果的研究人员来自哥斯达黎加技术研究所和法国农业发展国际研究中心。昨天,Erick Mata-Montero与Pierre Bonnet等人在学术期刊《BMC Evolutionary Biology》发表了题为《Going deeper in the automated identification of Herbarium specimens》论文。

这是研究人员首次尝试用深度学习解决植物的分类问题。

世界上约有3000个标本博物馆,包含了约3.5亿个标本,其中仅有一小部分实现了数字化。

 

 数字化的植物标本打开了研究人员从世界各地收集标本的新世界

研究人员在26万张标本扫描图像上训练了一种新算法,教算法理解物种分类,之后将训练结果与专家的判定做对比。这个训练图像集中包含了1000多个物种,算法的准确度达到了80%。

还有个意外惊喜。研究人员发现,在法国标本图像上训练的算法,拿到巴西也有效。这种迁移学习的技能避免了很多重复训练。

因为植物标本和新鲜植物看起来差别很大,目前,该算法还无法鉴别新鲜植物的种类。“看来植物学家暂时还不会失业。”外媒Tech Crunch调侃。

最后,附论文链接:

https://bmcevolbiol.biomedcentral.com/articles/10.1186/s12862-017-1014-z