阅读笔记--TAPE--NIPS2019-白红宇

阅读笔记--TAPE--NIPS2019

阅读量：279 次

发布时间：2019-03-01

本文共 2264 字，大约阅读时间需要 7 分钟。

阅读笔记

概要

蛋白质表示学习是机器学习研究的一个重要方向。由于获取监督蛋白质标签的成本较高，而蛋白质数据集和标准化评价技术较为零散，半监督学习成为蛋白质表示学习的重要研究范式。为了推动该领域的发展，作者提出了评估蛋白质嵌入的任务（TAPE），这是一个包含五个与生物学相关的半监督学习任务的集合。作者将任务划分为特定的训练、验证和测试三种类型，以确保每个任务都能有效评估与生物学相关的泛化能力，并将其应用于实际场景。作者对现有的半监督蛋白质表示学习方法进行了基准测试，这些方法涵盖了最新的研究成果以及典型的序列学习技术。实验结果表明，自我监督的预训练对大多数任务的模型性能具有显著提升作用，在某些情况下甚至使性能提升一倍。然而，在某些任务中，通过自监督预训练获得的特征仍然低于由先进非神经技术提取的特征。这表明，创新的模型架构设计和改进的建模模式具有巨大的潜力，能够更好地捕捉生物序列中的关键信号。作者根据蛋白质生物学研究中可以通过自监督学习带来的提升（如结构预测、远程同源检测和蛋白质工程）选择了三个监督任务。

背景

蛋白质的本质是由氨基酸通过共价键形成的多肽链。氨基酸有20种标准类型（如亮氨酸、苯丙氨酸等），以及少数非标准类型（如硒代半胱氨酸、吡咯赖氨酸等）。蛋白质的结构可以分为一级、二级、三级和四级结构。其中，一级结构是氨基酸序列的排列顺序，二级结构由氨基酸之间的C=O和N-H键形成的α螺旋、β折叠等元素构成，三级结构描述蛋白质在三维空间中的全局构型，四级结构则描述多肽链间的相互作用。了解一级序列如何折叠形成三级结构是生物化学的重要研究课题。

远程同源性检测是研究蛋白质进化关系的重要任务。同源蛋白具有相似的氨基酸序列，尽管序列差异可能较大。通过序列比对，可以量化进化关系。作者采用序列识别的方法，测量蛋白质比对子序列之间精确氨基酸匹配的百分比，例如以25%的序列同一性阈值进行过滤。序列比对技术在计算生物学中是建模进化关系的重要工具，常用隐马尔可夫模型（Hidden Markov Model）或其他评分系统进行蛋白质比对。

半监督学习

半监督学习通过利用未标记数据的结构信息来学习模型参数，具有较低的数据需求和预训练成本。在蛋白质表示学习中，半监督学习的任务定义通常基于序列预测或掩盖任务。作者认为，这种自监督的预训练能够有效捕捉蛋白质序列中的重要特征。