本文共 2264 字,大约阅读时间需要 7 分钟。
阅读笔记
概要
蛋白质表示学习是机器学习研究的一个重要方向。由于获取监督蛋白质标签的成本较高,而蛋白质数据集和标准化评价技术较为零散,半监督学习成为蛋白质表示学习的重要研究范式。为了推动该领域的发展,作者提出了评估蛋白质嵌入的任务(TAPE),这是一个包含五个与生物学相关的半监督学习任务的集合。作者将任务划分为特定的训练、验证和测试三种类型,以确保每个任务都能有效评估与生物学相关的泛化能力,并将其应用于实际场景。作者对现有的半监督蛋白质表示学习方法进行了基准测试,这些方法涵盖了最新的研究成果以及典型的序列学习技术。实验结果表明,自我监督的预训练对大多数任务的模型性能具有显著提升作用,在某些情况下甚至使性能提升一倍。然而,在某些任务中,通过自监督预训练获得的特征仍然低于由先进非神经技术提取的特征。这表明,创新的模型架构设计和改进的建模模式具有巨大的潜力,能够更好地捕捉生物序列中的关键信号。作者根据蛋白质生物学研究中可以通过自监督学习带来的提升(如结构预测、远程同源检测和蛋白质工程)选择了三个监督任务。
背景
蛋白质的本质是由氨基酸通过共价键形成的多肽链。氨基酸有20种标准类型(如亮氨酸、苯丙氨酸等),以及少数非标准类型(如硒代半胱氨酸、吡咯赖氨酸等)。蛋白质的结构可以分为一级、二级、三级和四级结构。其中,一级结构是氨基酸序列的排列顺序,二级结构由氨基酸之间的C=O和N-H键形成的α螺旋、β折叠等元素构成,三级结构描述蛋白质在三维空间中的全局构型,四级结构则描述多肽链间的相互作用。了解一级序列如何折叠形成三级结构是生物化学的重要研究课题。
远程同源性检测是研究蛋白质进化关系的重要任务。同源蛋白具有相似的氨基酸序列,尽管序列差异可能较大。通过序列比对,可以量化进化关系。作者采用序列识别的方法,测量蛋白质比对子序列之间精确氨基酸匹配的百分比,例如以25%的序列同一性阈值进行过滤。序列比对技术在计算生物学中是建模进化关系的重要工具,常用隐马尔可夫模型(Hidden Markov Model)或其他评分系统进行蛋白质比对。
半监督学习
半监督学习通过利用未标记数据的结构信息来学习模型参数,具有较低的数据需求和预训练成本。在蛋白质表示学习中,半监督学习的任务定义通常基于序列预测或掩盖任务。作者认为,这种自监督的预训练能够有效捕捉蛋白质序列中的重要特征。
相关工作
蛋白质建模的主要基准是结构预测任务(如CASP竞赛),但作者认为单独的结构预测不足以作为基准,因此增加了远程同源检测和荧光景观预测等任务。
数据集
Pfam数据集是蛋白质家族数据库,包含3100万个蛋白质结构域。作者使用Pfam作为TAPE任务的预训练语料库。监督数据集包含五个生物学相关任务,训练集、验证集和测试集的大小在8000到50000个样本之间变化。
任务1:二级结构预测
定义:输入一个氨基酸序列,输出每个位置的二级结构标签(如α螺旋、β折叠等)。这是一种Seq2Seq任务,目标是预测蛋白质中氨基酸之间的二级结构信息。
影响:二级结构是理解蛋白质功能的重要特征,特别是在目标蛋白质与已知结构蛋白质在进化上不相关时。
泛化:该任务通常用于为更高级别模型创建更丰富的输入特征。数据分割以25%的序列一致性为阈值进行过滤,以测试模型的泛化能力。
指标:以CB513数据集为例,输出准确率。
任务2:接触预测
定义:输入一个蛋白质序列,输出成对氨基酸之间的接触信息(距离小于8埃)。这是一个成对预测任务,用于建模蛋白质的三维结构。
影响:接触信息提供了全局结构特征,尤其是中远距离接触对蛋白质的稳定性建模具有重要意义。
泛化:任务通常以30%的序列同一性为阈值进行数据分割。
指标:在ProteinNet CASP12测试集上报告中远程接触的L/5预测的准确度。
任务3:远程同源性检测
定义:输入一个蛋白质序列,输出其所属的折叠类型。该任务是一个序列分类问题,目标是评估模型对远程同源结构的理解能力。
影响:远程同源性检测在微生物学和医学研究中具有重要应用价值。
泛化:任务通过训练集支持整个进化组,迫使模型对远距离进化差异进行归纳。
指标:在对应数据集上的分类准确度。
任务4:荧光景观预测
定义:输入一个蛋白质序列,输出其荧光强度的对数值。该任务是一个回归任务,用于测试模型区分相似输入的能力。
影响:荧光预测任务特别适合评估模型对未见突变的泛化能力。
指标:以斯皮尔曼秩相关系数(Spearman's rank correlation coefficient)为度量。
任务5:稳定性景观预测
定义:输入一个蛋白质序列,输出其在极端条件下的折叠稳定性。该任务是一个回归任务,目标是测量蛋白质的内在稳定性。
影响:蛋白质稳定性是药物设计和生物技术研究中的重要课题。
指标:输出的稳定性值与实验测定值的比较。
模型与实验设置
损失函数
作者采用了双向的token预测损失函数和masked-token预测损失函数。具体而言,预测下一个token或掩盖token的模型输出作为损失函数。
模型架构
作者评估了多种模型架构,包括Transformer、LSTM和ResNet等。这些模型的参数量和架构设计均经过优化。实验结果表明,预训练模型(如Transformer)在大多数任务中表现优于未经预训练的模型。
实验结果
作者通过多个基线模型(如氨基酸序列的one-hot编码和基于比对的特征)进行对比实验,验证了自监督预训练方法的有效性。
转载地址:http://zooa.baihongyu.com/