Processing math: 100%
欢迎访问《中山大学学报(自然科学版)(中英文)》! English Version 维普资讯 中国知网 万方数据
研究论文 | 更新时间:2024-01-25
    • 基于嗅觉受体激活关系模拟的气味感知预测

    • Prediction of olfactory perception based on simulation of olfactory receptor activation relationships

    • 左敏

      ,  

      胡静珺

      ,  

      颜文婧

      ,  

      王瑞东

      ,  

      张青川

      ,  

      范大维

      ,  
    • 中山大学学报(自然科学版)(中英文)   2024年63卷第1期 页码:86-95
    • DOI:10.13471/j.cnki.acta.snus.2023E040    

      中图分类号: Q-31
    • 纸质出版日期:2024-01-25

      网络出版日期:2023-10-23

      收稿日期:2023-08-01

      录用日期:2023-08-22

    扫 描 看 全 文

  • 引用本文

    阅读全文PDF

  • 左敏,胡静珺,颜文婧等.基于嗅觉受体激活关系模拟的气味感知预测[J].中山大学学报(自然科学版)(中英文),2024,63(01):86-95. DOI: 10.13471/j.cnki.acta.snus.2023E040.

    ZUO Min,HU Jingjun,YAN Wengjing,et al.Prediction of olfactory perception based on simulation of olfactory receptor activation relationships[J].Acta Scientiarum Naturalium Universitatis Sunyatseni,2024,63(01):86-95. DOI: 10.13471/j.cnki.acta.snus.2023E040.

  •  
  •  
    论文导航

    摘要

    气味分子与嗅觉受体相互作用是引起气味感知的重要环节,对于揭示气味感知机制具有重要意义。然而,获得气味分子与人类嗅觉受体激活关系的实验性结果耗时耗力,且目前可用的激活关系数据数量不足以支持智能气味感知研究。因此,本研究构建了嗅觉受体蛋白质关系网络,并提取特征来训练气味分子-嗅觉受体激活关系预测模型。在气味感知预测中综合考虑气味分子特征和嗅觉受体蛋白激活模拟关系,实现了对人类气味感知的高精度回归预测。实验结果表明,融合气味分子-嗅觉受体激活关系的人类气味感知预测相关度指标为0.94,明显优于现有的气味感知预测模型。此外,研究还在预测基础上总结了气味分子-嗅觉受体激活-气味感知模式。本研究为气味感知预测引入了可观测的嗅觉受体激活机制特征,为深入探索和理解气味感知机制提供了新思路。

    Abstract

    The interaction between odor molecules and olfactory receptors is a crucial step in olfactory perception and holds significant importance in unraveling the mechanism of olfactory perception. However, obtaining experimental results on the activation relationship between odor molecules and human olfactory receptors is time-consuming and labor-intensive, and the available data on activation relationships is currently insufficient to support intelligent olfactory perception research. Therefore, this study constructed a network of olfactory receptor protein relationships and extracted features to train a model for predicting the activation relationship between odor molecules and olfactory receptors. By integrating the features of odor molecules and the simulated activation relationship of olfactory receptor proteins in olfactory perception prediction, high-precision regression prediction of human olfactory perception was achieved. Experimental results showed that the correlation coefficient of human olfactory perception prediction fused with odor molecule-olfactory receptor activation relationship reached 0.94, significantly outperforming existing olfactory perception prediction models. Additionally, the study summarized the odor molecule-olfactory receptor activation-olfactory perception pattern, enriching our understanding of the mechanism of smell perception. This study introduced observable features of olfactory receptor activation mechanisms into olfactory perception prediction, providing new insights for further exploration and understanding of the mechanism of olfactory perception.

    关键词

    分子特征提取; 蛋白质特征提取; 嗅觉受体激活预测; 气味感知预测; 图卷积; 机器学习

    Keywords

    molecular feature extraction; protein feature extraction; olfactory receptor activation prediction; olfactory perception prediction; graph convolution; machine learning

    人类生理嗅觉系统十分复杂,气味分子和嗅觉受体(ORs, olfactory receptors)在气味感知表现中起着关键性作用。气味分子与嗅觉受体结合并激活嗅觉受体,将气味信号传递给大脑(

    Li et al.,2018),最终,人类对气味信号的感知被转化为相应的描述性词语(Lapid et al.,2011Debnath et al.,2020Francia et al.,2021)。受文化、语言和经验的影响,对于同一个气味分子人们可能会使用不同的感知词进行描述(Majid et al., 2018)。因此,对气味分子的气味感知进行预测是一项极具挑战性的任务。为解决这个问题,近年来智能信息研究领域尝试使用机器学习(ML, machine learning)方法构建气味感知预测模型(Keller et al., 2017),并获得了较好的效果。

    目前大多数的气味感知预测模型都是从分子结构出发预测气味感知,该方式强烈依赖于分子表征(

    Pattanaik et al.,2020)。通常采用的方法是利用计算机表示方法对分子特征进行描述,进而构建机器学习模型。Shang et al. (2017)基于气味分子参数(MPs, molecular parameters),采用支持向量机(SVM, support vector machine)对1 026个分子的10种气味感知实现了正确率为97.08%的预测。Li et al. (2018)同样基于MPs,并采用随机森林算法(RF, random forest)对DREAM(dialogue on reverse engineering assessment and methods)数据集进行气味感知回归预测,气味强度预测的皮尔逊相关性指标达到了近似0.6。Kasyap et al. (2022)采用图神经网络(GNNs, graph neural networks)提取分子结构特征并在DREAM数据集上进行气味感知多分类预测,模型的AUC指标为0.89。

    然而,从生理学机制上看,仅仅考虑分子物化特性无法对气味感知的形成进行解释,相似的分子结构可能产生不同的感知,而不同的分子结构也可能会产生相同的感知。研究者已经对人类嗅觉生理学机制进行揭秘,发现激活的嗅觉受体是气味感知产生的关键(

    Buck,2008)。目前只有少数研究基于气味分子-嗅觉受体激活关系进行气味感知预测。Kowalewski et al. (2020)发现,在气味感知预测任务上,结合嗅觉受体激活特征对气味分子进行感知预测更具优势,可取得更好的效果。

    本研究首先创新性地构建了嗅觉受体蛋白质关系网络,通过引入人类嗅觉受体蛋白之间的复杂关系来学习气味分子和嗅觉受体之间的复杂非线性高维关系。其次,采用图卷积网络,在分子拓扑结构和蛋白质网络结构上提取气味分子和嗅觉受体蛋白质关系网络上的关键特征,在大规模气味感知数据集DREAM上实现对气味感知的精准预测。最后,基于预测的嗅觉受体激活信息,并结合模型正确决策的解释性分析,对气味分子-嗅觉受体活动-气味感知之间的模式进行分析,为人类嗅觉研究提供新的视角。

    1 研究方法

    1.1 研究框架

    本研究首先基于人类嗅觉受体蛋白质关系网络构建嗅觉受体激活预测模型,通过图卷积方法分别提取气味分子和嗅觉受体蛋白的特征。其次,基于嗅觉受体激活预测模型的模拟结果,融合分子摩根指纹,基于DREAM数据集实现对气味感知的回归预测。

    工作流程如图1所示。

    fig

    图1  气味感知预测工作流程图

    Fig.1  Olfactory perception prediction workflow diagram

    icon 下载:  原图 | 高精图 | 低精图

    1.2 蛋白质特征构建

    1.2.1 嗅觉受体蛋白质关系网络构建

    本研究收集了43个经过生物实验验证的确定可以被特定配体激活的人类嗅觉受体(

    Vassar et al.,1993Matarazzo et al.,2005Jacquier et al.,2006Neuhaus et al.,2006Braun et al.,2007Fujita et al.,2007Keller et al.,2007Menashe et al.,2007Schmiedeberg et al.,2007Cook et al.,2009Saito et al.,2009Jaeger et al.,2013Topin et al.,2014Shirasu et al.,2014),采用One-Hot编码表示嗅觉受体蛋白氨基酸序列。嗅觉受体蛋白质三级结构信息有两个不同的来源。经过实验验证的结构来自于Uniport蛋白质数据库,未知的嗅觉受体蛋白质三级结构则采用AlphaFold蛋白质3D结构预测模型进行预测。

    嗅觉受体蛋白质关系网络以嗅觉受体蛋白质作为节点,其氨基酸序列作为节点特征,嗅觉受体蛋白质三级结构的相似关系作为边。根据已获得的嗅觉受体蛋白质三级结构,本研究采用TM-score (template modeling score)方法计算蛋白质之间的相似度。TM-score是一种用于评估蛋白质结构拓扑相似性的指标,通过比较两个蛋白质全局结构的相似性来评估它们的匹配程度,其取值范围介于0到1之间。TM-score低于0.17被认为对应于随机选择的不相关蛋白质(

    Zhang et al.,2004),而大于0.5则表示具有相似的折叠状态(Xu et al.,2010)。 TM-score的计算公式为

    TM-score=max[1LtargetLcommomt11+(dtd0(Ltarget))2] (1)

    其中Ltarget是目标蛋白质的氨基酸序列长度,Lcommom是在模板结构和目标结构中均存在的残基数量,dt是模板和目标结构中第t对残基之间的距离,d0Ltarget)是用来归一化距离的距离尺度。获得嗅觉受体蛋白质三级结构相似度后,可以构建嗅觉受体蛋白质关系网络。

    1.2.2 蛋白质图卷积特征

    图卷积(graph convolution)是一种适用于处理具有节点间关联关系的图数据的卷积操作方法。在本研究中,嗅觉受体蛋白质关系网络表示为Gp=(VpEp),其中节点集合Vp表示嗅觉受体蛋白氨基酸序列集合,边集合Ep表示嗅觉受体蛋白质三级结构之间的相似度集合。每个节点的特征向量定义为vpvp Vp,边的特征向量定义为epep Ep

    嗅觉受体蛋白质关系网络是通过对嗅觉受体蛋白氨基酸序列和嗅觉受体蛋白质三级结构相似度进行编码得到的。嗅觉受体蛋白氨基酸序列被编码为一个具有20种氨基酸和331个序列位置的特征向量,其维度为[20,331],嗅觉受体蛋白质三级结构间相似度被编码为一个维度为1的特征向量。

    蛋白质图卷积特征的构建方法如下:

    Hip是第i层节点的特征表示矩阵,邻接矩阵Ap表示节点间的连接关系,度矩阵DpAp的对角矩阵。图卷积计算公式

    ˜Ap=Ap+Ip , (2)
    ˜Hip=˜D-12p˜Ap˜D-12pHip , (3)

    其中式(2)表示将自环添加到邻接矩阵中,˜Dp表示˜Ap的度矩阵,Ip是单位矩阵。

    对矩阵˜Hip进行线性变换,并应用非线性激活函数σp,得到一个新的特征向量输出为

    Hi+1p=σp(˜HipWip) (4)

    其中Wip是第i层到第i+1层的权重矩阵。

    1.3 分子特征构建

    1.3.1 分子摩根指纹

    在本研究中,任意分子图表示为Gm=(VmEm),其中节点集合Vm表示原子集合,边集合Em表示化学键集合。每个原子的特征向量定义为vmvm Vm,化学键的特征向量定义为emem Em

    摩根指纹(Morgan fingerprints)方法是一种用于描述分子结构的化学指纹方法。它基于分子的拓扑结构,对于节点v通过递归遍历分子的邻居节点u RvRv是与节点v相连的节点集合,并将邻居节点的特征向量进行累积求和。然后,将累积特征向量Fu与连接边的信息Gu,v进行异或操作,并通过哈希函数进行映射,最终得到摩根指纹。摩根指纹计算公式

    Fv=Hash(FuGu,v) , (5)

    1.3.2 分子图卷积指纹

    分子图卷积指纹基于分子拓扑结构进行分子特征提取,分子和化学键的特征基于原子符号、相邻原子、相邻氢原子、隐含价、芳香性以及化学键类型等进行编码。具体如表1所示。

    表1  分子特征向量构成
    Table 1  Molecular feature vector composition
    分子结构特征名编码描述
    原子 原子符号 44维向量
    相邻原子 6维向量
    相邻氢原子 5维向量
    隐含价 6维向量
    芳香性 1维向量
    化学键类型 5维向量
    icon 下载:  CSV icon 下载:  表格图片

    对分子图进行图卷积操作

    Hjm=σm(1cu,vWjmHj-1u+b jm) (6)

    其中Hjm是经过j次图卷积操作后节点v的特征向量,Hj-1uj-1层节点v的邻居节点u Rv的特征向量,Wjmb jm是第j层的权重矩阵和偏置项,cuv是归一化常数,σm是激活函数。

    1.4 预测模型

    1.4.1 SVM

    支持向量机(SVM, support vector machine)是一种常用的监督学习算法,其基本原理是寻找一个最优的超平面,将样本空间分成两个不同类别,并最大化样本与超平面之间的间隔。对每一个样本数据,SVM决策函数

    g(x)SVM = sign(WTSVMx + bSVM) (7)

    其中x是输入样本特征向量,WSVM是决策函数的权重矩阵, bSVM是偏置项,sign是符号函数。

    1.4.2 ELM

    极限学习机(ELM, extreme learning machine)通过随机初始化输入层和输出层之间的权重,然后利用解析解的方式直接计算隐藏层的权重。这使得ELM能够快速地训练神经网络,并在很短的时间内生成准确的预测结果。对每一个样本数据,ELM决策函数

    g(x) ELM= sign(HELM(x)WELM + bELM) (8)

    其中x是输入样本特征向量,HELM(x)是基于输入特征计算得到的隐藏层输出矩阵,WELM是输出层到隐藏层的权重矩阵,bELM是偏置项。

    1.4.3 XGBoost

    XGBoost是一种基于梯度提升树的集成学习算法。它通过迭代训练多个弱分类器(通常是决策树),并将它们组合成一个强大的模型。对全部N个样本数据,XGBoost的目标函数

    Obj(Φ) = Nn=1[LossXGB(yn, ˆyn) + Ω(Φ)] +γQ , (9)

    其中LossXGB (yn,ˆyn)是第n个样本的损失函数,yn是样本n的标签,ˆyn是样本n的预测值,Ω(Φ)表示模型中的每个子模型的正则化项,Q是决策树的个数,γ是正则化系数。

    1.4.4 BP神经网络

    BP(back propagation)人工神经网络模型基于反向传播算法,通过不断调整网络中连接权重和偏置,使网络能够学习输入与输出之间的高维非线性映射关系。

    BP神经网络的标准前向传播公式为

    YkBP=σBP(WkBPYk-1BP+BkBP) (10)

    其中YkBP是第k层的神经元输出矩阵,Yk-1BP是第(k-1)层的神经元输出矩阵,WkBP是第k层的权重矩阵,BkBP是第k层偏置项,σBP是激活函数。

    通过反向传播算法,BP神经网络根据误差信号从输出层反向传播到隐藏层,利用梯度下降法不断调整连接权重和偏置,以最小化损失函数,使得网络输出ˆYBP与真实标签YBP之间的差距尽可能小。训练过程通过不断迭代更新参数来提高模型的预测性能。损失函数

    LossBP=12P(YBP-ˆYBP)2 , (11)

    其中P表示训练样本的个数。

    1.5 SVD-PCA

    基于奇异值分解(SVD, singular value decomposition)的主成分分析(PCA, principal component analysis)是一种常用的降维技术。SVD-PCA的优点是可以处理高维数据,并且对异常值具有较好的鲁棒性。

    给定一个数据矩阵XSP,首先对XSP进行标准化处理获得矩阵X'SP,使得每个特征均值为0,方差为1。然后,对标准化后的数据矩阵进行SVD分解

    X'SP=COST (12)

    其中CO是由SVD计算得到的矩阵,S是由SVD得到的正交矩阵。

    PCA的结果是通过选择奇异值及其对应的左奇异向量来进行降维。主成分矩阵可以通过以下公式计算得到

    Z = X'SPS (13)

    其中Z是降维后的数据矩阵。

    2 实验过程

    2.1 实验数据集

    2.1.1 数据库1:气味分子-嗅觉受体激活关系数据库

    本文基于现有发表文献建立气味分子-嗅觉受体激活关系数据库,所有数据都来自于截至在2023年7月之前Web of Science数据库中收录的文献。数据库共收集了43个人类嗅觉受体,以及它们对选定的170个化合物的254条激活关系和61条非激活关系数据。

    2.1.2 数据库2:气味分子-气味感知关系数据库

    DREAM数据集使用包括强度、愉悦度和熟悉度在内的23个感知定义气味感知。数据集包括49名健康参与者(没有专业气味感知训练)对476种气味分子产生的21种气味感知数据,评分范围为0~100。本研究选用标记为“高浓度”的数据共405条。

    2.2 嗅觉受体激活预测模型训练

    嗅觉受体激活预测XGBoost模型参数设置如表2所示。

    表2  XGBoost模型参数调节范围1)
    Table 2  Parameter adjustment range of XGBoost model
    训练参数参数值
    学习率 0.3 0.4 0.5]
    随机种子 [5 10 20
    迭代次数 [100 500 1 000

    1)加粗数据为最终选定参数。

    icon 下载:  CSV icon 下载:  表格图片

    模型评价指标选取准确率(accuracy)、F1-score、受试者工作特征(ROC, receiver operating characteristic curve)的曲线下面积(AUC, area under the curve)。

    2.3 气味感知预测模型训练

    气味感知预测模型训练采用5折交叉验证,即将数据划分为大致相等的5个子数据集,依次采用不同数据集作为训练集和测试集。取5次训练平均精度的平均值即得到模型精度,这样得到的模型精度更具有泛化性。

    气味感知预测BP模型参数设置如表3所示。

    表3  BP模型参数调节范围1)
    Table 3  Parameter adjustment range of BP model
    训练参数参数值
    隐藏层神经元个数 [25 40 55 100 200]
    学习率 [0.001 0.005 0.009 1]
    迭代次数 [50 100 150 200 400]
    批量大小 1 2 3]

    1) 加粗数据为最终选定参数。

    icon 下载:  CSV icon 下载:  表格图片

    模型评价指标选取R2-score、皮尔逊相关性、均方根误差(RMSE, root mean square erro)。

    3 实验结果与分析

    3.1 嗅觉受体蛋白质关系网络

    本研究使用嗅觉受体蛋白质关系网络中100%的相似度、前70%的相似度、前50%相似度网络关系,获取相关网络性质指标,并使用基于模块度的社区发现算法分析网络的模块性(

    Blondel et al.,2008)。分析如表4所示。本研究基于相似度排名前50%的数据绘制出嗅觉受体蛋白质关系网络图(图2)。使用相似度排名前50%的网络呈现出明显的3个子模块,且不存在孤立节点。属于同一模块的嗅觉受体具有相似的蛋白质结构,比如,图2中嗅觉受体OR2J3与OR2J2同属于一个社区模块,同时,研究也证实它们是人类嗅觉受体中最为相似的嗅觉受体对之一(Crasto et al.,2002)。

    表4  嗅觉受体蛋白质关系网络概览
    Table 4  Network overview of olfactory receptor protein relationship
    网络参数相似度/%
    前50前75100
    平均度数 20.98 30.28 40.51
    平均加权度 17.19 22.02 25.47
    社区数量 3 3 3
    模块度 0.11 0.08 0.05
    icon 下载:  CSV icon 下载:  表格图片
    fig

    图2  嗅觉受体蛋白质关系网络(前50%)

    Fig.2  Olfactory receptor protein relationship network (Top 50%)

    icon 下载:  原图 | 高精图 | 低精图

    3.2 基于不同特征提取方式的嗅觉受体激活预测结果比较

    分子的表征方式在化学领域中尚未形成统一的标准,不同的表征方法各具优势和局限性。本文对气味分子和嗅觉受体蛋白分别采用了两种不同的特征提取方法,并进行对比实验。结果如表5所示。结果表明,当分别使用图卷积进行分子特征和嗅觉受体蛋白氨基酸序列特征提取时,采用XGBoost算法实现了最佳的嗅觉受体激活预测效果,准确率为77%,F1-score为0.78,AUC值为0.77。4种特征提取方式AUC比较结果如图3所示。

    表5  不同分子特征提取方式组合在数据库1上的准确率、 F1-score和AUC
    Table 5  Accuracy, F1-score, and AUC of different feature extraction methods for database 1

    特征组合

    (嗅觉受体特征&分子特征)

    训练集验证集
    准确率/%F1-scoreAUC准确率/%F1-scoreAUC

    特征组合1

    (One-hot编码&摩根指纹)

    100 1 1 68 0.72 0.68

    特征组合2

    (One-hot编码&图卷积分子指纹)

    100 1 1 72 0.73 0.72

    特征线组合3

    (图卷积&摩根指纹)

    99 0.99 0.99 76 0.77 0.76

    特征组合4

    (图卷积&图卷积分子指纹)

    100 1 1 77 0.78 0.77
    icon 下载:  CSV icon 下载:  表格图片
    fig

    图3  不同特征提取方式组合的ROC曲线及AUC值

    Fig.3  ROC curves and AUC values of different feature extraction methods

    icon 下载:  原图 | 高精图 | 低精图

    3.3 基于不同分类器的嗅觉受体激活预测模型比较

    基于图卷积特征提取,本文采用XGBoost、SVM以及ELM 3种机器学习方法进行嗅觉受体激活预测,并进行对比实验,结果如表6所示。实验结果表明,XGBoost算法在气味分子-嗅觉受体激活关系数据库上表现结果最优,准确率为77%,F1-score为0.78,AUC为0.77。3种分类器的嗅觉受体激活预测模型AUC比较结果如图4所示。

    表6  不同分类器的嗅觉受体激活预测模型在数据库1的准确率、F1-score和AUC
    Table 6  Accuracy, F1-score and AUC of olfactory receptor activation prediction models for different classifiers on database 1
    特征组合训练集验证集
    准确率/%F1-scoreAUC准确率/%F1-scoreAUC
    XGBoost 100 1 1 77 0.78 0.77
    ELM 58 0.67 0.57 51 0.57 0.55
    SVM 70 0.72 0.7 48 0.48 0.49
    icon 下载:  CSV icon 下载:  表格图片
    fig

    图4  不同分类器的嗅觉受体激活预测模型的ROC曲线和AUC值

    Fig.4  ROC curves and AUC values of olfactory receptor activation prediction models for different classifiers

    icon 下载:  原图 | 高精图 | 低精图

    3.4 气味感知预测结果比较

    本研究在嗅觉受体激活预测模型的基础上,对DREAM数据集中的化合物与43个嗅觉受体的激活关系进行预测,将获得的新气味分子-嗅觉受体激活关系作为分子特征应用于气味感知预测模型。在数据集和回归预测模型相同的情况下,引入气味分子-嗅觉受体激活关系进行气味感知预测结果明显优于仅基于分子结构进行气味感知预测。实验结果说明在进行气味感知预测时,考虑嗅觉受体的活动情况是必要的。实验结果如表7所示。

    表7  不同特征提取方式在DREAM数据集上的R2-score、 r和RMSE
    Table 7  R2-score, r and RMSE on the DREAM dataset with different feature extraction methods
    特征提取方式训练集验证集
    R2-scorerRMSER2-scorerRMSE
    摩根指纹 0.91 0.96 0.05 0.87 0.93 0.06
    分子图卷积指纹 0.79 0.89 0.07 0.79 0.89 0.07
    摩根指纹&激活关系 0.92 0.96 0.04 0.87 0.94 0.05
    分子图卷积指纹&激活关系 0.82 0.91 0.07 0.81 0.90 0.07
    icon 下载:  CSV icon 下载:  表格图片

    在3.3节中,对于嗅觉受体激活预测任务,图卷积特征提取方法明显优于摩根指纹特征提取。然而,在本节的气味感知预测任务中,摩根指纹方法表现更优。这是由于图卷积方法和摩根指纹方法对分子特征表达方式不同造成的。图卷积方法基于图结构进行特征提取,考虑了原子之间的连接关系,在捕捉分子的全局信息上具有优势。而摩根指纹根据分子的物理化学性质进行有效编码,更擅长总结分子的理化特征(Cereto-Massagué et al.,2015;

    Duvenaud et al.,2015Kipf et al.,2016)。

    3.5 气味分子-嗅觉受体激活-气味感知模式

    本研究通过嗅觉受体蛋白质关系网络,整合了DREAM数据集和气味分子-嗅觉受体激活关系信息。采用基于奇异值分解的主成分分析方法对嗅觉受体在特定气味感知中的贡献进行分析。嗅觉受体对21种气味感知的贡献度归一化后的结果如图5所示。大部分嗅觉受体会对特定气味感知产生较高的贡献度(

    Audouze et al.,2014)。

    fig

    图5  嗅觉受体对气味感知贡献度

    Fig.5  Olfactory receptor contribution to olfactory perception

    icon 下载:  原图 | 高精图 | 低精图

    此外,本研究采用密度聚类算法(

    Campello et al.,2020),对来自DREAM数据集的405个气味分子的43个嗅觉受体激活特征进行聚类,将分子分为4个类别,并绘制了气味分子-嗅觉受体激活-气味感知模式图。如图6所示,产生激活关系少于20条的嗅觉受体并没有被绘制,DREAM数据集中气味感知评分低于5分的气味感知描述词没有被绘制。

    fig

    图6  气味分子-嗅觉受体激活-气味感知模式

    Fig.6  Odor molecule-olfactory receptor activation-olfactory pattern

    icon 下载:  原图 | 高精图 | 低精图

    研究结果表明,经由气味分子-嗅觉受体激活关系对分子进行分类在气味感知上出现了明显的模式上的不同。例如,“腐烂(decayed)”只与第1类分子激活的3个嗅觉受体相连;“花(flower)”只与第4类分子激活的4个嗅觉受体相连等,本研究部分结果与已得到的生物实验结果验证一致(

    Chaput et al.,2012; El Mountassir et al.,2016; Keller et al.,2016)。本研究同时尝试了使用SMILES分子表达式和摩根指纹对分子进行聚类,所获得的结果难以提取出明显的气味分子-嗅觉受体激活-气味感知模式。

    4 结 语

    本研究旨在提出一种基于数据驱动方法的气味感知预测和分析的新解决方案。首先,构建了嗅觉受体蛋白质关系网络,采用图卷积方法以获得更全面有效的嗅觉受体蛋白特征。在嗅觉受体激活关系数据的基础上,构建了嗅觉受体激活预测模型。其次,面向DREAM数据集并引入其嗅觉受体激活数据,以提供必要的生理信息补充,实现对气味分子感知的精准预测。最后,对模型形成的正确决策机制进行解释分析,并总结了气味分子-嗅觉受体激活-气味感知模式。研究结果表明,综合考虑气味分子特征和气味分子-嗅觉受体激活关系构建预测模型,能够获得更好的预测结果,并获得对人类气味感知模式的有效总结。

    尽管研究结果仍需要进一步验证,但本研究为进一步探索和理解气味感知机制提供了有价值的参考和启示。未来的工作将面向更多的气味感知数据集进一步优化模型,基于数据驱动技术进一步学习气味分子与嗅觉受体激活的对接模型,为气味感知的预测提供更多有用的信息,进一步推进人类嗅觉机理研究。

    参考文献

    AUDOUZE KTROMELIN Ale BON A Met al2014. Identification of odorant-receptor interactions by global mapping of the human odorome[J].PLoS One94): e93037. [百度学术] 

    BLONDEL V DGUILLAUME J LLAMBIOTTE Ret al2008. Fast unfolding of communities in large networks[J]. J Stat Mech200810): P10008. [百度学术] 

    BRAUN TVOLAND PKUNZ Let al2007. Enterochromaffin cells of the human gut: Sensors for spices and odorants[J]. Gastroenterology1325): 1890-1901. [百度学术] 

    BUCK L B2008. Olfactory receptors and odor coding in mammals[J]. Nutr Rev62S184-S188. [百度学术] 

    CAMPELLO R J G BKRÖGER PSANDER Jet al2020. Density-based clustering[J]. Wiley Interdiscip Rev Data Min Knowl Discov102): e1343. [百度学术] 

    CERETO-MASSAGUÉ AOJEDA M JVALLS Cet al2015. Molecular fingerprint similarity search in virtual screening[J]. Methods7158-63. [百度学术] 

    CHAPUT M AEL MOUNTASSIR FATANASOVA Bet al2012. Interactions of odorants with olfactory receptors and receptor neurons match the perceptual dynamics observed for woody and fruity odorant mixtures[J]. Eur J Neurosci354): 584-597. [百度学术] 

    COOK B LSTEUERWALD DKAISER Let al2009. Large-scale production and study of a synthetic G protein-coupled receptor: Human olfactory receptor 17-4[J]. Proc Natl Acad Sci USA10629): 11925-11930. [百度学术] 

    CRASTO CMARENCO LMILLER Pet al2002. Olfactory Receptor Database: A metadata-driven automated population from sources of gene and protein sequences[J]. Nucleic Acids Res301): 354-360. [百度学术] 

    DEBNATH TNAKAMOTO T2020. Predicting human odor perception represented by continuous values from mass spectra of essential oils resembling chemical mixtures[J]. PLoS One156): e0234688. [百度学术] 

    DUVENAUD D KMACLAURIN DAGUILERA-IPARRAGUIRRE Jet al2015. Convolutional networks on graphs for learning molecular fingerprints[J/OL]. arXiv:1509.09292v2. [百度学术] 

    EL MOUNTASSIR FBELLOIR CBRIAND Let al2016. Encoding odorant mixtures by human olfactory receptors[J]. Flavour Fragr J315): 400-407. [百度学术] 

    FRANCIA SLODOVICHI C2021. The role of the odorant receptors in the formation of the sensory map[J]. BMC Biol191): 174. [百度学术] 

    FUJITA YTAKAHASHI TSUZUKI Aet al2007. Deorphanization of Dresden G protein-coupled receptor for an odorant receptor[J]. J Recept Signal Transduct274): 323-334. [百度学术] 

    JACQUIER VPICK HVOGEL H2006. Characterization of an extended receptive ligand repertoire of the human olfactory receptor OR17-40 comprising structurally related compounds[J]. J Neurochem972): 537-544. [百度学术] 

    JAEGER SMcRAE JBAVA Cet al2013. A Mendelian trait for olfactory sensitivity affects odor experience and food selection[J]. Curr Biol2316): 1601-1605. [百度学术] 

    KASYAP V L V S K BBHAGAVAN V SJAGADEESH M S2022. Graph neural networks based model for aroma prediction using molecular structures[C]//IEEE 3rd GCATBangalore, India1-6. [百度学术] 

    KELLER AGERKIN R CGUAN Yet al2017. Predicting human olfactory perception from chemical features of odor molecules[J]. Science3556327): 820-826. [百度学术] 

    KELLER AVOSSHALL L B2016. Olfactory perception of chemically diverse molecules[J]. BMC Neurosci171): 1-17. [百度学术] 

    KELLER AZHUANG HCHI Qet al2007. Genetic variation in a human odorant receptor alters odour perception[J]. Nature4497161): 468-472. [百度学术] 

    KIPF T NWELLING M2016. Semi-supervised classification with graph convolutional networks [EB/OL]. arXiv:1609.02907. [百度学术] 

    KOWALEWSKI JRAY A2020. Predicting human olfactory perception from activities of odorant receptors[J]. iScience238): 101361. [百度学术] 

    LAPID HSHUSHAN SPLOTKIN Aet al2011. Neural activity at the human olfactory epithelium reflects olfactory perception[J].Nat Neurosci1411): 1455-1461. [百度学术] 

    LI HPANWAR BOMENN G Set al2018. Accurate prediction of personalized olfactory perception from large-scale chemoinformatic features[J]. Gigascience72): gix127. [百度学术] 

    MAJID AKRUSPE N2018. Hunter-gatherer olfaction is special[J]. Curr Biol283): 409-413. [百度学术] 

    MATARAZZO VCLOT-FAYBESSE OMARCET Bet al2005. Functional characterization of two human olfactory receptors expressed in the baculovirus Sf9 insect cell system[J]. Chem Senses303): 195-207. [百度学术] 

    MENASHE IABAFFY THASIN Yet al2007. Genetic elucidation of human hyperosmia to isovaleric acid[J]. PLoS Biol511): e284. [百度学术] 

    NEUHAUS E MMASHUKOVA AZHANG Wet al2006. A specific heat shock protein enhances the expression of mammalian olfactory receptor proteins[J]. Chem Senses315): 445-452. [百度学术] 

    PATTANAIK LCOLEY C W2020. Molecular representation: Going long on fingerprints[J]. Chem66): 1204-1207. [百度学术] 

    SAITO HCHI QZHUANG Het al2009. Odor coding by a Mammalian receptor repertoire[J]. Sci Signal260): ra9. [百度学术] 

    SCHMIEDEBERG KSHIROKOVA EWEBER H Pet al2007. Structural determinants of odorant recognition by the human olfactory receptors OR1A1 and OR1A2[J]. J Struct Biol1593): 400-412. [百度学术] 

    SHANG LLIU CTOMIURA Yet al2017. Machine-learning-based olfactometer: Prediction of odor perception from physicochemical features of odorant molecules[J]. Anal Chem891199912005. [百度学术] 

    SHIRASU MYOSHIKAWA KTAKAI Yet al2014. Olfactory receptor and neural pathway responsible for highly selective sensing of musk odors[J]. Neuron811): 165-178. [百度学术] 

    TOPIN Jde MARCH C ACHARLIER Let al2014. Discrimination between olfactory receptor agonists and non-agonists[J]. Chem - A Eur J2033): 10227-10230. [百度学术] 

    VASSAR RNGAI JAXEL R1993. Spatial segregation of odorant receptor expression in the mammalian olfactory epithelium[J]. Cell742): 309-318. [百度学术] 

    XU JZHANG Y2010. How significant is a protein structure similarity with TM-score = 0.5?[J].Bioinformatics267): 889-895. [百度学术] 

    ZHANG YSKOLNICK J2004. Scoring function for automated assessment of protein structure template quality[J]. Proteins Struct Funct Bioinform574): 702-710. [百度学术] 

    262

    浏览量

    294

    下载量

    0

    CSCD

    文章被引用时,请邮件提醒。
    提交
    工具集
    下载
    参考文献导出
    分享
    收藏
    添加至我的专辑

    相关文章

    基于机器学习的地下溶洞空间形态对地面沉降影响的分析与预测
    基于CFSv2产品和机器学习的东江流域月降水预报
    基于图卷积记忆网络对珠海臭氧时空预测
    基于心率变异性与机器学习的睡眠呼吸事件分类

    相关作者

    颜文婧
    高燕
    吴晓东
    田嘉逸
    陈润庭
    庄胜杰
    王大刚
    林泳恩

    相关机构

    中山大学地球科学与工程学院
    南方海洋科学与工程广东省实验室
    中山大学地理科学与规划学院
    广东省粤北岩溶区碳水耦合野外科学观测研究站
    珠海市公共气象服务中心
    0