一种新的计算技术可以更容易地设计有用的蛋白质

2024-04-08 16:41:03 来源：用户：

为了设计具有有用功能的蛋白质，研究人员通常从具有所需功能(例如发射荧光)的天然蛋白质开始，然后对其进行多轮随机突变，最终生成优化的蛋白质版本。

这个过程产生了许多重要蛋白质的优化版本，包括绿色荧光蛋白(GFP)。然而，事实证明，为其他蛋白质生成优化版本很困难。麻省理工学院的研究人员现已开发出一种计算方法，可以更轻松地根据相对少量的数据预测突变，从而产生更好的蛋白质。

利用这个模型，研究人员生成了带有突变的蛋白质，这些突变预计会导致GFP的改进版本，以及来自腺相关病毒(AAV)的蛋白质，该蛋白质用于传递用于基因治疗的DNA。他们希望它也可以用于开发用于神经科学研究和医学应用的其他工具。

“蛋白质设计是一个难题，因为从DNA序列到蛋白质结构和功能的映射非常复杂。序列中可能有10个变化，但每个中间变化可能对应于一个完全无功能的蛋白质。这就像在山脉中寻找通往河流盆地的路，而沿途有崎岖的山峰挡住了你的视线。目前的工作试图让河床更容易被发现。”麻省理工学院脑与认知科学教授、麻省理工学院麦戈文脑研究所成员、K.LisaYang综合计算神经科学中心主任IlaFiete说道。该研究的资深作者之一。

麻省理工学院人工智能与健康工程学院杰出教授ReginaBarzilay和麻省理工学院电气工程和计算机科学ThomasSiebel教授TommiJaakkola也是一篇关于这项工作的开放获取论文的高级作者，该论文将在五月在国际学习代表会议上发表。麻省理工学院的研究生AndrewKirjner和JasonYim是这项研究的主要作者。其他作者包括麻省理工学院博士后ShaharBracha和捷克技术大学研究生RamanSamusevich。

优化蛋白质

许多天然存在的蛋白质具有可用于研究或医学应用的功能，但它们需要一些额外的工程来优化它们。在这项研究中，研究人员最初感兴趣的是开发可在活细胞中用作电压指示器的蛋白质。这些蛋白质由一些细菌和藻类产生，当检测到电势时会发出荧光。如果设计用于哺乳动物细胞，这种蛋白质可以让研究人员在不使用电极的情况下测量神经元活动。

尽管数十年来的研究一直致力于改造这些蛋白质以在更快的时间尺度上产生更强的荧光信号，但它们还没有变得足够有效以供广泛使用。布拉查在麦戈文研究所爱德华·博伊登的实验室工作，他联系了菲特的实验室，看看他们是否可以合作开发一种计算方法，以帮助加快蛋白质的优化过程。

“这项工作体现了人类的偶然性，而这种偶然性是众多科学发现的特征，”菲特说。“它源于杨坦集体静修会，这是一次由来自麻省理工学院多个中心的研究人员参加的科学会议，他们有着不同的使命，并在K.LisaYang的共同支持下统一起来。我们了解到，我们在模拟大脑如何学习和优化方面的一些兴趣和工具可以应用于完全不同的蛋白质设计领域，正如博伊登实验室所实践的那样。”

对于研究人员可能想要优化的任何给定蛋白质，通过在序列中的每个点交换不同的氨基酸可以生成几乎无限数量的可能序列。由于有如此多的可能变体，不可能对所有变体进行实验测试，因此研究人员转向计算模型来尝试预测哪些变体最有效。

在这项研究中，研究人员着手克服这些挑战，利用GFP的数据开发和测试可以预测更好版本的蛋白质的计算模型。

他们首先在由GFP序列及其亮度组成的实验数据上训练一种称为卷积神经网络(CNN)的模型，这是他们想要优化的特征。

该模型能够基于相对少量的实验数据(来自大约1,000个蛋白质变体)创建一个“适应度景观”——一个三维图，描述给定蛋白质的适应度以及它与原始序列的差异程度。绿色荧光蛋白)。

这些景观包含代表更适合的蛋白质的峰和代表不太适合的蛋白质的谷。预测蛋白质达到适应度峰值所需遵循的路径可能很困难，因为蛋白质通常需要经历突变，使其在达到附近的更高适应度峰值之前变得不太适应。为了克服这个问题，研究人员使用现有的计算技术来“平滑”健身景观。

一旦地形中的这些小凹凸变得平滑，研究人员就重新训练CNN模型，发现它能够更轻松地达到更大的适应度峰值。该模型能够预测优化的GFP序列，这些序列与最初的蛋白质序列相比具有多达7个不同的氨基酸，并且这些蛋白质中最好的蛋白质估计比原始蛋白质更适合2.5倍左右。

“一旦我们有了代表模型认为附近的景观，我们就会对其进行平滑处理，然后在更平滑的景观版本上重新训练模型，”Kirjner说。“现在从起点到终点有一条平滑的路径，模型现在可以通过迭代地进行小的改进来达到终点。对于不平滑的景观来说，同样的情况通常是不可能的。”

概念验证

研究人员还表明，这种方法在识别腺相关病毒(AAV)病毒衣壳的新序列方面效果很好，腺相关病毒是一种通常用于传递DNA的病毒载体。在这种情况下，他们优化了衣壳，使其能够包装DNA有效负载。

Bracha说：“我们使用GFP和AAV作为概念验证，以表明这是一种适用于特征非常明确的数据集的方法，因此，它应该适用于其他蛋白质工程问题。”。

研究人员现在计划将这种计算技术用于Bracha在电压指示蛋白上生成的数据。

“数十个实验室已经在这方面进行了二十年的研究，但仍然没有更好的办法，”她说。“希望现在随着更小的数据集的生成，我们可以在计算机中训练模型并做出比过去二十年的手动测试更好的预测。”

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！