用循环神经网络改进密码子优化

629 阅读6分钟

背景介绍

重组DNA技术为生物医学研究提供了重大突破--从廉价的胰岛素生产到肝炎疫苗。截至2022年,重组治疗市场的价值超过28 亿美元,预计到2029年将翻一番(来源:Coherent Market Insights)。

分子生物学的核心教条指出,DNA被转录成RNA,然后被翻译成蛋白质。这个想法一直是重组技术研究的基础,使我们能够设计质粒(见另一个用于DNA组装的莱迪思工具 repp)并表达我们选择的蛋白质。

各种因素影响着重组蛋白的表达水平,包括表达载体的选择、启动子和密码子的偏向

不考虑底盘的密码子用法或密码子偏向的优化是不理想的!让我们来看看密码子的优化......("逃跑的气球备忘录 "格式来自 Superlmer)

密码子优化

每个生物体都有自己的密码子偏向--或者说它在其基因组中使用密码子的偏向。由于mRNA翻译成蛋白质的过程最终依赖于mRNA中的密码子,了解密码子偏向可以帮助我们提高重组蛋白质的表达水平。

这就是密码子优化背后的想法,它涉及改变目标基因的密码子序列以匹配表达宿主的最佳密码子用法。通过这种方式,密码子优化可以显著提高重组蛋白的表达水平。在大肠杆菌**(E. coli)底盘中,已经观察到了2至15倍的增长!这相当令人振奋,而这也是我们的目标!

这是相当令人兴奋的,它是我们最近发布的ICOR的构思过程的核心--这是一个密码子优化工具,使用人工智能来最优化基因在大肠杆菌中的表达。

image.png

使用ICOR深度学习模型进行序列密码子优化的用户工作流程与模型创建概述。(A) 描述了创建异源表达载体的用户工作流程。(B) 从用户工作流程中的 "序列密码子优化 "扩展出来,给出了ICOR模型创建的概况。在生产环境中,一个经过训练和包装的ICOR模型被推理出来。

为什么是人工智能?

很明显,人工智能(AI)技术已经撼动了我们周围的一切。人工智能可能为密码子优化问题提供新的见解,这并不奇怪。

我们的审查结论是,许多行业标准的密码子优化工具依赖于生物索引,用在宿主生物体基因组中发现的最丰富的密码子替换同义密码子。

大肠杆菌中,密码子CGU(对应于精氨酸)约有42%的时间用于精氨酸。许多密码子优化工具会用CGU替换理论序列中的所有 密码子。考虑到现有的几十万种排列组合,这在统计学上不可能是最佳选择。

更先进的是基于频率的工具。这些工具将确保在优化后,序列中42%的精氨酸密码子将是CGU。在某种程度上,这可以缓解 "一个氨基酸一个密码子 "的方法所引起的表达的代谢压力。然而,即使是基于频率的工具也不能完全解决翻译的能量学问题。

特定密码子的背景对翻译过程也至关重要。例如,密码子CGU可能发现自己是某些密码子的近邻。或者,可能会出现密码子的模式--传统的算法可能难以在全基因组范围内识别这种背景。

这些技术(和生物!)方面将在我们的出版物中进一步讨论。

人工智能,更具体地说,递归神经网络(RNNs),可以用来检测整个大序列的密码子背景。

递归神经网络

递归神经网络(RNNs)被设计用来检测时间模式。因此,它们是分析密码子上下文的完美选择。这是我们的ICOR优化工具背后的方法,我们对来自大肠杆菌的数千个基因的数据集进行了训练。

我们利用双向长短时记忆(LSTM)架构来训练该模型。BiLSTM是RNN的一种形式,顾名思义,它可以帮助保留序列中向前和向后的上下文。

在训练这样的模型时,我们拍了一层自然语言处理。与单词构建句子的方式类似,密码子构建了一个DNA/RNA序列。因此,LSTM模型的输入被表示为密码子嵌入的序列--通过单次编码方法进行。

对ICOR神经网络进行全面、深入的研究。更多细节请见我们的随附出版物。

image.png

ICOR

ICOR是我们创建的一个开源软件,它使用深度学习(见上文)来学习大肠杆菌中的密码子用法。我们编制了一个超过7000个非冗余、高表达、稳健的基因的数据集,用于深度学习。然后,该模型被训练来优化高表达的序列,并与大肠杆菌中的密码子用法相匹配。

我们将ICOR与其他几种密码子优化方法进行测试,并认为其性能优越。与未经优化的基因相比,我们的优化序列的mRNA表达水平估计增加了236%。

我们的工具是作为一个开源的Python包提供的,可在我们附带的 GitHub仓库中使用。

我们还建立了一个密码子优化的基准数据集,为研究人员提供一个可靠的方法来评估其模型的功效。

使用方法

ICOR(需要Python)只需要三行shell脚本就可以安装:

# 安装软件包

git clone https://github.com/Lattice-Automation/icor-codon-optimization.git

# 安装先决条件

pip install -r requirements.txt

# 运行ICOR优化器

python ./tool/optimizers/icor_optimizer.py

我们的命令行密码子优化器接受FASTA序列作为氨基酸或密码子序列。然后它将返回一个优化的序列用于在大肠杆菌中的表达。

image.png

用于优化序列的ICOR命令行脚本!

其他工具和脚本

我们的软件包还包含评估和测试密码子优化技术的有用脚本。我们提供以下内容:

  • 5种不同的优化方法进行测试(背景频率选择,ICOR,扩展随机选择,统一随机选择,最高频率选择)。
  • CDS转换--一个脚本,它接受DNA序列的输入,并从NCBI的nuccore数据库中获取它们的CoDing Sequences。
  • 基准测试 - 一个交互式的Jupyter笔记本,用于对FASTA序列的优化方法进行基准测试。
  • 密码子图--在Pythonic框架中用于氨基酸到密码子转换的密码子图(对这个领域的未来项目很有用!)。
  • 大肠杆菌的密码子频率 -大肠杆菌中每个密码子/氨基酸的频率和权重*。*

最后的思考

通过理解和应用密码子的背景,人工智能驱动的密码子优化程序,如ICOR,可以推动重组表达的界限。

我们可以想象这个工具在研究和工业中的应用研究人员可以利用改进的产量来设计更可行的蛋白质,而工业界可以利用ICOR来获得更便宜、有效的产量。