问题描述
小R正在研究DNA序列,他需要一个函数来计算将一个受损DNA序列(dna1)转换成一个未受损序列(dna2)所需的最少编辑步骤。编辑步骤包括:增加一个碱基、删除一个碱基或替换一个碱基。
测试样例
样例1:
输入:
dna1 = "AGT",dna2 = "AGCT"
输出:1
样例2:
输入:
dna1 = "AACCGGTT",dna2 = "AACCTTGG"
输出:4
样例3:
输入:
dna1 = "ACGT",dna2 = "TGC"
输出:3
样例4:
输入:
dna1 = "A",dna2 = "T"
输出:1
样例5:
输入:
dna1 = "GGGG",dna2 = "TTTT"
输出:4
解决思路
-
动态规划定义:
- 我们使用一个二维数组
dp,其中dp[i][j]表示将dna1的前i个字符转换成dna2的前j个字符所需的最少编辑步骤。
- 我们使用一个二维数组
-
初始化:
- 当
dna1为空字符串时,将空字符串转换成dna2的前j个字符需要j次插入操作,因此dp[0][j] = j。 - 当
dna2为空字符串时,将dna1的前i个字符转换成空字符串需要i次删除操作,因此dp[i][0] = i。
- 当
-
状态转移:
-
如果
dna1[i-1] == dna2[j-1],即当前字符相等,则不需要进行编辑,dp[i][j] = dp[i-1][j-1]。 -
如果
dna1[i-1] != dna2[j-1],则我们需要考虑三种编辑操作:- 插入:在
dna1的第i个字符前插入dna2[j-1],即dp[i][j] = dp[i][j-1] + 1(插入操作的次数等于之前状态的次数加1)。 - 删除:删除
dna1的第i个字符,即dp[i][j] = dp[i-1][j] + 1(删除操作的次数等于之前状态的次数加1)。 - 替换:将
dna1[i-1]替换为dna2[j-1],即dp[i][j] = dp[i-1][j-1] + 1(替换操作的次数等于之前状态的次数加1)。
- 插入:在
-
由于我们要找的是最少编辑步骤,因此
dp[i][j]应取上述三种操作中的最小值。
-
-
返回结果:
- 遍历完成后,
dp[m][n]即为将dna1转换成dna2所需的最少编辑步骤,其中m和n分别是dna1和dna2的长度。
- 遍历完成后,
复杂度分析
- 时间复杂度:由于我们创建了一个
(m+1)x(n+1)的二维数组dp,并填充了所有元素,时间复杂度为O(m*n)。 - 空间复杂度:同样地,由于我们使用了二维数组
dp来存储状态,空间复杂度也为O(m*n)。
通过这种方法,我们可以有效地计算两个DNA序列之间的编辑距离。