DNA序列编辑距离
问题描述
小R正在研究DNA序列,他需要一个函数来计算将一个受损DNA序列(dna1)转换成一个未受损序列(dna2)所需的最少编辑步骤。编辑步骤包括:增加一个碱基、删除一个碱基或替换一个碱基。
测试样例
样例1:
输入:
dna1 = "AGT",dna2 = "AGCT"
输出:1
样例2:
输入:
dna1 = "AACCGGTT",dna2 = "AACCTTGG"
输出:4
样例3:
输入:
dna1 = "ACGT",dna2 = "TGC"
输出:3
样例4:
输入:
dna1 = "A",dna2 = "T"
输出:1
样例5:
输入:
dna1 = "GGGG",dna2 = "TTTT"
输出:4
解析
### 问题理解你需要计算将一个DNA序列 dna1 转换成另一个DNA序列 dna2 所需的最少编辑步骤。编辑步骤包括:
- 插入一个碱基
- 删除一个碱基
- 替换一个碱基
数据结构选择
这个问题可以通过动态规划(Dynamic Programming, DP)来解决。我们可以使用一个二维数组 dp,其中 dp[i][j] 表示将 dna1 的前 i 个字符转换成 dna2 的前 j 个字符所需的最少编辑步骤。
算法步骤
-
初始化:
dp[i][0] = i:将dna1的前i个字符转换成空串需要i次删除操作。dp[0][j] = j:将空串转换成dna2的前j个字符需要j次插入操作。
-
状态转移:
- 如果
dna1[i-1] == dna2[j-1],则dp[i][j] = dp[i-1][j-1],因为当前字符相等,不需要额外操作。 - 否则,
dp[i][j] = min(dp[i-1][j], dp[i][j-1], dp[i-1][j-1]) + 1,即选择插入、删除或替换操作的最小值加1。
- 如果
-
最终结果:
dp[m][n]即为将dna1转换成dna2所需的最少编辑步骤,其中m和n分别是dna1和dna2的长度。
```public class Main {
public static int solution(String dna1, String dna2) {
int m = dna1.length();
int n = dna2.length();
// 初始化dp数组,大小为 (m+1) x (n+1)
int[][] dp = new int[m + 1][n + 1];
// 初始化边界条件
for (int i = 0; i <= m; i++) {
dp[i][0] = i; // 从dna1的前i个字符到空串的编辑距离
}
for (int j = 0; j <= n; j++) {
dp[0][j] = j; // 从空串到dna2的前j个字符的编辑距离
}
// 填充dp数组
for (int i = 1; i <= m; i++) {
for (int j = 1; j <= n; j++) {
if (dna1.charAt(i - 1) == dna2.charAt(j - 1)) {
dp[i][j] = dp[i - 1][j - 1]; // 如果当前字符相等,不需要额外操作
} else {
// 否则,我们选择插入、删除或替换操作的最小值加1
dp[i][j] = Math.min(Math.min(dp[i - 1][j], dp[i][j - 1]), dp[i - 1][j - 1]) + 1;
}
}
}
// 返回最终结果,即从dna1到dna2的最小编辑距离
return dp[m][n];
}
public static void main(String[] args) {
// 测试样例1
System.out.println(solution("AGCTTAGC", "AGCTAGCT") == 2);
// 测试样例2
System.out.println(solution("AGCCGAGC", "GCTAGCT") == 4);
// 其他测试样例
System.out.println(solution("AGT", "AGCT") == 1);
System.out.println(solution("AACCGGTT", "AACCTTGG") == 4);
System.out.println(solution("ACGT", "TGC") == 3);
System.out.println(solution("A", "T") == 1);
System.out.println(solution("GGGG", "TTTT") == 4);
}
}