请问我应该怎样高效的对比两个文本文件 或者叫数据库中表的差异呢?

62 阅读1分钟

问题描述

我这里有两个文件

这是文件A.jpg 以上这是文件A

这是文件B.jpg 以上这是文件B 各位朋友可以将这两个文件理解为是两张数据表导出的文本文件 每个文件的列是相同的 两个文件的大小大概都在4GB-6GB左右

需求描述

  1. 需要比较出B文件相对于A文件增加的行
  2. 需要比较出B文件相对于A文件修改的行 B文件相对于A文件中任何列被修改都需要被记录,其中attr1是不会变更的
  3. attr1列的实际内容是不同的
  4. 记录的结果要求是id列和attr1列的内容

针对上述变更需要输出的结果

1 aa
5 aa
7 aa

目前我的做法

目前我只能使用awk进行比较,但是对于大文件时间和内存的开销都比较大 请问各位朋友是否有更好的方式满足需求呢?