TOP K 问题 - 算法学习 霍金斯 2023-10-19 78 阅读1分钟 描述:在一个低内存的机器,找出100T的文件出现频率最高的K个单词 解法:hash拆分小文件,保证每个单词落在同一个文件,计算每个小文件单词频率 按字符串读取大文件,识别单词 对单词进行hash,并存入以hash值命名的小文件中,要根据内存预先算下拆分多少个小文件 对每个小文件进行词频计算并存入哈希表中,key=单词,value=词频 根据哈希表的value进行排序,即可得到TOP K 结果 参考资料 Hollis 大神的《2023全新Java面试宝典课程,八股文学习资料》