海量数据笔试题--Top K 高频词汇统计
问题描述:
假设你有一个非常大的文本文件(例如,100GB),文件内容是按行存储的单词(或其他字符串,如 URL、搜索查询词等),单词之间可能由空格或换行符分隔。由于文件巨大,你无法将所有内容一次性加载到内存中(例如,你只有 1GB 的可用内存)。
任务:
请设计一个算法或方案,找出这个文件中出现频率最高的 K 个单词及其出现的次数。
例如:
假设 K = 3,文件内容如下:
apple banana orange
banana apple grape
apple kiwi banana
pear apple
期望输出(顺序不一定要求):
apple: 4
banana: 3
orange: 1 (或者 grape: 1, kiwi: 1, pear: 1 中的任意一个,取决于具体实现细节和 K 值的处理)
(更严谨的输出应该是前 3 个,所以是 apple: 4, banana: 3, orange: 1 / grape: 1 / kiwi: 1 / pear: 1 中的一个)
更正:严格的 Top 3 应该是 apple: 4, banana: 3。第三名有多个并列,可以输出其中一个,或都输出(取决于题目要求)。这里以输出一个为例,比如 orange:1。
需要考虑的关键点:
- 内存限制: 核心挑战在于内存远小于数据总量。
- 效率: 算法需要尽可能高效,减少磁盘 I/O 次数。
- 准确性: 结果需要精确统计词频并找出 Top K。
请思考:
- 你会如何分解这个问题?
- 你会用到哪些数据结构或算法思想?
- 如何处理内存限制?
- 如何进行数据统计和排序?
提示和思考方向:
这道题通常考察以下几个方面的知识:
-
分治思想 (Divide and Conquer): 如何将大问题分解成可以在内存中处理的小问题?
-
哈希 (Hashing): 如何将相同的单词映射到一起进行处理?如何均匀分散数据?
-
外部排序 (External Sorting) 思想: 虽然不完全是排序,但处理无法放入内存的数据的思路类似。
-
数据结构选择:
- 用什么结构在内存中高效地统计小块数据的词频?(例如:HashMap/Dictionary)
- 用什么结构高效地维护当前的 Top K 结果?(例如:最小堆/优先队列 Min-Heap/PriorityQueue)
常见的解法思路:
-
哈希分区 (Hash Partitioning):
- 顺序读取大文件。
- 对每个单词计算哈希值,然后根据哈希值对一个预设的数值 M(例如 1000)取模 hash(word) % M。
- 将该单词写入到 M 个对应的小文件中(file_0, file_1, ..., file_{M-1})。
- 核心保证: 经过这个步骤,所有相同的单词保证会出现在同一个小文件中。
- 选择合适的 M,使得每个小文件的大小都能被加载到内存中。
-
小文件内统计词频:
- 依次处理每个小文件 (file_i)。
- 使用哈希表(HashMap)在内存中统计当前小文件内每个单词的出现次数。
-
合并结果并找出全局 Top K:
-
维护一个大小为 K 的最小堆(Min-Heap),堆中存储 (单词, 词频) 对,按词频排序(堆顶是当前 Top K 中词频最小的)。
-
遍历每个小文件统计出的词频结果(HashMap)。
-
对于每个 (单词, 词频) 对:
-
如果堆的大小小于 K,直接将该对加入堆中。
-
如果堆已满(大小为 K),并且当前单词的词频 > 堆顶单词的词频:
- 移除堆顶元素。
- 将当前 (单词, 词频) 对加入堆中。
-
-
当遍历完所有小文件的词频统计结果后,最小堆中剩下的 K 个元素就是全局频率最高的 Top K 单词及其词频。
-
思考题:
- M 的值如何选择比较合适?
- 如果某些单词极其高频,导致某个小文件仍然过大怎么办?
- 这个方案的磁盘 I/O 大概是几次文件读写?
这道题可以有很多变种和深入讨论的地方,是考察海量数据处理能力的好题目。祝你思考愉快!