LC 692. 前K个高频单词
题目描述
这是 LeetCode 上的 692. 前K个高频单词 ,难度为 中等。
给一非空的单词列表,返回前 k
个出现次数最多的单词。
返回的答案应该按单词出现频率由高到低排序。
如果不同的单词有相同出现频率,按字母顺序排序。
示例 1:1
2
3
4
5
6输入: ["i", "love", "leetcode", "i", "love", "coding"], k = 2
输出: ["i", "love"]
解析: "i" 和 "love" 为出现次数最多的两个单词,均为2次。
注意,按字母顺序 "i" 在 "love" 之前。
示例 2:1
2
3
4
5
6输入: ["the", "day", "is", "sunny", "the", "the", "the", "sunny", "is", "is"], k = 4
输出: ["the", "is", "sunny", "day"]
解析: "the", "is", "sunny" 和 "day" 是出现次数最多的四个单词,
出现次数依次为 4, 3, 2 和 1 次。
注意:
- 假定
k
总为有效值,1 ≤ k ≤ 集合元素数
。 - 输入的单词均由小写字母组成。
扩展练习:
- 尝试以 $O(n\log{k})$ 时间复杂度和 $O(n)$ 空间复杂度解决。
哈希表 & 优先队列(堆)
这道题是在「优先队列(堆)」裸题的基础上增加了字典序大小的比较。
相应的,我们不能只根据「词频大小」构建小根堆来获取前 $k$ 个元素,还需要结合字典序大小来做。
具体的,我们可以使用「哈希表」&「优先队列」进行求解:
- 使用「哈希表」来统计所有的词频
- 构建大小为 $k$ 按照「词频升序 + (词频相同)字典序倒序」的优先队列:
- 如果词频不相等,根据词频进行升序构建,确保堆顶元素是堆中词频最小的元素
- 如果词频相等,根据字典序大小进行倒序构建,结合 $2.1$ 可以确保堆顶元素是堆中「词频最小 & 字典序最大」的元素
- 对所有元素进行遍历,尝试入堆:
- 堆内元素不足 $k$ 个:直接入堆
- 词频大于堆顶元素:堆顶元素不可能是前 $k$ 大的元素。将堆顶元素弹出,并将当前元素添加到堆中
- 词频小于堆顶元素;当前元素不可能是前 $k$ 大的元素,直接丢弃。
- 词频等于堆顶元素:根据当前元素与堆顶元素的字典序大小决定(如果字典序大小比堆顶元素要小则入堆)
- 输出堆内元素,并翻转
代码:1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36class Solution {
public List<String> topKFrequent(String[] words, int k) {
Map<String, Integer> map = new HashMap<>();
for (String w : words) map.put(w, map.getOrDefault(w, 0) + 1);
PriorityQueue<Object[]> q = new PriorityQueue<>(k, (a, b)->{
// 如果词频不同,根据词频升序
int c1 = (Integer)a[0], c2 = (Integer)b[0];
if (c1 != c2) return c1 - c2;
// 如果词频相同,根据字典序倒序
String s1 = (String)a[1], s2 = (String)b[1];
return s2.compareTo(s1);
});
for (String s : map.keySet()) {
int cnt = map.get(s);
if (q.size() < k) { // 不足 k 个,直接入堆
q.add(new Object[]{cnt, s});
} else {
Object[] peek = q.peek();
if (cnt > (Integer)peek[0]) { // 词频比堆顶元素大,弹出堆顶元素,入堆
q.poll();
q.add(new Object[]{cnt, s});
} else if (cnt == (Integer)peek[0]) { // 词频与堆顶元素相同
String top = (String)peek[1];
if (s.compareTo(top) < 0) { // 且字典序大小比堆顶元素小,弹出堆顶元素,入堆
q.poll();
q.add(new Object[]{cnt, s});
}
}
}
}
List<String> ans = new ArrayList<>();
while (!q.isEmpty()) ans.add((String)q.poll()[1]);
Collections.reverse(ans);
return ans;
}
}
C++ 代码:1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35class Solution {
public:
vector<string> topKFrequent(vector<string>& words, int k) {
unordered_map<string, int> map;
for (auto& w : words) map[w]++;
auto comp = [](const pair<int, string>& a, const pair<int, string>& b) {
if (a.first != b.first) return a.first > b.first;
return a.second < b.second;
};
priority_queue<pair<int, string>, vector<pair<int, string>>, decltype(comp)> q(comp);
for (auto& s : map) {
int cnt = s.second;
if (q.size() < k) {
q.push({cnt, s.first});
} else {
if (cnt > q.top().first) {
q.pop();
q.push({cnt, s.first});
} else if (cnt == q.top().first) {
if (s.first.compare(q.top().second) < 0) {
q.pop();
q.push({cnt, s.first});
}
}
}
}
vector<string> ans;
while (!q.empty()) {
ans.push_back(q.top().second);
q.pop();
}
reverse(ans.begin(), ans.end());
return ans;
}
};
- 时间复杂度:使用哈希表统计词频,复杂度为 $O(n)$;使用最多 $n$ 个元素维护一个大小为 $k$ 的堆,复杂度为 $O(n\log{k})$;输出答案复杂度为 $O(k)$(同时 $k \leq n$)。整体复杂度为 $O(n\log{k})$
- 空间复杂度:$O(n)$
最后
这是我们「刷穿 LeetCode」系列文章的第 No.692
篇,系列开始于 2021/01/01,截止于起始日 LeetCode 上共有 1916 道题目,部分是有锁题,我们将先把所有不带锁的题目刷完。
在这个系列文章里面,除了讲解解题思路以外,还会尽可能给出最为简洁的代码。如果涉及通解还会相应的代码模板。
为了方便各位同学能够电脑上进行调试和提交代码,我建立了相关的仓库:https://github.com/SharingSource/LogicStack-LeetCode 。
在仓库地址里,你可以看到系列文章的题解链接、系列文章的相应代码、LeetCode 原题链接和其他优选题解。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!