LC 828. 统计子串中的唯一字符

题目描述

这是 LeetCode 上的 828. 统计子串中的唯一字符 ,难度为 困难

我们定义了一个函数 countUniqueChars(s) 来统计字符串 s 中的唯一字符,并返回唯一字符的个数。

例如:s = "LEETCODE" ,则其中 "L", "T","C","O","D" 都是唯一字符,因为它们只出现一次,所以 countUniqueChars(s) = 5

本题将会给你一个字符串 s ,我们需要返回 countUniqueChars(t) 的总和,其中 ts 的子字符串。

输入用例保证返回值为 32 位整数。

注意,某些子字符串可能是重复的,但你统计时也必须算上这些重复的子字符串(也就是说,你必须统计 s 的所有子字符串中的唯一字符)。

示例 1:

1
2
3
4
5
6
7
输入: s = "ABC"

输出: 10

解释: 所有可能的子串为:"A","B","C","AB","BC""ABC"
其中,每一个子串都由独特字符构成。
所以其长度总和为:1 + 1 + 1 + 2 + 2 + 3 = 10

示例 2:
1
2
3
4
5
输入: s = "ABA"

输出: 8

解释: 除了 countUniqueChars("ABA") = 1 之外,其余与示例 1 相同。

示例 3:
1
2
3
输入:s = "LEETCODE"

输出:92

提示:

  • $1 <= s.length <= 10^5$
  • s 只包含大写英文字符

模拟 + 乘法原理

这道题和 907. 子数组的最小值之和 如出一辙,只不过无须考虑运用「单调栈」。

原问题为求所有子数组的唯一字符数量和,其可等价为求每个 $s[i]$ 对答案的贡献,即每个 $s[i]$ 可作为多少个子数组的唯一元素。

假定我们能预处理出两数组 lr 分别代表 $s[i]$ 作为子数组唯一字符时,其所能到达的最远两端:

  • l[i] = a 代表下标 $a$ 为 $s[i]$ 能够作为子数组唯一字符时的最远左边界,即为 $s[i]$ 左边第一个与 $s[i]$ 值相同的位置(若不存在,则为 $a = -1$)
  • r[i] = b 代表跳表 $b$ 为 $s[i]$ 能够作为子数组唯一字符时的最远右边界,即为 $s[i]$ 右边第一个与 $s[i]$ 值相同的位置(若不存在,则为 $b = n$)

子数组左端点个数为 $(i - a)$ 个,右端点个数为 $(b - i)$ 个,根据乘法原理可知,子数组个数为两者乘积。

预处理 lr 只需要使用遍历计数即可。

Java 代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
class Solution {
public int uniqueLetterString(String s) {
char[] cs = s.toCharArray();
int n = cs.length, ans = 0;
int[] l = new int[n], r = new int[n];
int[] idx = new int[26];
Arrays.fill(idx, -1);
for (int i = 0; i < n; i++) {
int u = cs[i] - 'A';
l[i] = idx[u];
idx[u] = i;
}
Arrays.fill(idx, n);
for (int i = n - 1; i >= 0; i--) {
int u = cs[i] - 'A';
r[i] = idx[u];
idx[u] = i;
}
for (int i = 0; i < n; i++) ans += (i - l[i]) * (r[i] - i);
return ans;
}
}

C++ 代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
class Solution {
public:
int uniqueLetterString(string s) {
int n = s.size(), ans = 0;
vector<int> l(n, -1), r(n, n);
vector<int> idx(26, -1);
for (int i = 0; i < n; i++) {
int u = s[i] - 'A';
l[i] = idx[u];
idx[u] = i;
}
fill(idx.begin(), idx.end(), n);
for (int i = n - 1; i >= 0; i--) {
int u = s[i] - 'A';
r[i] = idx[u];
idx[u] = i;
}
for (int i = 0; i < n; i++) ans += (i - l[i]) * (r[i] - i);
return ans;
}
};

Python 代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
class Solution:
def uniqueLetterString(self, s: str) -> int:
n = len(s)
l, r = [-1] * n, [n] * n
idx = [-1] * 26
for i in range(n):
u = ord(s[i]) - ord('A')
l[i] = idx[u]
idx[u] = i
idx = [n] * 26
for i in range(n - 1, -1, -1):
u = ord(s[i]) - ord('A')
r[i] = idx[u]
idx[u] = i
return sum((i - l[i]) * (r[i] - i) for i in range(n))

Typescript 代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
function uniqueLetterString(s: string): number {
let n = s.length, ans = 0
const l = new Array<number>(n), r = new Array<number>(n)
const idx = new Array<number>(26).fill(-1)
for (let i = 0; i < n; i++) {
const u = s.charCodeAt(i) - 65
l[i] = idx[u]
idx[u] = i
}
idx.fill(n)
for (let i = n - 1; i >= 0; i--) {
const u = s.charCodeAt(i) - 65
r[i] = idx[u]
idx[u] = i
}
for (let i = 0; i < n; i++) ans += (i - l[i]) * (r[i] - i)
return ans
};

  • 时间复杂度:$O(n)$
  • 空间复杂度:$O(n)$

线性 DP

另外一个实现思路是利用「动态规划」思想。

定义 $f[i]$ 为考虑以 $s[i]$ 为结尾的所有子串中的唯一字符个数。

不失一般性考虑 $f[i]$ 该如何转移:以 $s[i]$ 为结尾的子串包括在所有以 $s[i - 1]$ 为结尾的子串结尾添加一个字符而来,以及 $s[i]$ 字符本身组成的新子串。

首先我们令 $f[i] = f[i - 1]$,同时使用 $b[x]$ 记录字符 $x$ 前一次出现的下标,使用 $a[x]$ 记录字符 $x$ 在上上次出现的下标,然后假设当前处理的字符为 $c = s[i]$,考虑 $s[i]$ 对 $f[i]$ 的影响(注意 $s[i]$ 始终为子串右端点):

  • 在子串左端点下标范围在 $[b[c] + 1, i]$ 的子串中,$s[i]$ 必然只出现一次(满足唯一字符要求),即可增加 $i - b[c]$ 个唯一字符 $s[i]$;
  • 在子串左端点下标范围在 $[a[c] + 1, b[c]]$ 的子串中,原本位于 $b[c]$ 的字符在新子串中出现次数变为 $2$ 次(不再满足唯一字符要求),即需减少 $b[c] - a[c]$ 个唯一字符 $s[i]$。

综上,我们有状态转移方程:$f[i] = f[i - 1] + (i - b[s[i]]) - (b[s[i]] - a[s[i]])$

实现上,由于 $f[i]$ 只依赖于 $f[i - 1]$,因此我们无须真的创建动规数组,而只需要使用单个变量 cur 来记录当前处理到的 $f[i]$ 即可,累积所有的 $f[i]$ 即是答案。

Java 代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
class Solution {
public int uniqueLetterString(String s) {
int n = s.length(), ans = 0, cur = 0;
int[] a = new int[26], b = new int[26];
Arrays.fill(a, -1); Arrays.fill(b, -1);
for (int i = 0; i < n; i++) {
int u = s.charAt(i) - 'A';
cur += i - b[u] - (b[u] - a[u]);
ans += cur;
a[u] = b[u]; b[u] = i;
}
return ans;
}
}

C++ 代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
class Solution {
public:
int uniqueLetterString(string s) {
int n = s.length(), ans = 0, cur = 0;
vector<int> a(26, -1), b(26, -1);
for (int i = 0; i < n; ++i) {
int u = s[i] - 'A';
cur += i - b[u] - (b[u] - a[u]);
ans += cur;
a[u] = b[u]; b[u] = i;
}
return ans;
}
};

Python 代码:
1
2
3
4
5
6
7
8
9
10
class Solution:
def uniqueLetterString(self, s: str) -> int:
n, ans, cur = len(s), 0, 0
a, b = [-1] * 26, [-1] * 26
for i in range(n):
u = ord(s[i]) - ord('A')
cur += i - b[u] - (b[u] - a[u])
ans += cur
a[u], b[u] = b[u], i
return ans

TypeScript 代码:
1
2
3
4
5
6
7
8
9
10
11
function uniqueLetterString(s: string): number {
let n = s.length, ans = 0, cur = 0
const a = new Array<number>(26).fill(-1), b = new Array<number>(26).fill(-1)
for (let i = 0; i < n; i++) {
const u = s.charCodeAt(i) - 65
cur += i - b[u] - (b[u] - a[u])
ans += cur
a[u] = b[u]; b[u] = i
}
return ans
};

  • 时间复杂度:$O(n)$
  • 空间复杂度:$O(C)$,其中 $C = 26$ 为字符集大小

最后

这是我们「刷穿 LeetCode」系列文章的第 No.828 篇,系列开始于 2021/01/01,截止于起始日 LeetCode 上共有 1916 道题目,部分是有锁题,我们将先把所有不带锁的题目刷完。

在这个系列文章里面,除了讲解解题思路以外,还会尽可能给出最为简洁的代码。如果涉及通解还会相应的代码模板。

为了方便各位同学能够电脑上进行调试和提交代码,我建立了相关的仓库:https://github.com/SharingSource/LogicStack-LeetCode

在仓库地址里,你可以看到系列文章的题解链接、系列文章的相应代码、LeetCode 原题链接和其他优选题解。