【算法设计与分析】概述（二）—

【一条公式引入复杂性】

$C = F (N, I, A)$

【概述】

目前公认的算法复杂性的理解即算法所需要的计算机资源。我们引入几个复杂性概念：

时间复杂性 $T (n)$ ：在计算机中执行算法需要的时间资源量
空间复杂性 $S (n)$ ：在计算机中执行算法需要的空间资源量
问题规模 $n$ ：算法的待解空间即：输入的大小

如果分别用N、I和A表示算法要解问题的规模、算法的输入和算法本身, 而且用C表示复杂性,那么, 应该有:

$C = F (N, I, A)$

而一般把时间复杂性和空间复杂性分开，并分别用 $T$ 和 $S$ 来表示，则有：

$T = T (N, I)$

$S = S (N, I)$

(通常将 $A$ 隐含在复杂性函数中)

【计算推导】

在算法中，我们假设元运算有 $k$ 种：

$O_{1}, O_{2}, \dots, O_{k}$

执行元运算时间分别为：

$t_{1}, t_{2}, \dots, t_{k}$

假设用到元运算的次数分别为：

$e_{1}, e_{2}, \dots, e_{k}$

其中：

$e_{i} = e_{i} (N, I)$

那么则有：

$\begin{array}{r} T (N, I) = \sum_{i = 1}^{k} t_{i} e_{i} (N, I) \end{array}$

由于不可能对规模为N的每一种合法输入I都去统计运算次数，只能在某些代表性的合法输入中进行统计。于是我们将 $T (N, I) 和 S (N, I)$ 进一步简化为 $T (N) 和 S (N)$

【进一步引入复杂性】

上文中我们已经知道 $T (n)$ 是如何一步步简化的，下面我们从时间复杂度来进一步引入复杂性分析有关内容。

三种情况下的时间复杂性：

最坏情况：指问题规模为 $N$ 时任何输入中的最长运行时间。其数学表达如下：

$\begin{array}{r} T_{m a x} (N) = max_{I \in D_{N}} T (N, I) = max_{I \in D_{N}} \sum_{i = 1}^{k} t_{i} e_{i} (N, I^{*}) = T (N, I^{*}) \end{array}$

最好情况：指问题规模为 $\begin{array}{r} N \end{array}$ 时任何输入中的最短运行时间，其数学表达如下：

$\begin{array}{r} T_{m i n} (N) = min_{I \in D_{N}} T (N, I) = min_{I \in D_{n}} \sum_{i = 1}^{k} t_{i} e_{i} (N, I) = \sum_{i = 1}^{k} t_{i} e_{i} (N, \tilde{I}) = T (N, \tilde{I}) \end{array}$

平均情况：指问题规模为 $\begin{array}{r} N \end{array}$ 时任何输入中的平均运行时间，其数学表达如下：

$\begin{array}{r} T_{a v g} (N) = \sum_{I \in D_{N}} P (I) T (N, I) = \sum_{I \in D_{N}} P (I) \sum_{i = 1}^{k} t_{i} e_{i} (N, I) \end{array}$

其中：

$\begin{array}{r} D_{N} \end{array}$ 是规模为 $\begin{array}{r} N \end{array}$ 的合法输入的集合
$\begin{array}{r} I^{*} \end{array}$ 是 $\begin{array}{r} D_{N} \end{array}$ 中使得 $\begin{array}{r} T \end{array}$ 达到 $\begin{array}{r} T_{m a x} (N) \end{array}$ 的合法输入
$\begin{array}{r} \tilde{I} \end{array}$ 是 $\begin{array}{r} D_{N} \end{array}$ 中使得 $\begin{array}{r} T \end{array}$ 达到 $\begin{array}{r} T_{m} i n N \end{array}$ 的合法输入
$\begin{array}{r} P (I) \end{array}$ 是算法的应用中输入 $\begin{array}{r} I \end{array}$ 出现的频率

其示意图如下图所示:

补充：

关于最坏情况的时间分析：

它是算法对于任何输入的运行时间的上界;
对于某些算法, 最坏情况常常发生, 如在DB中搜索一个并不存在的记录;
平均时间往往和最坏时间相当(常数因子相同).

关于平均运行时间：

常常假定一个给定问题规模的所有输入是等概率的. 实际上这种可能并不一定成立,但可以用随机化算法强迫它成立.
有时平均时间和最坏时间不是同数量级, 算法选择依据是: 最好、最坏的概率较小时,尽量选择平均时间较小的算法.

【复杂性的进阶分析-渐进性态】

定义如下：

设 $T (N)$ 为算法A的时间复杂性函数，则它是 $n$ 的单调增函数

如果存在一个函数 $\tilde{T} (n)$

使得当 $n \to \infty$ 时有:

$\frac{T (n) - \tilde{T} (n)}{T (n)} \to 0$

那么我们称 $\tilde{T} (n)$ 是 $T (n)$ 当 $n \to \infty$ 时的渐进性态或渐进时间复杂性

在数学上

$T (n)$ 与 $\tilde{T} (n)$ 有相同的最高阶项, 可取 $\tilde{T} (n)$ 为略去 $T (n)$ 的低阶项后剩余的主项.

当n充分大时我们用 $\tilde{T} (n)$ 代替 $T (n)$ 作为算法复杂性的度量, 从而简化分析.

例如

$T (n) = 3 n^{2} + 4 n \log n + 7$ , 则 $\tilde{T} (n)$ 可以是 $3 n^{2}$ .

若进一步假定算法中所有不同元运算的单位执行时间相同, 则可不考虑 $\tilde{T} (n)$ 所包含的系数或常数因子, 只表征出以影响算法运行时间的主要因素 $n^{2}$ .

【渐进分析记号定义】

渐进上界: $O$

$O (g (n)) = {f (n) | 存在正常数 c 和 n_{0} 使得对所有 n \geq n_{0} 有 : 0 \leq f (n) \leq c g (n)}$

渐进下界: $Ω$

$Ω (g (n)) = {f (n) | 存在正常数 c 和 n_{0} 使得对所有 n \geq n_{0} 有 : 0 \leq c g (n) \leq f (n)}$

非紧上界: $o$

$o (g (n)) = {f (n) | 对于任何正常数 c > 0, 存在正常数 n_{0} > 0 使得对所有 n \geq n_{0} 有： 0 \leq f (n) < c g (n)}$

等价于：

$\begin{array}{r} lim_{n \to 0} \frac{f (n)}{g (n)} = 0 \end{array}$

非紧下界: $ω$

ω (g (n)) = {f (n) | 对 于 任 何 正 常 数 c > 0, 存 在 正 常 数 n_{0} > 0 使 得 对 所 有 n \geq n_{0} 有 0 \leq c g (n) < f (n)

等价于：

$\begin{array}{r} lim_{n \to 0} \frac{f (n)}{g (n)} = \infty \end{array}$

结合上述得出：

$f (n) \in ω (g (n)) \Leftrightarrow g (n) \in o (f (n))$

紧渐进界: $Θ$

$Θ (g (n)) = {f (n) | 存在正常数 c_{1}, c_{2} 和 n_{0} 使得对所有 n \geq n_{0} 有 c_{1} g (n) \leq f (n) \leq c_{2} g (n)}$

定理：

$Θ (g (n)) = O (g (n)) \cap Ω (g (n))$

【渐进分析记号的意义】

$f (n) = Θ (g (n))$ 的确切意义是: $f (n) \in Θ (g (n))$
一般情况下，等式和不等式中的渐进记号 $Θ (g (n))$ 表示 $Θ (g (n))$ 中的某个函数。

如：

$2 n^{2} + 3 n + 1 = 2 n * 2 + Θ (n)$ 表示 $2 n^{2} + 3 n + 1 = 2 n^{2} + f (n)$ , 其中 $f (n)$ 是 $Θ (n)$ 中某个函数.

等式和不等式中渐进记号 $O, o, Ω, ω$ 的意义类似

【关于 $O$ 的解释】

大 $O$ 表示法（算法运行的上界）：

若存在正常数 $c$ 和自然数 $n_{0}$ 使得当 $n \geq n_{0}$ 时，有 $0 \leq f (n) \leq c g (n)$ ，则称函数 $f (n)$ 在 $n$ 充分大时有上界，且 $g (n)$ 是它的一个上界，记为 $f (n) = O (g (n))$ , 也称 $f (n)$ 的阶不高于 $g (n)$ 的阶。

图像表达如下：

注意：

当说一个算法具有 $O (g (n))$ 的计算时间时, 指的是如果此算法用 $n$ 值不变的同一类数据在某台机器上运行时, 所用的时间总是小于 $g (n)$ 的一个常数倍.

所以, 从计算时间来说, $f (n)$ 的数量级就是 $g (n)$ . 当然, 在确定 $f (n)$ 的数量级时总是希望求出最小的 $g (n)$ , 使得 $f (n) = O (g (n))$ .

例如：

$3 n = O (n)$
$n + 1024 = O (n)$
$2 n^{2} + 11 n - 10 = O (n)$
$n^{2} = O (n^{3})$
$n^{3} \neq O (n^{2})$

运算法则：

$O (f (n)) + O (g (n)) = O (max f (n), g (n))$
$O (f (n)) + O (g (n)) = O (f (n) + g (n))$
$O (f (n)) \times O (g (n)) = O (f (n) \times g (n))$
$O (c f (n)) = O (f (n))$
$g (n) = O (f (n)) \Rightarrow O (f (n)) + O (g (n)) = O (f (n))$
$f (n) = O (f (n))$

【常见的复杂性函数】

function	name
$c$	constant
$\log N$	logarithmic
$\log^{2} N$	log-square
$N$	linear
$N \log N$	N log N
$N^{2}$	qiadratic
$N^{3}$	cubic
$2^{N}$	Exponential

【不同规模数据复杂度对比图】

小规模数据复杂度示意图

中等规模数据复杂度示意图

【不同算法输入量上界】

【提高计算机速度对算法的优化效果】

【常见的算法时间复杂性函数对比】

【一些结论】

结论: 算法的渐近复杂性的阶对于算法的效率有着决定性的意义.

多项式复杂度的算法：

如果一算法的最坏情形时间复杂度 $T (n) = O (n^{k})$ ,则称该算法为多项式复杂度的算法.

计算机科学家普遍认为, 一个多项式复杂度的算法是有效算法, 即: 对于一个有效算法, 哪怕输入量很大, 计算机仍然可以处理得了.

【参考资料】

2019年广西师范大学计算机与信息工程学院算法设计与分析课件[OL].李志欣教授.2019.01.01

【算法设计与分析】概述（二）—<复杂性>

作者WellLee

【一条公式引入复杂性】

【概述】

【计算推导】

【进一步引入复杂性】

三种情况下的时间复杂性：

补充：

【复杂性的进阶分析-渐进性态】

【渐进分析记号定义】

【渐进分析记号的意义】

【关于 $O$ 的解释】

大 $O$ 表示法（算法运行的上界）：

【常见的复杂性函数】

【不同规模数据复杂度对比图】

【不同算法输入量上界】

【提高计算机速度对算法的优化效果】

【常见的算法时间复杂性函数对比】

【一些结论】

【参考资料】

作者 WellLee

相关文章

【笔记】自编码器(autoencoder)

【经典复现】ResNet和DeepLabv3plus

【经典复现】CapsuleNet + MNIST

在 “【算法设计与分析】概述（二）—<复杂性>” 有 1 条评论

发表回复取消回复

You missed

【知识体系】电网络理论（三）电网络的基本性质

【知识体系】电网络理论（二）网络及其元件的基本概念

【知识体系】电网络理论（一）综述

【实验室运维】Dell T440 塔式服务器加装GPU

作者WellLee

【一条公式引入复杂性】

【概述】

【计算推导】

【进一步引入复杂性】

三种情况下的时间复杂性：

补充：

【复杂性的进阶分析-渐进性态】

【渐进分析记号定义】

【渐进分析记号的意义】

【关于O的解释】

大O表示法（算法运行的上界）：

【常见的复杂性函数】

【不同规模数据复杂度对比图】

【不同算法输入量上界】

【提高计算机速度对算法的优化效果】

【常见的算法时间复杂性函数对比】

【一些结论】

【参考资料】

作者 WellLee

相关文章

在 “【算法设计与分析】概述（二）—<复杂性>” 有 1 条评论

发表回复 取消回复

You missed

【关于 $O$ 的解释】

大 $O$ 表示法（算法运行的上界）：

发表回复取消回复