微积分

3Blue1Brown 微积分的本质

bilibili

极限和无穷小

导数

一个函数在某一点的导数描述了这个函数在这一点附近的变化率
导数的本质是通过极限的概念对函数进行局部的线性逼近。当函数 ${\displaystyle f}$ 的自变量在一点 ${\displaystyle x_{0}} $上产生一个增量 ${\displaystyle h}$ 时,函数输出值的增量与自变量增量 ${\displaystyle h}$的比值在 ${\displaystyle h}$趋于0时的极限如果存在,即为 ${\displaystyle f}$在 ${\displaystyle x_{0}}$处的导数,记作 ${\displaystyle f’(x_{0})}$、 ${\displaystyle {\frac {\mathrm {d} f}{\mathrm {d} x}}(x_{0})}$或 $\left.{\frac {d f}{d x}}\right|{x=x_{0}}$

导数的定义:f在x0点的导数
$$ f’(x_0)=\lim_{x \to x_0}\frac{f(x)-f(x_0)}{x - x_0} $$

几何意义:相当于曲线该点切线斜率

几何意义
几何意义

P0点斜率为$\alpha$,在微分中让x变化一个很小的一个值$\Delta x$,y变化了$\Delta y$, 当$\Delta x$变的无穷小时候,$\frac{\Delta y}{\Delta x}$就逼近该点的真实斜率
$\tan \alpha=\lim_{\Delta x \to 0} \tan \varphi=\lim_{\Delta x \to 0} \frac{f(x_0 + \Delta x)-f(x_0)}{\Delta x}$
$$ \Delta x\to 0, \varphi \to \alpha $$

微分

微分学主要研究的是在函数自变量变化时如何确定函数值的瞬时变化率(导数或微商)。换言之,计算 导数 的方法就叫 微分

积分

积分是微分的逆运算,即从导数推算出原函数,又分为定积分与不定积分。

  1. 定积分:
    1. 几何意义等价函数下方面积 $\int_a^b f(x),\mathrm{d}x$
  2. 不定积分
    1. 原函数
  3. 第一基本定理
    设 $ a,b\in {\mathbb {R}}$, $ {\displaystyle f:[a,b]\mapsto \mathbb {R} }$为连续函数,对所有的 $ x\in [a,b]$,定义函数 F 如下:

${\displaystyle F(x)=\int _{a}^{x}f(t)dt}$
则 F 在闭区间 [a,b] 连续,并在开区间 (a, b)可微, 且对所有在开区间 (a, b) 中的 x,有

$ F’(x)=f(x)$

  1. 第二基本定理:如果函数 x f是闭区间 [a,b] 上的连续函数,F 是 f 在 [a,b] 上的一个反导函数,那么有
    ${\displaystyle \int _{a}^{b}f(x),\mathrm {d} x=F(b)-F(a)} $
Fundamental_theorem_of_calculus_(animation)
Fundamental_theorem_of_calculus_(animation)

偏导数

一个多变量的函数的偏导数(英语:partial derivative)是它关于其中一个变量的导数,而保持其他变量恒定(相对于全导数,在其中所有变量都允许变化)
∂代表偏导符号,是一个弯曲的d,称为偏导数符号。为了把它与字母d区分,∂有时读作“der”、“del”、“dah”或“偏”,而不是“dee”
函数f可以解释为y为自变量而x为常数的函数:

$f(x,y) = f_x(y) = x^2 + xy + y^2$
f在y方向上的变化:

$\frac {\partial f}{\partial y}(x,y)=x+2y$

符号

  • d: 微分学中的符号dx,dy等,是由莱布尼茨首先使用.d源自拉丁语中“差”(Differentia)的第一个字母
  • $\int$: 积分符号亦由莱布尼茨所创,它是拉丁语”总和”(Summa)的第一个字母s的伸长(和Σ有相同的意义)

常见导数

  1. 幂函数的导数:
  • $\frac{d}{dx}x^{r}=rx^{r-1}$
  1. 指数函数导数 是它自
  • 指数函数:$e^{x}$: $\frac{d}{dx}e^x=e^{x}$
  • 一般的指数函数:$\frac{d}{dx}a^x = \ln(a)a^x$
  1. 三角函数的导数:仍然是三角函数,或者由三角函数构成
  • $ \frac {d}{dx}\sin(x)=\cos(x) $
  • $ \frac {d}{dx}\cos(x)=-\sin(x)$
  • $ \frac {d}{dx}\tan(x)=\sec ^{2}(x)={\frac {1}{\cos ^{2}(x)}}=1+\tan ^{2}(x)$
  • $ \frac {d }{d x}\cot(x)=-\csc ^{2}(x)=-{\frac {1}{\sin ^{2}(x)}} $

链式法则

  • $(f\circ g)’(x)=f’(g(x))g’(x).$
  • 考虑函数z = f(x, y),其中x = g(t),y = h(t),g(t)和h(t)是可微函数,那么:
  • ${\ dz \over dt}={\partial z \over \partial x}{dx \over dt}+{\partial z \over \partial y}{dy \over dt}.$

应用

泰勒级数
$f(x)=f(a)+{\frac {f’(a)}{1!}}(x-a)+{\frac {f^2(a)}{2!}}(x-a)^{2}+\cdots +{\frac {f^(a)}{n!}}(x-a)^{n}+R_{n}(x)$
一般在机器学习中用到的是

  • 一阶展开:(梯度下降)
    • $f(x)=f(a)+f’(a)(x-a)$
  • 二阶展开:(牛顿法)
    • $f(x)=f(a)+f’(a)(x-a)+{\frac {f^2(a)}{2}}(x-a)^{2}$

泰勒公式的目的是为了用一个多项式逼近一个函数
让多项式每一阶导数和函数的导数相同
拉格朗日型余项:
$R_{n}(x)={\frac {f^NaN(\theta )}{(n+1)!}}(x-a)^NaN$