深度学习与神经网络
深度学习是机器学习的一个子集,它使用多层神经网络从数据中学习层次化的特征表示。
神经网络基础
Section titled “神经网络基础”人工神经元模拟生物神经元的行为:
- 接收多个输入信号
- 加权求和
- 通过激活函数产生输出
常见激活函数
Section titled “常见激活函数”| 函数 | 公式 | 特点 |
|---|---|---|
| ReLU | f(x)=max(0,x) | 计算高效,缓解梯度消失 |
| Sigmoid | f(x)=1/(1+e⁻ˣ) | 输出映射到 (0,1) |
| Tanh | f(x)=tanh(x) | 输出映射到 (-1,1) |
| Softmax | — | 多分类输出概率分布 |
主流网络架构
Section titled “主流网络架构”卷积神经网络(CNN)
Section titled “卷积神经网络(CNN)”专门处理网格状数据(如图像),通过卷积核提取局部特征。
循环神经网络(RNN)
Section titled “循环神经网络(RNN)”适合处理序列数据(如文本、时间序列),具有记忆能力。
Transformer
Section titled “Transformer”基于自注意力机制的架构,是 GPT、BERT 等大模型的基础。
深度学习框架
Section titled “深度学习框架”- PyTorch:动态计算图,研究界广泛使用
- TensorFlow:工业级部署方案
- JAX:Google 推出的高性能框架