机器学习笔记Chapter1

一. 引入 (Introduction)

机器学习是人工智能的一个子领域。机器学习的定义为：计算机在没有明确编程的情况下学习能力的研究领域。

常见应用：

根据数据是否包含标签（即是否有正确的 $Y$ 值），机器学习主要分为以下几类：

这是目前应用最广泛的机器学习类型，其特点是数据集包含输入 $X$ 和对应的正确输出 $Y$ 。

回归 (Regression)
- 定义：预测连续的数值输出。
- 案例：根据房屋尺寸 (Size) 预测房价 (Price) 。
- 模型：试图拟合一条直线或曲线来穿过数据点。
分类 (Classification)
- 定义：预测离散的类别输出（通常是 0 或 1，或是有限的类别）。
- 案例：根据肿瘤大小 (Size) 和年龄 (Age) 判断肿瘤性质（0=良性, 1=恶性）。
- 模型：试图找到一条边界（Decision Boundary）将不同类别的数据分开。

特点是数据只包含输入 $X$ ，没有对应的输出标签 $Y$ 。算法需要自己从数据中发现结构或模式。

聚类 (Clustering)
- 定义：将数据自动分组，使得组内数据相似度高，组间差异大。
- 案例：新闻分类（将相似主题的新闻聚在一起）、客户细分。

我们要建立一个模型 $f$ ，输入特征 $x$ ，输出预测值 $\hat{y}$ 。

公式： $f_{w,b}(x) = wx + b$ $f_{w, b} (x) = w x + b$ 。
- $w$ ：权重 (weight) / 斜率。
- $b$ ：偏置 (bias) / 截距。
- $x$ ：输入特征（如房屋面积）。
- $\hat{y}$ ：预测结果（如预测房价）。

如何判断模型的好坏？我们需要一个代价函数 $J(w,b)$ 来衡量预测值与真实值之间的误差。

均方误差公式：

$J(w,b) = \frac{1}{2m} \sum_{i=1}^{m} (\hat{y}^{(i)} - y^{(i)})^2$
- $m$ ：训练样本的数量。
- 目标：找到 $w$ 和 $b$ ，使得 $J(w,b)$ 最小（ $minimize J$ ）。
直观理解：代价函数 $J$ 的图像通常像一个碗（凸函数），我们的目标就是找到这个碗的最低点。

梯度下降是一种用于寻找函数最小值的算法，它可以自动找到让代价函数 $J$ 最小的 $w$ 和 $b$ 。

算法逻辑：
1. 从任意的 $w, b$ 开始。
2. 不断沿着梯度的反方向（下坡方向）更新参数，直到到达最低点。
更新公式：

$w = w - \alpha \frac{\partial}{\partial w} J(w,b)$

$b = b - \alpha \frac{\partial}{\partial b} J(w,b)$
学习率 $\alpha$ (Alpha)：
- 定义：控制每一步下坡的步长大小。
- 如果 $\alpha$ 过小：步长太小，下降速度极慢，需要很久才能收敛。
- 如果 $\alpha$ 过大：步长太大，可能直接越过最低点，导致无法收敛甚至发散。

当有多个特征时（例如除了面积，还有卧室数、楼层等），模型变为：

公式： $f_{\vec{w},b}(\vec{x}) = w_1x_1 + w_2x_2 + ... + w_nx_n + b$ 。
向量化表示：利用线性代数，写成点积形式 $\vec{w} \cdot \vec{x} + b$ $w \cdot x + b$ 。
- 代码实现：使用 Python 的 NumPy 库 np.dot(w, x) + b 进行计算，比 for 循环效率更高。

问题：如果不同特征的取值范围差异很大（例如房价 300-2000 vs 卧室数 1-5），代价函数的等高线会变得细长，导致梯度下降路径曲折且慢。
解决方法：将所有特征缩放到相近的范围（通常是 -1 到 1 之间。
- 均值归一化 (Mean Normalization)。
- Z-score 标准化： $x = \frac{x - \mu}{\sigma}$ （减去均值，除以标准差）。

学习曲线：绘制 代价函数 $J$ 随 迭代次数 变化的曲线。如果曲线呈现下降并在最后趋于平坦，说明梯度下降正常工作。
调试：如果 $J$ 随迭代次数上升，通常是因为学习率 $\alpha$ 太大，应尝试减小 $\alpha$ （如 0.001, 0.01, 0.1 等倍率尝试）。