4  数学基础

本教程的核心在于数据分析,因此初学者需要具备一定的数学基础。在这里,简要介绍一些基础数学概念,包括描述性统计、推断性统计以及机器学习等内容。特别地,对于机器学习基础的学习至关重要,例如如何评估分类器的性能优劣等方面。

4.1 描述性统计

描述统计是统计学的一个分支,它涉及有意义和简洁地总结、组织和呈现数据。它侧重于描述数据集的主要特征,而不会对其进行任何概括或推断。

描述性统计的主要目标是提供清晰而简洁的数据摘要,使研究人员或分析人员能够深入了解数据集中的模式、趋势和分布。这种总结通常包括集中趋势(例如,平均值、中位数、众数)、离散度(例如,范围、方差、标准差)和分布形状(例如,偏度、峰度)等度量。

图 4.1: 可变性统计变量在数据中的展示

4.2 推断性统计

推断统计是统计学的一个分支,旨在通过对样本数据的分析,推断出关于总体的一般性结论。与描述统计不同,描述统计主要集中于对已有数据的总结和描述(如计算平均值、中位数、标准差等),而推断统计则试图通过样本数据来推测和预测总体的特性。

4.2.1 假设检验

在推断统计中,假设检验是一个重要的工具,用于判断一个关于总体参数的假设是否成立。以下是关于假设检验的详细解释,包括其一般步骤和显著性p值的含义

  • 假设检验的定义

假设检验是关于总体参数的一个陈述。在一个假设检验问题中,通常有两个互补的假设,称为原假设(H0)和备择假设(H1)。原假设是要检验的假设,备择假设则是与原假设相反的假设。假设检验的目的是基于样本数据来决定是否拒绝原假设。

4.2.2 检验分布

假设检验的几大分布是指Z检验分布、T检验分布以及卡方检验分布和F分布,它们在统计学中各自有其特定的应用场景和使用方法。

4.2.3 线性回归

线性回归是一种统计学上分析的方法,用于确定两种或两种以上变量间相互依赖的定量关系。它通常用于预测一个或多个自变量(特征值)的变化如何影响因变量(目标值)。线性回归模型假设因变量(Y)是一个或多个自变量(X)的线性组合,并加上一个误差项。

4.3 机器学习

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径。