机器学习:逻辑回归实现二元分类
本例子以鸡蛋受精卵为例,假设未受精的鸡蛋在某个区域聚集,受精的在另一个区域。比如,用正态分布生成两个类别的数据,均值不同,方差相同或不同。例如,未受精的鸡蛋的特征均值为[1,1],受精的为[4,4],这样两类数据点可以在二维空间中被分开。
首先,生成数据。使用sklearn的make_classification或者直接手动生成。比如,生成两个类别的点,各50个样本,每个样本有两个特征。
例如,使用numpy的random.multivariate_normal生成两个不同的分布。
然后,合并数据,创建标签,0和1代表两类。
数据标准化:使用StandardScaler,使得每个特征的均值为0,方差为1,这样有助于模型训练。
分割数据集:训练集和测试集,比例通常为8:2或7:3。
训练逻辑回归模型:用LogisticRegression类。
预测测试集,计算准确率,混淆矩阵等。
可视化部分:画出训练数据和测试数据的散点图&#