数据挖掘｜cross_val_score 交叉验证使用

柳随风

发布于 2020-9-4 13:14

浏览

0收藏

背景
原理
适用场景
案例说明

背景

通过模型验证结果，根据结果来选择最合适的模型。特别是对于监督学习而言，会希望好的模型对未知数据处理有很强的泛化能力。目前模型常用的几种方式。

用训练准确度，也就是全部数据进行训练和测试。这种方法可能会导致模型过拟合；
用测试准确度，可以有效避免过拟合，也是最常用的方式。具体是将所有数据分成训练集和测试集两部分，用训练集进行模型训练，得到的模型再用测试集来衡量模型的预测表现能力。测试准确度的缺点是其样本准确度是一个高方差估计。样本准确度依赖不同的测试集，每次测试集结果是不同的，结果呈现是一组低偏差，高方差数据；
交叉验证。也叫 K 折交叉验证，是在测试准确度的基础上，确定把训练集、测试集分成 K 次（K 取决于数据量大小或者个人经验），然后取结果平均值。

原理

将数据集平均分割成K个等份；
使用 1 份数据作为测试数据，其余作为训练数据；
计算测试集准确率；
使用不同的测试集，重复2、3 步骤；
测试集准确率取平均值，作为对未知数据预测准确率的估计。

注意：

K = 10 是常规建议，如上面所说，K 取决于数据量大小、个人经验、分析目的。
对于分类问题，应该使用分层抽样（stratified sampling）来生成数据，保证正负例的比例在训练集和测试集中的比例相同。

适用场景

在模型选择、参数选择、交叉验证的场景下可以使用交叉验证。

案例说明

使用鸢尾花数据集，KNN 和 logistic 回归模型进行模型的比较和选择。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score

# 鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# K近邻和逻辑回归对比，交叉验证取10折
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=20)
print(cross_val_score(knn, X, y, cv=10, scoring='accuracy').mean())

# 交叉验证同样取10折
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()
print(cross_val_score(logreg, X, y, cv=10, scoring='accuracy').mean())1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.

0.9800000000000001
0.97333333333333341.
2.

分类

标签

相关推荐

JavaScript深度挖掘之ECMAScript

hushuo • 6610浏览 • 0回复
鸿蒙开源第三方组件——SwipeCaptcha_ohos滑动拼图验证组件

朱伟ISRC • 3.0w浏览 • 24回复
HarmonyOS数据绑定使用技巧

鸿蒙开发者社区官方账号 • 1.8w浏览 • 3回复
如何使用分布式数据库方法详解

奶盖 • 2.3w浏览 • 0回复
使用鸿蒙编译工具链交叉编译 libcurl

拉风cc • 4.1w浏览 • 3回复
元数据绑定系列(一)：元数据绑定的使用

没用的喵叔 • 1.6w浏览 • 11回复
鸿蒙开源第三方组件——SwipeCaptcha_ohos2.0滑动拼图验证组件

朱伟ISRC • 1.9w浏览 • 22回复
鸿蒙开源第三方组件——SwipeCaptcha_ohos3.0旋转验证组件

朱伟ISRC • 1.5w浏览 • 6回复
#过年不停更# OpenHarmony使用交叉编译的三方二进制丰富系统命令

碼磚民工 • 1.6w浏览 • 4回复
OpenHarmony _Data Ability 关系数据库使用

rentututu • 1.6w浏览 • 5回复
鸿蒙app前后端流程实现：登录验证，注册信息，前端获取数据反馈

Sherry辛巳 • 2.4w浏览 • 0回复
#夏日挑战赛#OpenHarmony JS 关系型数据库使用示例

深开鸿 • 1.3w浏览 • 2回复
#夏日挑战赛#交叉编译

挖墙脚的农民工 • 1.3w浏览 • 5回复
#夏日挑战赛#交叉编译（一）-- musl库浅析

挖墙脚的农民工 • 2.0w浏览 • 3回复
Dockerfile部署OpenCV环境的闪烁验证码识别模块 | #打卡不停更#

Aasee • 1.1w浏览 • 1回复
#打卡不停更#huaweicloud-iot交叉编译使用

民之码农 • 7973浏览 • 0回复
梅科尔HOS-openGauss数据库安装使用（openEuler服务器）

梅科尔工作室HOS • 8937浏览 • 5回复
详解使用Dex实现Kubernetes身份验证

素年锦时静待君丶 • 4406浏览 • 0回复
OpenHarmony 交叉编译rockchip MPP库

离北况归 • 2128浏览 • 0回复

jkfox

LV.2

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

视频

152

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

数据挖掘｜cross_val_score 交叉验证使用

订阅鸿蒙技术特刊，精选内容抢先看