当前位置：首页 > news >正文

Python----数据分析（足球运动员数据分析）

news 来源：原创 2025/4/29 16:36:41

一、数据展示

1.1、数据

1.2、列名

字段名	备注
Name	姓名
Nationality	国籍
National_Position	国家队位置
National_Kit	国家队号码
Club	所在俱乐部
Club_Position	所在俱乐部位置
Club_Kit	俱乐部号码
Club_Joining	加入俱乐部时间
Contract_Expiry	合同到期时间
Rating	评分
Height	身高
Weight	体重
Preffered_Foot	擅长左（右）脚
Birth_Date	出生日期
Age	年龄
Preffered_Position	擅长位置
Work_Rate	工作效率
Weak_foot	非惯用脚使用频率
Skill_Moves	技术等级
Ball_Control	控球技术
Dribbling	盘球（带球）能力
Marking	盯人能力
Sliding_Tackle	铲球
Standing_Tackle	逼抢能力
Aggression	攻击能力
Reactions	反映
Attacking_Position	攻击性跑位
Interceptions	抢断
Vision	视野
Composure	镇静
Crossing	下底传中
Short_Pass	短传
Long_Pass	长传
Acceleration	加速度
Speed	速度
Stamina	体力
Strength	强壮
Balance	平衡
Agility	敏捷度
Jumping	跳跃
Heading	投球
Shot_Power	射门力量
Finishing	射门
Long_Shots	远射
Curve	弧线
Freekick_Accuracy	任意球精准度
Penalties	点球
Volleys	凌空能力
GK_Positioning	门将位置感
GK_Diving	扑救能力
GK_Kicking	门将踢球能力
GK_Handling	扑球脱手几率
GK_Reflexes	门将反应度

二、加载数据

2.1、加载足球运动员数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt


df = pd.read_csv('FullData.csv')

2.2、设置中文和负数不显示问题

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

三、数据清洗

3.1、缺值处理

3.1.1、查看缺失值

df.info()

从上述示例可以看到总共17588行，但National_Position（国家队位置）是1075行，Club_Position （俱乐部位置）17587行。我们知道有的足球运动员是没有进入国家队的，所以National_Position缺值是正常情况。但Club_Position缺值需要处理。

3.1.2、显示缺失值的数据

df[df['所在俱乐部位置'].isna()]

或

df[df['所在俱乐部位置'].notna()]

3.1.3、获取未缺失值的数据

df2 = df[~df['所在俱乐部位置'].isna()]

或

df2 = df[df['所在俱乐部位置'].notna()]

或

df2 = df[df['所在俱乐部位置'].notnull()]

3.2、异常值处理

3.2.1、数据描述统计信息

describe方法得到数据的描述性统计信息，比如max min，mean，std进行异常值分析

df2.describe()

3.2.2、使用箱线图辅助查看异常值

df2.boxplot(column='评分')
plt.show()

3.3、重复值处理

3.3.1、查看重复数据

df.duplicated().any()

3.3.2、查看没有重复的数据

df[~df.duplicated()]

3.3.3、删除重复的数据

df.drop_duplicates()

3.3.4、指定列重复才删除

df.drop_duplicates(subset=['姓名'])

3.3.5、替换原有的df数据

df.drop_duplicates(inplace=True)

四、数据可视化

4.1、运动员的体重分布情况

从查看数据结果可以看到运动员身高Height、体重Weight的数据后都添加了相应的单位。要分析运动员身高和体重的分布，首先需要将身高Height和Weight数据的单位去掉。

4.1.1、身高与体重处理

4.1.1.1、通过字符串的替换

df3['身高']=df3['身高'].str.replace('cm','').astype('int')
df3['体重']=df3['体重'].str.replace('kg','').astype('int')

4.1.1.2、通过apply方式

def handle_cm(v:str)-> int:
    return int(v.replace('cm',''))
def handle_kg(v:str)-> int:
    return int(v.replace('kg',''))

4.1.1.3、使用匿名函数的方式 lambda

df3['身高'].apply(lambda x:int(x.replace('cm','')))
df3['体重'].apply(lambda x:int(x.replace('kg','')))

4.1.2、查看身高体重_数据分布情况

df3[['身高','体重']].describe()

直方图

plt.hist(df3['身高'],bins=20)
plt.title('身高')
plt.show()

plt.hist(df3['体重'],bins=20)
plt.title('体重')
plt.show()

画密度图

df3['身高'].plot(kind='kde')
plt.title('身高')
plt.show()

df3['体重'].plot(kind='kde')
plt.title('体重')
plt.show()

4.2、使用左右脚分析

4.2.1、使用饼状图来显示

df3['擅长左（右）脚'].value_counts().plot(kind='pie',autopct='%.2f%%',fontsize=16)
plt.legend()
plt.show()

4.2.2、value_counts()方法

df3['擅长左（右）脚'].value_counts()

4.2.3、使用条形图

df3['擅长左（右）脚'].value_counts().plot(kind='bar')
plt.show()

4.3、俱乐部评分分析

4.3.1、获取前10的俱乐部，根据球员的评分

dfg1=df3.groupby('所在俱乐部')
dfg1['评分'].mean().sort_values(ascending=False).head()

4.3.2、对俱乐部人数大于25人的俱乐部，平均评分进行排序取前10

# 查看俱乐部的球员人数，球员的平均分
rs1 = dfg1['评分'].agg(['mean','count'])
# 查看俱乐部的球员人数，球员的平均分,过滤掉人数小于25
rs1['count']>=25
# 查看俱乐部的球员人数，球员的平均分,过滤掉人数小于25,排名前10的俱乐部
rs1[rs1['count']>=25].sort_values(by='mean',ascending=False).head(10)
# 根据排名进行绘制图表
rs1[rs1['count']>=25].sort_values(by='mean',ascending=False).head(10).plot(kind='bar')

4.4、运动员与出生日期是否相关

4.4.1、获取足球运动员出生日期

data=df3['出生日期'].str.split('/',expand=True)

观察出生年和足球运动员数量关系
data['年'].value_counts().plot()
plt.xlabel('年')
plt.show()

观察出生月和足球运动员数量关系
data['月'].value_counts().plot()
plt.xlabel('月')
plt.show()

观察出生日和足球运动员数量关系
data['日'].value_counts().plot()
plt.xlabel('日')
plt.show()

4.4.2、评分大于等于80与出生日期关系

df4=df3[df3['评分']>80]
data2=df4['出生日期'].str.split('/',expand=True)

data2.columns = ['月', '日', '年']

观察出生年和足球运动员数量关系
data2['年'].value_counts().plot()
plt.xlabel('年')
plt.show()

观察出生月和足球运动员数量关系
data2['月'].value_counts().plot()
plt.xlabel('月')
plt.show()

观察出生日和足球运动员数量关系
data2['日'].value_counts().plot()
plt.xlabel('日')
plt.show()

4.5、身高与体重相关性

df3.plot(kind='scatter',x='身高',y='体重')
plt.show()

df3['身高'].corr(df3['体重'])
corr查看相关性

np.float64(0.7582641987537077)

4.6、年龄与评分相关性

df3['age']=pd.cut(df3['年龄'],bins=4,labels=['青年','中年','壮年','老年'])

df3.groupby('age')['评分'].mean().plot()
plt.show()

4.7、分析数据之间的相关性

df3.select_dtypes(include=['number']).corr()

查看哪些数据与评分相关性较强，得出前五名
df3.select_dtypes(include=['number']).corr()['评分'].sort_values(ascending=False).head(5)

2025年注册安全工程师考试练习题

SQL Server 中常见的数据类型及其详细解释、内存占用和适用场景

golang不使用锁的情况下，对slice执行并发写操作，是否会有并发问题呢？

linux实现ARP协议

数据结构每日一题day3（顺序表）★★★★★

css/scss(at-rules)基础使用(basic use)

LangChain开发（九）基于Rag实现文档问答

啸叫抑制（AFS）从算法仿真到工程源码实现-第四节-数据仿真

Day15 -实例端口扫描工具 WAF识别工具的使用

【MyBatisPlus】MyBatisPlus介绍与使用

spring boot + thymeleaf整合完整例子

ES6-Symbol

CTF题目《高明的黑客》（强网杯 2019）Write up

靶场（十八）---小白心得思路分享---shenzi

数据库三级填空+应用（2）

使用 gone.WrapFunctionProvider 快速接入第三方服务

vue数字公式篇 Tinymce结合使用（二）

Python图像处理——基于CSRNet的人群密度检测系统（Pytorch框架）

【Spring AI】基于专属知识库的RAG智能问答小程序开发——功能优化：用户鉴权相关工具类代码

基于深度学习的图像识别技术在智能安防中的应用

阿里开源首个“混合推理模型”：集成“快思考”、“慢思考”能力

五一假期如何躺赚利息？来看国债逆回购操作攻略

中日友好医院通报“医师肖某被举报”：基本属实，开除党籍并解聘

清华数字政府与治理研究院揭牌：服务数字政府建设需求

上海论坛2025年会聚焦创新的时代，9份复旦智库报告亮相

重新认识中国女性｜婚姻，古代传统家庭再生产的根本之道