当前位置: 首页 > news >正文

【数据可视化-21】水质安全数据可视化:探索化学物质与水质安全的关联

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907

💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。

在这里插入图片描述

【数据可视化-21】水质安全数据可视化:探索化学物质与水质安全的关联

    • 一、项目背景与目标
    • 二、数据集介绍
    • 三、完整代码实现
      • 1. 环境准备与数据加载
      • 2. 数据预处理
      • 3. 探索性分析(EDA)
        • 3.1 化学物质含量与水质安全性的关联
        • 3.2 安全与不安全水样的特性
        • 3.3 识别潜在的危险化学物质
      • 4. 分析结论与洞见
        • 关键发现
        • 业务建议
    • 五、优化方向与思考
      • 数据深化
      • 模型构建
    • 六、完整代码

一、项目背景与目标

  水质安全是一个全球性问题,影响着数十亿人的健康。通过分析水质数据中的化学物质含量,我们可以识别潜在的危险因素,为水质管理和政策制定提供科学依据。

二、数据集介绍

  本数据集包含7999条模拟水质记录,涵盖多种化学物质的浓度测量值,以及一个指示水样是否安全的分类变量。化学物质包括铝、氨、砷、钡、镉等,每种物质都有对应的安全阈值。

三、完整代码实现

1. 环境准备与数据加载

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns# 配置可视化样式
plt.style.use('ggplot')
%matplotlib inline# 加载数据
df = pd.read_csv('/path/to/water_quality.csv')

2. 数据预处理

# 查看数据基本信息
print(df.info())
print(df.describe())# 检查缺失值
print(df.isnull().sum())# 数据重命名,方便后续处理
df = df.rename(columns={'aluminium': 'Al','ammonia': 'NH3','arsenic': 'As','barium': 'Ba','cadmium': 'Cd','chloramine': 'ClNH2','chromium': 'Cr','copper': 'Cu','flouride': 'F','bacteria': 'Bacteria','viruses': 'Viruses','lead': 'Pb','nitrates': 'NO3','nitrites': 'NO2','mercury': 'Hg','perchlorate': 'ClO4','radium': 'Ra','selenium': 'Se','silver': 'Ag','uranium': 'U'
})

3. 探索性分析(EDA)

3.1 化学物质含量与水质安全性的关联
# 计算相关系数矩阵(皮尔逊相关系数)
corr_matrix = df.corr()# 绘制热力图
plt.figure(figsize=(15, 10))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('化学物质含量与水质安全性的相关性热力图')
plt.show()

# 绘制关键化学物质与安全性的散点图
key_substances = ['Al', 'NH3', 'As', 'Ba', 'Cd', 'ClNH2', 'Cr', 'Cu', 'F', 'Bacteria', 'Viruses', 'Pb', 'NO3', 'NO2', 'Hg', 'ClO4', 'Ra', 'Se', 'Ag', 'U']for substance in key_substances:plt.figure(figsize=(10, 6))sns.scatterplot(x=substance, y='is_safe', data=df, hue='is_safe', palette='viridis')plt.title(f'{substance} 含量与水质安全性关系')plt.xlabel(f'{substance} 浓度')plt.ylabel('是否安全')plt.grid(True)plt.show()

3.2 安全与不安全水样的特性
# 绘制关键化学物质在安全与不安全水样中的分布
fig, axes = plt.subplots(4, 5, figsize=(30, 18))  # 创建一个5行4列的画布
axes = axes.flatten()  # 将2D的axes数组转换为1Dfor idx, substance in enumerate(key_substances):# 在指定的子图上绘制散点图sns.boxplot(x='is_safe', y=substance, data=df, ax=axes[idx])#sns.scatterplot(x=substance, y='is_safe', data=df, hue='is_safe', palette='viridis', ax=axes[idx])axes[idx].set_title(f'{substance} 在安全与不安全水样中的分布')axes[idx].set_xlabel(f'{substance} 浓度')axes[idx].set_ylabel('是否安全')axes[idx].grid(True)plt.tight_layout()  # 自动调整子图参数,防止重叠
plt.show()

3.3 识别潜在的危险化学物质
# 绘制箱线图识别各化学物质中的异常值
fig, axes = plt.subplots(4, 5, figsize=(30, 18))  # 创建一个5行4列的画布
axes = axes.flatten()  # 将2D的axes数组转换为1D# 绘制箱线图识别各化学物质中的异常值
for idx, substance in enumerate(key_substances):# plt.figure(figsize=(10, 6))sns.boxplot(x=df[substance],ax=axes[idx])axes[idx].set_title(f'{substance} 含量的异常值分析')axes[idx].set_xlabel(f'{substance} 浓度')axes[idx].set_ylabel('是否安全')axes[idx].grid(True)plt.tight_layout()  # 自动调整子图参数,防止重叠
plt.show()

4. 分析结论与洞见

关键发现
  1. 砷 (As)铅 (Pb)镉 (Cd) 与水质安全性呈现显著负相关,浓度越高,水质越可能不安全。
  2. 细菌 (Bacteria)病毒 (Viruses) 的存在显著降低了水质安全性。
  3. 硝酸盐 (NO3)亚硝酸盐 (NO2) 的浓度升高与水质不安全存在关联。
业务建议
  1. 加强砷、铅和镉的监测:重点关注这些化学物质的排放源和处理过程。
  2. 改善微生物污染控制:加强对水体中细菌和病毒的处理,确保微生物指标达标。
  3. 综合水质管理:结合多种化学和生物指标,制定全面的水质安全标准。

五、优化方向与思考

数据深化

  1. 整合时空数据:结合水质数据的时空信息,分析污染源的扩散路径。
  2. 引入外部数据:如气象数据、工业活动数据等,探索更广泛的水质影响因素。

模型构建

  1. 构建预测模型:使用机器学习算法预测水质安全趋势。
  2. 开发预警系统:实时监控关键指标,及时发出水质安全预警。

  通过数据可视化,我们能够清晰地看到化学物质含量与水质安全性的关系,为水质管理和政策制定提供有力支持。希望本文能为相关领域的研究和实践提供有价值的参考。

六、完整代码

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns# 配置可视化样式
plt.style.use('ggplot')
%matplotlib inline# 加载数据
df = pd.read_csv('/path/to/water_quality.csv')# 查看数据基本信息
print(df.info())
print(df.describe())# 检查缺失值
print(df.isnull().sum())# 数据重命名,方便后续处理
df = df.rename(columns={'aluminium': 'Al','ammonia': 'NH3','arsenic': 'As','barium': 'Ba','cadmium': 'Cd','chloramine': 'ClNH2','chromium': 'Cr','copper': 'Cu','flouride': 'F','bacteria': 'Bacteria','viruses': 'Viruses','lead': 'Pb','nitrates': 'NO3','nitrites': 'NO2','mercury': 'Hg','perchlorate': 'ClO4','radium': 'Ra','selenium': 'Se','silver': 'Ag','uranium': 'U'
})# 计算相关系数矩阵(皮尔逊相关系数)
corr_matrix = df.corr()# 绘制热力图
plt.figure(figsize=(15, 10))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('化学物质含量与水质安全性的相关性热力图')
plt.show()# 绘制关键化学物质与安全性的散点图
key_substances = ['Al', 'NH3', 'As', 'Ba', 'Cd', 'ClNH2', 'Cr', 'Cu', 'F', 'Bacteria', 'Viruses', 'Pb', 'NO3', 'NO2', 'Hg', 'ClO4', 'Ra', 'Se', 'Ag', 'U']for substance in key_substances:plt.figure(figsize=(10, 6))sns.scatterplot(x=substance, y='is_safe', data=df, hue='is_safe', palette='viridis')plt.title(f'{substance} 含量与水质安全性关系')plt.xlabel(f'{substance} 浓度')plt.ylabel('是否安全')plt.grid(True)plt.show()# 绘制关键化学物质在安全与不安全水样中的分布
fig, axes = plt.subplots(4, 5, figsize=(30, 18))  # 创建一个5行4列的画布
axes = axes.flatten()  # 将2D的axes数组转换为1Dfor idx, substance in enumerate(key_substances):# 在指定的子图上绘制散点图sns.boxplot(x='is_safe', y=substance, data=df, ax=axes[idx])#sns.scatterplot(x=substance, y='is_safe', data=df, hue='is_safe', palette='viridis', ax=axes[idx])axes[idx].set_title(f'{substance} 在安全与不安全水样中的分布')axes[idx].set_xlabel(f'{substance} 浓度')axes[idx].set_ylabel('是否安全')axes[idx].grid(True)plt.tight_layout()  # 自动调整子图参数,防止重叠
plt.show()# 绘制箱线图识别各化学物质中的异常值
fig, axes = plt.subplots(4, 5, figsize=(30, 18))  # 创建一个5行4列的画布
axes = axes.flatten()  # 将2D的axes数组转换为1D# 绘制箱线图识别各化学物质中的异常值
for idx, substance in enumerate(key_substances):# plt.figure(figsize=(10, 6))sns.boxplot(x=df[substance],ax=axes[idx])axes[idx].set_title(f'{substance} 含量的异常值分析')axes[idx].set_xlabel(f'{substance} 浓度')axes[idx].set_ylabel('是否安全')axes[idx].grid(True)plt.tight_layout()  # 自动调整子图参数,防止重叠
plt.show()

相关文章:

  • Qt开发:软件崩溃时,如何生成dump文件
  • ffmpeg 硬解码相关知识
  • Spring之我见 - Spring MVC重要组件和基本流程
  • 开启报名!火山引擎 x PICO-全国大学生物联网设计竞赛赛题发布
  • 【MATLAB第117期】#源码分享 | 基于MATLAB的SSM状态空间模型多元时间序列预测方法(多输入单输出)
  • 【随手记】jupyter notebook绘制交互式图像
  • Shell循环语句---for和while
  • 【上海大学数据库原理实验报告】MySQL数据库的C/S模式部署
  • 发送百度地图的定位
  • 物联网蓬勃发展是助力楼宇自控技术迈向成熟的关键
  • AI 健康小屋:开启智慧健康管理新范式
  • # 06_Elastic Stack 从入门到实践(六)
  • ffmpeg av_buffer_unref的逻辑实现; av_freep 和 av_freep函数的区别
  • 用c语言实现——一个带头节点的链队列,支持用户输入交互界面、初始化、入队、出队、查找、判空判满、显示队列、遍历计算长度等功能
  • 神经网络权重优化秘籍:梯度下降法全解析(五)
  • 记录一次使用面向对象的C语言封装步进电机驱动
  • Shell脚本中的字符串截取和规则变化
  • 深度学习基石:神经网络核心知识全解析(一)
  • 运行neo4j.bat console 报错无法识别为脚本,PowerShell 教程:查看语言模式并通过注册表修改受限模式
  • 【Java面试笔记:基础】5.String、StringBuffer、StringBuilder有什么区别?
  • 降低血压可减少痴呆症发生风险
  • 证券时报:金价再创历史新高,“避险”黄金不应异化为投机工具
  • 成都两宗宅地成功出让,民企四川联投溢价33%竞得郫都区宅地
  • 日媒:日本公明党党首将访华,并携带石破茂亲笔信
  • 竹笋食用不当,小心“鲜”变“险”
  • 谁在贩卖个人信息?教培机构信息失守,电商平台“订单解密”