【数据可视化-33】病毒式社交媒体潮流与用户参与度可视化分析
🧑 博主简介:曾任某智慧城市类企业
算法总监
,目前在美国市场的物流公司从事高级算法工程师
一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907
)
💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。
【数据可视化-33】病毒式社交媒体潮流与用户参与度可视化分析
- 一、引言
- 二、数据探索
- 2.1 数据集介绍
- 2.2 数据清洗与探索
- 三、单维度特征可视化
- 3.1 平台分布
- 3.2 内容类型分布
- 3.3 互动水平分布
- 3.4 浏览量分布
- 3.5 点赞量分布
- 四、多维度关系可视化
- 4.1 平台与互动水平的关系
- 4.2 内容类型与互动水平的关系
- 4.3 平台与内容类型的关系
- 4.4 不同平台的浏览量与点赞量的关系
- 4.5 平台与互动指标的关系(以点赞和分享为例)
- 4.6 地区与互动水平的关系
- 4.7 标签与互动水平的关系
- 五、总结与洞察
一、引言
数据可视化是探索和理解复杂数据集的强大工具。通过可视化分析,我们可以揭示社交媒体内容的传播趋势、用户互动特征以及各平台之间的差异。本文将基于包含丰富信息的社交媒体趋势数据集,从多个维度进行可视化探索,帮助大家更直观地把握社交媒体的动态变化。
二、数据探索
2.1 数据集介绍
本数据集包含以下变量:
- Post_ID:每条社交媒体帖子的唯一标识符
- Platform:社交媒体平台(TikTok, Instagram, Twitter, YouTube)
- Hashtag:与帖子相关的热门标签
- Content_Type:内容类型(Reel, Video, Post, Shorts, Tweet 等)
- Region:帖子获得 traction 的国家
- Views:帖子获得的总浏览量
- Likes:帖子获得的点赞数
- Shares:帖子被分享的次数
- Comments:帖子获得的评论数
- Engagement_Level:互动水平分类:低、中、高
2.2 数据清洗与探索
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns# 加载数据
df = pd.read_csv('social_media_trends.csv') # 请替换为实际文件路径# 查看数据基本信息
print(df.info())
print(df.describe())# 查看各列唯一值数量
print(df.nunique())
从数据的基本信息中,我们可以发现:
- 数据集包含多种类型变量,包括类别型(如Platform、Content_Type)和数值型(如Views、Likes等)
- 数据中一共包含5000条数据,无缺失值存在
三、单维度特征可视化
3.1 平台分布
plt.figure(figsize=(10, 6))
sns.countplot(x='Platform', data=df)
plt.title('Platform Distribution')
plt.xlabel('Platform')
plt.ylabel('Count')
plt.tight_layout()
plt.show()
观察结果:不同平台的帖子数量差异并不显著,YouTube和TikTok的帖子数量较多。
3.2 内容类型分布
plt.figure(figsize=(10, 6))
sns.countplot(x='Content_Type', data=df)
plt.title('Content Type Distribution')
plt.xlabel('Content Type')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
观察结果:短视频类内容(如 Reel、Post和Live Stream)占比较大,反映了当前社交媒体的趋势。
3.3 互动水平分布
plt.figure(figsize=(10, 6))
sns.countplot(x='Engagement_Level', data=df)
plt.title('Engagement Level Distribution')
plt.xlabel('Engagement Level')
plt.ylabel('Count')
plt.tight_layout()
plt.show()
观察结果:大部分帖子的互动水平集中在高等和低水平,中等互动水平的帖子占比较小。
3.4 浏览量分布
plt.figure(figsize=(12, 6))
sns.histplot(df['Views'], kde=True, color='teal', bins=100)
plt.title('Views Distribution')
plt.xlabel('Views')
plt.tight_layout()
plt.show()
观察结果:浏览量呈现右偏分布,大部分帖子的浏览量集中在较低水平,少数帖子获得极高浏览量。
3.5 点赞量分布
plt.figure(figsize=(12, 6))
sns.histplot(df['Likes'], kde=True, color='coral', bins=100)
plt.title('Likes Distribution')
plt.xlabel('Likes')
plt.tight_layout()
plt.show()
观察结果:点赞量同样呈现右偏分布,与浏览量的趋势类似。
四、多维度关系可视化
4.1 平台与互动水平的关系
plt.figure(figsize=(12, 8))
sns.countplot(x='Platform', hue='Engagement_Level', data=df, palette='Set2')
plt.title('Engagement Level Distribution by Platform')
plt.xlabel('Platform')
plt.ylabel('Count')
plt.legend(title='Engagement Level')
plt.tight_layout()
plt.show()
观察结果:不同平台的互动水平分布差异显著, YouTube和TikTok 高互动水平帖子占比较高,而 Twitter 低互动水平帖子较多。
4.2 内容类型与互动水平的关系
plt.figure(figsize=(12, 8))
sns.countplot(x='Content_Type', hue='Engagement_Level', data=df, palette='husl')
plt.title('Engagement Level Distribution by Content Type')
plt.xlabel('Content Type')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.legend(title='Engagement Level')
plt.tight_layout()
plt.show()
观察结果:短视频类内容(如 Reel、Live Strame)在高互动水平帖子中占比较高,而传统帖子类型(如 Post)低互动水平帖子较多。
4.3 平台与内容类型的关系
plt.figure(figsize=(12, 8))
sns.countplot(x='Platform', hue='Content_Type', data=df, palette='viridis')
plt.title('Content Type Distribution by Platform')
plt.xlabel('Platform')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.legend(title='Content Type', bbox_to_anchor=(1, 1), loc='upper left')
plt.tight_layout()
plt.show()
观察结果:不同平台的内容类型分布差异明显,Instagram 和 TikTok 以视频类内容为主,而 Twitter和YouTube 以 Post 为主。
4.4 不同平台的浏览量与点赞量的关系
plt.figure(figsize=(12, 8))
sns.scatterplot(x='Views', y='Likes', hue='Platform', data=df, palette='coolwarm', alpha=0.6)
plt.title('Views vs Likes Relationship')
plt.xlabel('Views')
plt.ylabel('Likes')
plt.legend(title='Platform', bbox_to_anchor=(1, 1), loc='upper left')
plt.tight_layout()
plt.show()
观察结果:浏览量与点赞量存在显著的正相关关系,浏览量越高的帖子通常获得更多的点赞。
4.5 平台与互动指标的关系(以点赞和分享为例)
plt.figure(figsize=(15, 6))plt.subplot(1, 2, 1)
sns.boxplot(x='Platform', y='Likes', data=df)
plt.title('Likes Distribution by Platform')
plt.xlabel('Platform')
plt.ylabel('Likes')plt.subplot(1, 2, 2)
sns.boxplot(x='Platform', y='Shares', data=df)
plt.title('Shares Distribution by Platform')
plt.xlabel('Platform')
plt.ylabel('Shares')plt.tight_layout()
plt.show()
观察结果:不同平台的互动指标差异显著,TikTok 和 Instagram 的点赞和分享量普遍高于其他平台。
4.6 地区与互动水平的关系
# 提取前10个地区的数据进行展示
top_regions = df['Region'].value_counts().head(10).index
region_df = df[df['Region'].isin(top_regions)]plt.figure(figsize=(15, 8))
sns.countplot(x='Region', hue='Engagement_Level', data=region_df, palette='pastel')
plt.title('Engagement Level Distribution by Region')
plt.xlabel('Region')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.legend(title='Engagement Level')
plt.tight_layout()
plt.show()
观察结果:不同地区的互动水平分布存在差异,部分地区的高互动水平帖子比例较高。
4.7 标签与互动水平的关系
# 提取前20个热门标签进行展示
hashtag_counts = df['Hashtag'].value_counts().head(20).index
hashtag_df = df[df['Hashtag'].isin(hashtag_counts)]plt.figure(figsize=(15, 8))
sns.countplot(x='Hashtag', hue='Engagement_Level', data=hashtag_df, palette='muted')
plt.title('Engagement Level Distribution by Hashtag')
plt.xlabel('Hashtag')
plt.ylabel('Count')
plt.xticks(rotation=45)
plt.legend(title='Engagement Level')
plt.tight_layout()
plt.show()
观察结果:不同标签的互动水平分布差异显著,部分标签的高互动水平帖子比例较高,反映出特定话题的吸引力。
五、总结与洞察
通过以上多维度的可视化分析,我们得出以下关键洞察:
-
平台差异显著:不同平台的内容类型和互动水平分布差异明显,TikTok 和 Instagram 以短视频类内容为主,且高互动水平帖子占比较高。
-
内容类型影响互动:短视频类内容(如 Reel、Shorts)在高互动水平帖子中占比较高,反映了用户对这一内容形式的偏好。
-
浏览量与互动量正相关:浏览量与点赞量、分享量等互动指标存在显著的正相关关系,高浏览量帖子通常获得更多的互动。
-
地区与标签的影响力:不同地区的互动水平分布存在差异,部分地区的高互动水平帖子比例较高。特定标签的高互动水平帖子比例也较高,反映出地域文化和热门话题对互动的影响。
以上分析为理解社交媒体趋势和用户互动模式提供了多维度视角,揭示了各变量之间的潜在关系,为进一步的社交媒体策略制定和内容优化提供了数据支持。