当前位置: 首页 > news >正文

Buffer overFolw---Kryo序列化出现缓冲区溢出的问题解决

问题:        

        由于我的数据量太大,我设置批次为10000万,50w数据大概有400M左右,然后进行spark数据处理时候报错为org.apache.spark.SparkException:Kryo serialization failed:Buffer overFolw.Available:0,rquired 58900977,To avoid this ,increase spark.kryoserializer.buffer.max value.......

        先mark一下,晚点解决

        

问题分析:        

问题解决:

这个问题经过我的测试以及设置,解决方案很简单,只需要添加一个参数就行

Spark 的配置中增加 spark.kryoserializer.buffer.max 的值,我一开始值只有128m,太小了,调整一下

--conf spark.kryoserializer.buffer.max=512m // 设置 Kryo 序列化缓冲区最大值

或者可以在代码里面直接加上

  .config("spark.kryoserializer.buffer.max", "512m")

就是这个参数,可以完美解决

相关文章:

  • Spring Cache 实战指南
  • 华为机试牛客刷题之HJ58 输入n个整数,输出其中最小的k个
  • 掌握 Postman:高级 GET 请求技术与响应分析
  • Ubuntu22.04美化MacOS主题
  • 什么是正文化
  • 【CSS3】完整修仙功法
  • WordPress 代码高亮插件 io code highlight
  • 【C++】string类字符串详细解析
  • SCI英文论文Accepted后的第一步——Rights and Access
  • Jenkins 集成 SonarQube 代码静态检查使用说明
  • 【Rust】一文掌握 Rust 的详细用法(Rust 备忘清单)
  • python打包辅助工具
  • 【视频】OpenCV:色彩空间转换、灰度转伪彩
  • react自定义hook
  • 排序复习_代码纯享
  • batman-adv 优化:基于信号强度(RSSI)选择链路
  • SpringCloud配置中心:Config Server与配置刷新机制
  • 使用 Python 和 python-pptx 构建 Markdown 到 PowerPoint 转换器
  • 华为OD机试 - 核酸最快检测效率 - 动态规划、背包问题(Java 2024 E卷 200分)
  • 深入理解 HTML5 Web Workers:提升网页性能的关键技术解析
  • 报告:到2030年我国无人机产业将率先实现万亿规模
  • 伊朗港口爆炸致18死800余伤,三分之二伤者已出院
  • 南阳市委原书记朱是西被“双开”:搞劳民伤财的“政绩工程”
  • 106岁东江纵队老战士、四川省侨联名誉主席邱林逝世
  • 《深化养老服务改革发展的大湾区探索》新书将于今年6月出版
  • 本周看啥|在电影院里听民谣,听摇滚,燥起来吧