第四章第四节 Spark-Streaming核心编程(三)
打开kafka集群
Spark Streaming支持多种数据源接入方式,有两种典型场景
基于Filebeat的目录监控:通过Filebeat实时监控指定目录(如日志目录),将新增文件内容采集并推送至Kafka消息队列。这种方式适用于需要持久化数据的场景,同时利用Kafka的缓冲能力应对数据峰值。
直接对接Kafka流:通过KafkaUtils.createDirectStream API直接从Kafka指定Topic消费数据,适用于高吞吐、低延迟的实时处理场景。
Transform
transform允许对DStream中的每个RDD应用任意RDD转换函数,扩展数据处理灵活性。
应用场景:需调用未在DStream API中封装的方法(如自定义RDD算子)。
join
合并来自两个Socket源的单词计数流和标签流。