3.8.1 利用RDD实现词频统计

本次实战旨在利用Spark RDD编程模型，完整实现经典的词频统计（WordCount）案例。实验首先准备了包含多行英文单词的文本数据，并将其上传至HDFS分布式文件系统以供读取。

实战过程涵盖了交互式开发与项目式开发两种模式。在交互式环节，通过Spark Shell分步演示了核心算子的应用：利用textFile加载数据，通过flatMap将文本行扁平化拆分为单词数组，接着使用map将单词映射为(word, 1)键值对，再通过reduceByKey进行聚合计数，最后利用sortBy按词频降序排列并输出结果。

在项目式开发环节，基于Maven构建了标准的Scala工程，配置了Spark核心依赖与日志属性。通过编写WordCount对象，将上述转换逻辑封装为完整的批处理作业，实现了从HDFS读取源文件、执行分布式计算到将最终统计结果写回HDFS的全流程。该实战不仅验证了RDD在处理大规模文本数据时的并行计算能力，也展示了从代码开发、本地调试到集群任务提交的标准化大数据开发链路。
在这里插入图片描述