博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
eclipse中单机运行统计单词
阅读量:6368 次
发布时间:2019-06-23

本文共 1082 字,大约阅读时间需要 3 分钟。

hot3.png

package org.apache.spark.examplesimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConf/*统计文档中单词字数出现频率大于threshold,然后再统计这些单词中每个字符出现的数量*/object SparkWordCount {  def main(args: Array[String]) {    val conf = new SparkConf().setAppName(s"Book example: Scala").setMaster("local[2]")    val sc = new SparkContext(conf)     val threshold = 1        // split each document into words    val tokenized = sc.textFile("file:/Users/xxx/Documents/hadoopTools/scala/eclipse/Eclipse.app/Contents/MacOS/workspace/spark1.3.1/src/main/resources/people.txt").flatMap(_.split(" "))        // count the occurrence of each word    val wordCounts = tokenized.map((_, 1)).reduceByKey(_ + _)        // filter out words with less than threshold occurrences    val filtered = wordCounts.filter(_._2 >= threshold)        // count characters    val charCounts = filtered.flatMap(_._1.toCharArray).map((_, 1)).reduceByKey(_ + _)        System.out.println(charCounts.collect().mkString(", "))    sc.stop()  }}

转载于:https://my.oschina.net/forrest420/blog/466067

你可能感兴趣的文章
vsftp 配置
查看>>
VCSA中配置时间和时区,实测至6.5适用
查看>>
高并发IM系统架构优化实践
查看>>
产品经理教你玩转阿里云负载均衡SLB系列(一):快速入门--什么是负载均衡
查看>>
有关linux--进程组、会话、守护进程详解
查看>>
我的友情链接
查看>>
monkeyrunner运行Python脚本来检查apk渠道和验证是否可以调用微信
查看>>
github获得SSH Key解决Permission denied (publickey)问题
查看>>
用java代码编写Oracle存储过程
查看>>
APACHE转发
查看>>
android-market-api
查看>>
解決 yum update錯誤:[Errno -1] Metadata file does not match checksum
查看>>
ASP.NET(C#)Excel导入Dataset的出现数据值丢失问题
查看>>
我的友情链接
查看>>
『Data Science』R语言学习笔记,获取数据
查看>>
rails中n秒页面自动跳转
查看>>
我的友情链接
查看>>
忘记root用户密码怎么办?
查看>>
esxi定时任务
查看>>
Scaffold-DbContext
查看>>