计算文件中单词数的最简单方法

2023-11-23

我正在尝试以最简单的方式编写一个程序来计算 Scala 语言文件中单词出现的次数。到目前为止我有这些代码：

import scala.io.Codec.string2codec
import scala.io.Source
import scala.reflect.io.File

object WordCounter {
    val SrcDestination: String = ".." + File.separator + "file.txt"
    val Word = "\\b([A-Za-z\\-])+\\b".r

    def main(args: Array[String]): Unit = {

        val counter = Source.fromFile(SrcDestination)("UTF-8")
                .getLines
                .map(l => Word.findAllIn(l.toLowerCase()).toSeq)
                .toStream
                .groupBy(identity)
                .mapValues(_.length)

        println(counter)
    }
}

不要担心正则表达式。我想知道如何从中提取单个单词在此行中检索到的序列：

map(l => Word.findAllIn(l.toLowerCase()).toSeq)

为了得到每个单词出现的次数。目前我正在获取带有计数单词序列的地图。

您可以通过使用正则表达式将文件行拆分为单词"\\W+" (flatmap是惰性的，因此不需要将整个文件加载到内存中）。要计算出现次数，您可以折叠Map[String, Int]用每个单词更新它（比使用更节省内存和时间）groupBy)

scala.io.Source.fromFile("file.txt")
  .getLines
  .flatMap(_.split("\\W+"))
  .foldLeft(Map.empty[String, Int]){
     (count, word) => count + (word -> (count.getOrElse(word, 0) + 1))
  }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

计算文件中单词数的最简单方法的相关文章

在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
如何在映射中将字符串转换为 Seq[String]

我有一个Map String String 以及需要的第三方功能Map String Seq String 有没有一种简单的方法来转换它以便我可以将地图传递给函数 original mapValues Seq 注意mapValues返回地
Scala中有类似Java Stream的“peek”操作吗？

在Java中你可以调用peek x gt println x 在 Stream 上它将对每个元素执行操作并返回原始流这与 foreach 不同 foreach 是 Unit Scala 中是否有类似的东西最好是适用于所有 Monady
在 Scala 中将元素追加到列表末尾

我无法添加 type 元素T到一个列表中List T 我尝试过myList myElement但它似乎创建了一个奇怪的对象并访问myList last始终返回放入列表中的第一个元素我怎么解决这个问题 List 1 2 3 4 Result
scala中的反引号有什么用[重复]

这个问题在这里已经有答案了我在一本书上找到了以下代码 val list List 5 4 3 2 1 val result 0 list running total next element running total next elem
Slick和bonecp：org.postgresql.util.PSQLException：FATAL：抱歉，太多客户端已经错误

当我在本地开发应用程序时我使用以下命令启动我的 play2 应用程序sbt run 我喜欢如何更改代码然后重新加载浏览器以查看我的更改在大约 10 次代码更改之后我收到 postgresql 太多连接错误见下文我的数据库连接使用
Java 8 Stream，获取头部和尾部

Java 8 引入了Stream http download java net jdk8 docs api java util stream Stream html类似于 Scala 的类Stream http www scala lang
应对失败的“未来”

给出以下两种方法 def f Future Int Future 10 def g Future Int Future 5 我想把它们写成 scala gt import scala concurrent Future import sca
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
在scala 2.13中，为什么有时无法显式调用类型类？

这是 Shapeless 2 3 3 中的一个简单示例 val book author gt gt Benjamin Pierce title gt gt Types and Programming Languages id gt gt 2
Akka-Http 2.4.9 抛出 java.lang.NoClassDefFoundError: akka/actor/ActorRefFactory 异常

我正在尝试使用 Akka http 构建一个简单的 Web 服务我遵循了这个指南 http doc akka io docs akka 2 4 9 scala http low level server side api html htt
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
在 Scala 中提取案例类字段名称

我有一个案例类 case class A field1 String field2 Int 我想在某些代码中引用确切的字符串 field1 例如 val q Query field1 gt hello performQuery q 现在我必

随机推荐

异步方法不等待函数

我遇到了这个错误尽管在 MDN 和这里进行了大量研究但还没有解决它我正在尝试使用异步和等待但 JavaScript 不会等待等待函数结束这里是 methods async search terms done console l
如何使用 Visual Studio 加载项打开 TFS 变更集详细信息对话框视图？

我在 TFS 中有一个特定的工件例如变更集 123 它具有 URI vstfs VersionControl Changeset 123 我意识到链接 http tfs 8080 tfs web UI Pages Scc ViewChan
如何跨域postMessage？

的文档发布消息意味着跨域消息传递是可能的然而 When the popup has fully loaded if not blocked by a popup blocker 这不是一个非常清楚的注释how真正做到这一点想象一下两个网
每个会话的 NH 请求 - “会话已关闭！”

NHibernate版本 2 1 我正在使用似乎非常标准的 HttpModule 方法来在 ASP NET NHibernate 应用程序中实现每个请求会话我正在尝试利用杠杆WebSessionContext 但它似乎无法正常工作具体来
如何通过按下 NSButton 来显示键盘？

我只知道在 iOS 上显示键盘的几种方法触摸文本字段搜索栏文本视图是否可以通过触摸按钮来显示键盘如果按钮没有标题或可以重命名我希望可以使用这种方式设置按钮标题谢谢各位您需要添加一个UITextField查看您的视图然后致电
如何使用 FParsec 解析注释

我正在尝试使用 FParsec 从 s 表达式语言解析 lisp 风格的注释我在上一个线程中解析单行注释时得到了一些帮助如何转换 FParsec 解析器来解析空格虽然这个问题已经解决但我仍然需要解析多行注释这是当前的代码 Read
使用 GUID 的一部分作为 ID

我正在开发 ASP Net MVC 应用程序我的行动之一需要id作为参数例如 public actionresult Detail Guid id return View 正如你所看到的我正在使用Guid代替Int 这个问题更具装饰性
是否可以知道哪些 SciPy / NumPy 函数在多个内核上运行？

我试图明确找出 SciPy NumPy 中的哪些函数在多个处理器上运行我可以例如在 SciPy 参考手册中读到 SciPy 使用了这个但我更感兴趣的是到底哪些函数确实运行并行计算因为并非所有函数都这样做理想的情况当然是当您键入 he
GHCi 中的功能非详尽模式

我想创建一个显示列表最后一个元素的函数这是我的代码 ghci gt let myLast a gt a ghci gt let myLast error ghci gt let myLast x x ghci gt let myLast
“重新打开上次关闭的选项卡”导致显示上次 ajax 请求内容

我正在使用 HTML 5 历史 api 在 ajax 请求发生时保存状态并且如果用户请求没有 ajax 请求的同一页面我会提供完整的 html 内容浏览器的重新打开最后关闭的选项卡功能会带来最后的 ajax 请求内容而无需访问服
为什么错误处理在 Nodemailer 中不起作用？

我正在尝试使用 nodemailer 设置一个非常简单的联系表单它工作正常但我的问题是它不处理错误如果引发错误页面应该重定向但重定向不会发生并且应用程序停止运行我一生都无法弄清楚为什么会发生这种情况这是我的代码 if req
d3.js：有限制的平移

我正在研究具有平移功能的基本线性图表我设法通过限制图表元素的拖动范围d3 event translate values var tx Math max 0 d3 event translate 0 ty Math min 0 d3 eve
创建 Hermetic Maven 构建

我正在尝试创建一种可以实现密封构建的方法同时仍然依赖于项目中的 SNAPSHOT 依赖项出于示例的目的假设我有一个项目其依赖结构如下 other 1 2 SNAPSHOT mine 1 2 3 thing 3 1 SNAPSHOT
在 PyQT5 中创建自定义小部件

我想知道如何在 pyqt 中创建自定义小部件我见过许多不同的 C 示例以及一些 pyqt 的非描述性示例但没有任何内容真正解释如何执行和实现它特别是没有任何示例基本上不仅仅是修改后的 qt designer 输出而且我正在从头开始
如何从 HttpClient 响应访问标头？（角/离子）

我使用的登录端点返回不记名令牌作为响应标头正如我在网络 Chrome 检查窗口中看到的那样 Response Headers Access Control Allow Credentials true Access Control Al
向 TIdHttp 请求添加自定义标头，标头值包含逗号

我正在使用 Delphi XE2 和 Indy 10 5 8 0 我有一个 TIdHttp 实例我需要向请求添加自定义标头标头值中包含逗号因此它会自动解析为多个标头我不希望它这样做我需要自定义标头的标头值仍然是一个字符串而不是根
在基于Web的Spring范围中使用Thymeleaf处理HTML文件并将处理后的模板存储为字符串

我正在尝试使用 thymeleaf 渲染 HTML 文件并将生成的 HTML 内容保存在 String 变量中web based scopes of Spring这样我以后就可以用它来发送电子邮件或将内容转换为 pdf 我已经完成了中给出
查找字符串中最短的重复模式

我想知道是否有办法在 Octave Matlab 中进行模式匹配我知道 Maple 10 有执行此操作的命令但不确定我需要在 Octave Matlab 中做什么所以如果一个数字是12341234123412341234模式匹配将是1
为什么 &[T] 参数也接受 &Vec？

我正在阅读 Rust 书即迷你grep项目在那里我遇到了以下片段 fn main let args Vec
计算文件中单词数的最简单方法

我正在尝试以最简单的方式编写一个程序来计算 Scala 语言文件中单词出现的次数到目前为止我有这些代码 import scala io Codec string2codec import scala io Source import sc

计算文件中单词数的最简单方法

计算文件中单词数的最简单方法 的相关文章

随机推荐

热门标签

计算文件中单词数的最简单方法的相关文章