计算文件中单词数的最简单方法

2023-11-23

我正在尝试以最简单的方式编写一个程序来计算 Scala 语言文件中单词出现的次数。到目前为止我有这些代码:

import scala.io.Codec.string2codec
import scala.io.Source
import scala.reflect.io.File

object WordCounter {
    val SrcDestination: String = ".." + File.separator + "file.txt"
    val Word = "\\b([A-Za-z\\-])+\\b".r

    def main(args: Array[String]): Unit = {

        val counter = Source.fromFile(SrcDestination)("UTF-8")
                .getLines
                .map(l => Word.findAllIn(l.toLowerCase()).toSeq)
                .toStream
                .groupBy(identity)
                .mapValues(_.length)

        println(counter)
    }
}

不要担心正则表达式。我想知道如何从中提取单个单词 在此行中检索到的序列:

map(l => Word.findAllIn(l.toLowerCase()).toSeq)

为了得到每个单词出现的次数。目前我正在获取带有计数单词序列的地图。


您可以通过使用正则表达式将文件行拆分为单词"\\W+" (flatmap是惰性的,因此不需要将整个文件加载到内存中)。要计算出现次数,您可以折叠Map[String, Int]用每个单词更新它(比使用更节省内存和时间)groupBy)

scala.io.Source.fromFile("file.txt")
  .getLines
  .flatMap(_.split("\\W+"))
  .foldLeft(Map.empty[String, Int]){
     (count, word) => count + (word -> (count.getOrElse(word, 0) + 1))
  }
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

计算文件中单词数的最简单方法 的相关文章

随机推荐

  • 异步方法不等待函数

    我遇到了这个错误 尽管在 MDN 和这里进行了大量研究 但还没有解决它 我正在尝试使用异步和等待 但 JavaScript 不会等待 等待 函数结束 这里是 methods async search terms done console l
  • 如何使用 Visual Studio 加载项打开 TFS 变更集详细信息对话框视图?

    我在 TFS 中有一个特定的工件 例如变更集 123 它具有 URI vstfs VersionControl Changeset 123 我意识到链接 http tfs 8080 tfs web UI Pages Scc ViewChan
  • 如何跨域postMessage?

    的文档发布消息意味着跨域消息传递是可能的 然而 When the popup has fully loaded if not blocked by a popup blocker 这不是一个非常清楚的注释how真正做到这一点 想象一下两个网
  • 每个会话的 NH 请求 - “会话已关闭!”

    NHibernate版本 2 1 我正在使用似乎非常标准的 HttpModule 方法来在 ASP NET NHibernate 应用程序中实现每个请求会话 我正在尝试利用杠杆WebSessionContext 但它似乎无法正常工作 具体来
  • 如何通过按下 NSButton 来显示键盘?

    我只知道在 iOS 上显示键盘的几种方法 触摸文本字段 搜索栏 文本视图 是否可以通过触摸按钮来显示键盘 如果按钮没有标题或可以重命名 我希望可以使用这种方式设置按钮标题 谢谢各位 您需要添加一个UITextField查看您的视图 然后致电
  • 如何使用 FParsec 解析注释

    我正在尝试使用 FParsec 从 s 表达式语言解析 lisp 风格的注释 我在上一个线程中解析单行注释时得到了一些帮助 如何转换 FParsec 解析器来解析空格 虽然这个问题已经解决 但我仍然需要解析多行注释 这是当前的代码 Read
  • 使用 GUID 的一部分作为 ID

    我正在开发 ASP Net MVC 应用程序 我的行动之一需要id作为参数 例如 public actionresult Detail Guid id return View 正如你所看到的 我正在使用Guid代替Int 这个问题更具装饰性
  • 是否可以知道哪些 SciPy / NumPy 函数在多个内核上运行?

    我试图明确找出 SciPy NumPy 中的哪些函数在多个处理器上运行 我可以例如在 SciPy 参考手册中读到 SciPy 使用了这个 但我更感兴趣的是到底哪些函数确实运行并行计算 因为并非所有函数都这样做 理想的情况当然是当您键入 he
  • GHCi 中的功能非详尽模式

    我想创建一个显示列表最后一个元素的函数 这是我的代码 ghci gt let myLast a gt a ghci gt let myLast error ghci gt let myLast x x ghci gt let myLast
  • “重新打开上次关闭的选项卡”导致显示上次 ajax 请求内容

    我正在使用 HTML 5 历史 api 在 ajax 请求发生时保存状态 并且如果用户请求没有 ajax 请求的同一页面 我会提供完整的 html 内容 浏览器的 重新打开最后关闭的选项卡 功能会带来最后的 ajax 请求内容 而无需访问服
  • 为什么错误处理在 Nodemailer 中不起作用?

    我正在尝试使用 nodemailer 设置一个非常简单的联系表单 它工作正常 但我的问题是它不处理错误 如果引发错误 页面应该重定向 但重定向不会发生并且应用程序停止运行 我一生都无法弄清楚为什么会发生这种情况 这是我的代码 if req
  • d3.js:有限制的平移

    我正在研究具有平移功能的基本线性图表 我设法通过限制图表元素的拖动范围d3 event translate values var tx Math max 0 d3 event translate 0 ty Math min 0 d3 eve
  • 创建 Hermetic Maven 构建

    我正在尝试创建一种可以实现密封构建的方法 同时仍然依赖于项目中的 SNAPSHOT 依赖项 出于示例的目的 假设我有一个项目 其依赖结构如下 other 1 2 SNAPSHOT mine 1 2 3 thing 3 1 SNAPSHOT
  • 在 PyQT5 中创建自定义小部件

    我想知道如何在 pyqt 中创建自定义小部件 我见过许多不同的 C 示例 以及一些 pyqt 的非描述性示例 但没有任何内容真正解释如何执行和实现它 特别是没有任何示例基本上不仅仅是修改后的 qt designer 输出 而且我正在从头开始
  • 如何从 HttpClient 响应访问标头? (角/离子)

    我使用的登录端点返回不记名令牌作为响应标头 正如我在 网络 Chrome 检查窗口中看到的那样 Response Headers Access Control Allow Credentials true Access Control Al
  • 向 TIdHttp 请求添加自定义标头,标头值包含逗号

    我正在使用 Delphi XE2 和 Indy 10 5 8 0 我有一个 TIdHttp 实例 我需要向请求添加自定义标头 标头值中包含逗号 因此它会自动解析为多个标头 我不希望它这样做 我需要自定义标头的标头值仍然是一个字符串 而不是根
  • 在基于Web的Spring范围中使用Thymeleaf处理HTML文件并将处理后的模板存储为字符串

    我正在尝试使用 thymeleaf 渲染 HTML 文件 并将生成的 HTML 内容保存在 String 变量中web based scopes of Spring这样我以后就可以用它来发送电子邮件或将内容转换为 pdf 我已经完成了中给出
  • 查找字符串中最短的重复模式

    我想知道是否有办法在 Octave Matlab 中进行模式匹配 我知道 Maple 10 有执行此操作的命令 但不确定我需要在 Octave Matlab 中做什么 所以如果一个数字是12341234123412341234模式匹配将是1
  • 为什么 &[T] 参数也接受 &Vec

    我正在阅读 Rust 书 即迷你grep项目 在那里我遇到了以下片段 fn main let args Vec
  • 计算文件中单词数的最简单方法

    我正在尝试以最简单的方式编写一个程序来计算 Scala 语言文件中单词出现的次数 到目前为止我有这些代码 import scala io Codec string2codec import scala io Source import sc