在java中计算.txt文件中的单词频率

2023-12-06

我正在做一项计算机科学作业。最后，程序将确定文件是用英语还是法语编写的。现在，我正在努力研究计算 .txt 文件中出现的单词频率的方法。

我在各自的文件夹中拥有一组英语和法语文本文件，标记为 1-20。该方法要求一个目录（在本例中为“docs/train/eng/”或“docs/train/fre/”）以及程序应遍历的文件数量（每个文件夹中有 20 个文件）。然后它读取该文件，将所有单词分开（我不需要担心大小写或标点符号），并将每个单词以及它们在文件中出现的次数放入 HashMap 中。（关键字=单词，值=频率）。

这是我为该方法想出的代码：

public static HashMap<String, Integer> countWords(String directory, int nFiles) {
// Declare the HashMap
HashMap<String, Integer> wordCount = new HashMap();

// this large 'for' loop will go through each file in the specified directory.
for (int k = 1; k < nFiles; k++) {
  // Puts together the string that the FileReader will refer to.
  String learn = directory + k + ".txt";

try {
  FileReader reader = new FileReader(learn);
  BufferedReader br = new BufferedReader(reader);
  // The BufferedReader reads the lines

  String line = br.readLine();


  // Split the line into a String array to loop through
  String[] words = line.split(" ");
  int freq = 0;

  // for loop goes through every word
  for (int i = 0; i < words.length; i++) {
    // Case if the HashMap already contains the key.
    // If so, just increments the value

    if (wordCount.containsKey(words[i])) {         
      wordCount.put(words[i], freq++);
    }
    // Otherwise, puts the word into the HashMap
    else {
      wordCount.put(words[i], freq++);
    }
  }
  // Catching the file not found error
  // and any other errors
}
catch (FileNotFoundException fnfe) {
  System.err.println("File not found.");
}
catch (Exception e) {
  System.err.print(e);
   }
 }
return wordCount;
}

代码编译。不幸的是，当我要求它打印 20 个文件的所有字数统计结果时，它打印了这个。这完全是胡言乱语（尽管这些词肯定在那里），而且根本不是我需要该方法执行的操作。

如果有人可以帮助我调试我的代码，我将不胜感激。我已经这样做了很多年，进行了一次又一次的测试，我准备放弃。

让我在这里结合所有好的答案。

1）分解你的方法，每个方法处理一件事。一个用于将文件读入字符串[]，一个用于处理字符串[]，一个用于调用前两个。

2）当你分手时，深入思考你想如何分手。正如 @m0skit0 建议的那样，对于这个问题，您可能应该与 \b 分开。

3）正如@jas建议的，你应该首先检查你的地图是否已经有这个词。如果它确实增加了计数，如果没有，则将单词添加到映射中并将其计数设置为 1。

4) 要按照您可能期望的方式打印地图，请查看以下内容：

Map test = new HashMap();

for (Map.Entry entry : test.entrySet()){
  System.out.println(entry.getKey() + " " + entry.getValue());
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

loops

HashMap

trycatch

在java中计算.txt文件中的单词频率的相关文章

在 String 值之后打印 int 值

我有以下示例代码 int pay 80 int bonus 65 System out println pay bonus bonus pay 有人可以向我解释一下为什么我得到以下输出 145 6580 您的代码正在从左到右解释表达式 pa
将处理项目移至 Eclipse

我已经在处理项目上工作了一段时间现在想将其移至 Eclipse 中我已经在 Eclipse 环境中安装了 Proclipse 我有很多扩展名为 pde 的文件然而 Proclipse 文件都以 java 结尾所有 pde 文件都存在
JAVA 中的 Composer 相当于什么？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我目前从 PHP 转向 java 有没有类似的工具composer https getcomposer org 在 PHP 中用于 JAV
类型已知，但方法指的是缺失类型

我对 java 和 Eclipse 不太有经验但遇到以下问题我正在写类似的东西 Point3D myPoint myClass myMethod arg 我收到错误方法 myMethod myType arg 引用缺失的类型 Poin
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
如何从 Java 访问 Windows 设备管理器中的信息？

我有一个串行 USB 设备并且其中多个设备可以连接到计算机我需要查询和检索设备连接到的 COM 端口列表在 Windows 设备管理器中您可以获得当前连接的设备的 COM 端口友好名称该列表是动态的从注册表中读取不工作 htt
获取Android库中的上下文

我正在编写一个 Android 应用程序它的一些功能封装在内部库中但是要使此功能发挥作用库需要一个应用程序上下文的实例为图书馆提供这种上下文的最佳方式是什么我看到了一些选择但没有一个有吸引力 Have my library c
未注入带有 JPA2 的 Apache Ignite 2.7 IgniteRepository

使用在 Web 上建立的 guildes 我使用 Spring Data JPA 2 应用程序制作了简单的 Spring Boot 2 仅在 2 7 版本中才向 Apache Ignite 添加了 Spring Boot JPA 2 支持
Maven WebApp META-INF context.xml

我正在使用 Maven 3 并且尝试在 webapp 文件夹下添加 META INF 文件夹所以我正在尝试执行以下操作 src main webapp META INF context xml WEB INF 下面是我的 POM 文件
绘制平滑曲线

我想创建更平滑的曲线而不仅仅是线角这是我现在画的图这是我的代码 case FREEHAND float pts float ptk ptk new float 2 imageMatrix invert inv if mCurrentS
如何在Netbeans中设置JList的ListModel？

我在 Netbeans IDE 的帮助下设计了一个 Swing GUI 该 GUI 包含一个 JList 默认情况下它使用 QAbstractListModel 将其作为 JList 构造函数中的参数传递以创建该 JList 我想在 Ne
使用 Guava Ordering 对对象列表进行多条件排序

我有一个类无法实现可比较但需要根据 2 个字段进行排序我怎样才能用番石榴实现这一目标假设班级是 class X String stringValue java util Date dateValue 我有一个清单 List
JPA Web 应用程序管理策略

我们目前正在开发一个 J2EE Web 应用程序使用 JPA 作为我们的数据访问层我们目前正在研究几种不同的策略来在我们的应用程序中利用缓存 Create an EntityManager per request 在请求范围内获取缓存
Janusgraph 0.3.2 + HBase 1.4.9 - 无法设置 graph.timestamps

我在 Docker 容器中运行 Janusgraph 0 3 2 并尝试使用运行 HBase 1 4 9 的 AWS EMR 集群作为存储后端我可以运行 gremlin server sh 但如果我尝试保存某些内容我会得到粘贴在下面的堆
java.lang.UnsatisfiedLinkError - android studio gradle 中的 NDK？

文件夹结构 app main java jni Android mk Application mk hello jni c res 在构建 gradle apply plugin com android application androi
检查按钮是否可用？如果没有，请等待 5 秒钟，然后再次检查？

基本上我想看看此刻是否可以单击按钮如果没有我想再试一次所以我需要某种 goto 函数来返回到代码的前一行尽管我怀疑我写得非常糟糕但它本来可以做得更容易 try driver findElement By xpath button i
Firebase：用户注册后如何进行电话号码验证？

所以我知道我可以使用电子邮件验证或电话号码验证但我想做的是在用户注册或登录后进行电话号码验证如何连接这两种身份验证方法最后 Firebase中是否有一个函数可以检查用户是否通过电话号码验证谢谢即使用户已通过身份验证您仍然可以使用
java Web应用程序中的日期转换

String date1 13 03 2014 16 56 46 AEDT SimpleDateFormat sdf new SimpleDateFormat dd MM yyyy HH mm ss z sdf setTimeZone Ti
com.sun.xml.ws.message.saaj.SAAJHeader 无法转换为 com.sun.xml.ws.security.opt.impl.outgoing.SecurityHeader

我正在尝试访问第三方 Web 服务该服务要求我创建一个传递时间信息用户名和密码的安全标头我在网上搜索了可行的示例并尝试了多种方法我正在尝试使用 Java 6 中内置的内容来做到这一点我不确定我做错了什么从 WSDL 生成 We
我怎样才能限定我不“拥有”的自动装配设置器

要点是 Spring Batch v2 测试框架具有JobLauncherTestUtils setJob与 Autowired注解我们的测试套件有多个Job类提供者由于这个类不是我可以修改的东西我不确定如何限定它自动连接的作业每个

随机推荐

在 Python/Pygame 中获取没有焦点的输入？

我正在为自己创建一个小应用程序以便能够显示我的键盘输入并在操纵杆布局中显示它们如下所示这本身在 Pygame 窗口聚焦时工作得很好我的问题是我不能一直聚焦它事实上它永远不会聚焦因为无论哪种方式我将使用 OBS 进行流式传输或
Python函数：可选参数计算一次？

Python教程4 7 1 默认参数值陈述如下重要警告默认值仅计算一次这会有所不同当默认值是可变对象例如列表字典或大多数对象的实例时类例如以下函数累积传递给它的参数后续调用 def f a L L append a r
带有 Surefire 的 Maven 拒绝运行单一测试方法？

我一直在尝试使用 Maven 和 Surefire 插件来运行一些 JUnit 单元测试按照 Maven 和 Surefire 人员提供的说明进行操作 http maven apache org surefire maven surefi
Sqlite3 activerecord :order => "time DESC" 不排序

导轨 2 3 4 sqlite3 我正在尝试这个 Production find all conditions gt 时间 gt start time utc order gt 时间 DESC 限制 gt 100 The 状况工作完美但我
使用 GDI 创建 8bpp 位图并将其保存为文件

我有一个完美工作的代码可以创建 32bpp 位图我需要更改它以便创建 8bpp 位图下面是创建 32bpp 位图绘制其中的代码然后创建一个位图文件并将其存储到字节向量中 prepare bitmap BYTE bitmap dat
反应式编程：Spring WebFlux：如何构建微服务调用链？

Spring Boot应用 a RestController接收以下有效负载 cartoon The Little Mermaid characterNames Ariel Prince Eric Sebastian Flounder 我需
地理定位方法查看用户是否在特定区域

我正在为葡萄牙一家名为 Olivier 的餐厅开发一个应用程序目前我正在研究phonegap的地理定位api 我还没有找到解决我的问题的方法即检查用户位置是否在餐厅内更具体地说我希望我的应用程序在用户位于餐厅区域内通过地理位置时
onsubmit return false 不起作用，表单仍然提交？

这是代码
Java中如何获取系统变量值？

如何获取存在于中的系统变量值 MyComputer gt Properties gt Advanced gt Environment Variables gt System Variables in Java Edit 我用过System
在分区上合并列中的值

我选择通过一个例子来提出这个问题因为我认为它最清楚地说明了我正在尝试做的事情假设我有下表 member number time 1 2 19 21 1 4 19 24 1 27 19 37 2 4 19 01 2 7 21 56 2 8
如何取消UIView基于块的动画？

我已经搜索了很多东西和苹果的参考资料但仍然无法解决我的问题我拥有的一个屏幕有 2UIImageViews and 2 UIButton与他们相连 2 kinds of animation 放大然后缩小每张图像一个接一个仅一次vie
Apple 取消了仅在 Web 应用程序中在 iOS 6 上串流 Shoutcast 和 Icecast 的可能性？

我刚刚制作了一个可以添加我最喜欢的广播电台的网络应用程序我很久以前就尝试过但没有成功所以我真的很惊讶我的 iPad 1 与 IOS 5 1 1 接受所有类型的流或播放列表我可以播放 pls m3u mp3 流 shoutcast 直
使用 TimeZone 和 SimpleDateFormat 进行日期解析/格式化会在 DST 切换时给出不同的结果

我在 Google 和 Stack Overflow 上浏览了多篇关于 TimeZone 和 SimpleDateFormat 的帖子但仍然不明白我做错了什么我正在处理一些遗留代码并且有一个方法 parseDate 它给出了错误的结果
删除括号内的字符串

再会我需要一些帮助来删除方括号内的字符串并包括方括号该字符串如下所示 string Lorem ipsum dolor br Context are found on www example com br some text here
双击多边形时禁用缩放

我在地图上有一些多边形当用户双击它们时我不希望发生缩放但是我希望在地图的其他部分启用双击缩放我有什么办法可以实现这个吗多谢观察多边形的 dblclick 事件并在事件发生时调用该事件的 stop 方法 google maps
带浮动的无限 for 循环

考虑以下代码 for float i 0f i lt int MaxValue i Some code Which is supposed to loop from 0 to int MaxValue 231 1 but it doesn
Angular UI 引导程序日期模型与日期选择器之间不匹配

看看这个笨蛋 http plnkr co edit gSTqtxfcEjrYLt1mIzVD p preview 我从一个例子中获取了这个给出于https angular ui github io bootstrap 日期选择器的演示在
使用 PDO 准备 SQL 语句

我的代码如下所示 Connect to SQLite DB DB path to sqlite db DB BEGIN TRANSACTION These loops are just examples for i 1 i lt 10000
是什么原因导致此 NameError: name 'ax' is not Define in my Python code？

所以我想用这段代码构建一个折线图 x data df Product Type y data df Total Amount def lineplot x data y data x label Product Type y label T
在java中计算.txt文件中的单词频率

我正在做一项计算机科学作业最后程序将确定文件是用英语还是法语编写的现在我正在努力研究计算 txt 文件中出现的单词频率的方法我在各自的文件夹中拥有一组英语和法语文本文件标记为 1 20 该方法要求一个目录在本例中为 docs

在java中计算.txt文件中的单词频率

在java中计算.txt文件中的单词频率 的相关文章

随机推荐

热门标签

在java中计算.txt文件中的单词频率的相关文章