如何将 jsoup 文档另存为文本文件

2023-12-06

我试图将网页上的所有可读单词保存到一个文本文档中，同时忽略 html 标记。使用 JSoup 解析网页上的所有单词，我对如何从代码中分离真实单词的唯一猜测是通过元素。

是否可以将 jsoup 文档的多个元素转换为文本文件？

i.e.:

        Elements titles = doc.select("title");
        Elements paragraphs = doc.select("p");
        Elements links = doc.select("a[href]"); 
        Elements smallText = doc.select("a");

目前将解析保存为文档：

 Document doc = Jsoup.connect("https:// (enter a url)").get();

其简单的方法

Document doc = Jsoup.connect("https:// (enter a url)").get();
        BufferedWriter  writer = null;
        try
        {
            writer = new BufferedWriter( new FileWriter("d://test.txt"));
            writer.write(doc.toString());

        }
        catch ( IOException e)
        {
        }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Text

Jsoup

Document

如何将 jsoup 文档另存为文本文件的相关文章

HashMap不写入数据库

我尝试在我的数据库中写入但只写入发件人和消息我不明白为什么会发生这种情况我认为问题出在我使用 sendMessage 的地方我认为问题是我没有什么可以做的读写其他用户的主键我在数据库中写入消息的活动 public class M
为什么 java 编译器不报告 Intellij 中多播表达式的未经检查的强制转换警告？

为什么下面的代码没有报告 Intellij IDEA 的未经检查的警告jdk 1 8 0 121自从Supplier
Android 自定义视图不能以正确的方式处理透明度/alpha

我正在绘制自定义视图在此视图中我使用两个不同的绘画和路径对象在画布上绘画我基本上是在绘制两个重叠的形状添加 Alpha 后视图中重叠的部分比图像的其余部分更暗这是不希望的但我不知道如何解决它这是我的代码片段用于展示我如何在
查找文本的确切边界

我需要知道一段文本的确切边界相当于获取文本边界 https developer android com reference android graphics Paint html对于安卓我意识到这在某种程度上与 Flutter 的设计背
Java：使用 HttpURLConnection 的 HTTP PUT

如何执行 HTTP PUT 我正在使用的类似乎认为它正在执行 PUT 但端点将其视为我执行了 GET 我做错了什么吗 URL url new URL https HttpURLConnection conn HttpURLConnectio
eclipse中导入项目文件夹图标

我在 Eclipse 工作区中新导入的 Maven 项目有J and M项目文件夹顶部的图标项目和包资源管理器而其他导入的 Maven 项目只有一个J icon 有人可以解释其中的区别吗该项目有J装饰器被称为 Java 项目和具有M装
如何在 JSP 中导入类？

我是一个完全的JSP初学者我正在尝试使用java util List在 JSP 页面中我需要做什么才能使用除以下类之外的类java lang 使用以下导入语句进行导入java util List 顺便说一句要导入多个类请使用以下格式
Condition 接口中的 signalAll 与对象中的 notificationAll

1 昨天我才问过这个问题条件与等待通知机制 https stackoverflow com questions 10395571 condition vs wait notify mechanism 2 我想编辑相同的内容并在我的问题中添加
Firestore - RecycleView - 图像持有者

我不知道如何编写图像的支架我已经设置了 2 个文本但我不知道图像的支架应该是什么样子你能帮我告诉我图像的文字应该是什么样子才能正确显示吗 holder artistImage setImageResource model getArt
如何从 Retrofit2 获取字符串响应？

我正在做 android 正在寻找一种方法来执行超级基本的 http GET POST 请求我不断收到错误 java lang IllegalArgumentException Unable to create converter for
Java：正则表达式排除空值

在问题中here https stackoverflow com questions 51359056 java regexp for a separated group of digits 我得到了正则表达式来匹配 1 到 99 之间的一
如何获取 WebElement 的父级[重复]

这个问题在这里已经有答案了我试过了 private WebElement getParent final WebElement webElement return webElement findElement By xpath 但我得到
RSA OAEP、Golang 加密、Java 解密 -BadPaddingException：解密错误

我正在尝试解密使用 RSA OAEP 在 Golang 中加密的字符串但出现 BadPaddingException 解密错误很难弄清楚我错过了什么这是Golang加密方法 func encryptString rootPEM io
Java 收集返回顶级项目的映射的嵌套流

我有以下模型 class Item String name List
Java - 返回值是否会中断循环？

我正在编写一些基本上遵循以下格式的代码 public static boolean isIncluded E element Node
Spring Security OAuth2简单配置

我有一个简单的项目需要以下简单的配置我有一个密码 grant type 这意味着我可以提交用户名密码用户在登录表单中输入并在成功时获得 access token 有了该 access token 我就可以请求 API 并获取用户
将名称字符串编码为唯一的数字

我有一大堆名字数以百万计他们每个人都有一个名字一个可选的中间名和一个姓氏我需要将这些名称编码为唯一代表这些名称的数字编码应该是一对一的即一个名称只能与一个数字相关联一个数字只能与一个名称相关联对此进行编码的明智方法是什么我
对象锁定私有类成员 - 最佳实践？（爪哇）

I asked 类似的问题 https stackoverflow com questions 10548066 multiple object locks in java前几天但对回复不满意主要是因为我提供的代码存在一些人们关注的问题
在android中跟踪FTP上传数据？

我有一个运行 Android 的 FTP 系统但我希望能够在上传时跟踪字节这样我就可以在上传过程中更新进度条安卓可以实现这个功能吗现在我正在使用org apache common net ftp我正在使用的代码如下另外我在 A
在哪里存储 Java 的 .properties 文件？

The Java教程 http download oracle com javase tutorial essential environment properties htmlon using Properties 讨论如何使用 Prop

随机推荐

使用 nxlog 使用 om_ssl 将日志从 Windows 发送到 Logstash

我一直在寻找从 Windows 发送日志的选项我已经设置了 Logstash 并且目前我使用 Logstash forwarder 和 ssl 加密将日志从 Linux CentOS 服务器发送到我的 ELK 堆栈出于合规性原因加密在
C - Sprintf 的变量参数？

我有一个功能 void foo const char format char buffer 1080 Supposed way to handle C Variable Arguments va list argptr va start a
PHP数组组合

我想从集合 0 n 1 生成长度 r 的所有组合所以输出应该是这样的 n 6 r 2 res array array 0 1 array 0 2 array 0 3 array 0 4 array 0 5 array 1 2 array
Java - 递归查找字符串（幂集）的所有子集

因此我需要递归地查找给定字符串的所有子集到目前为止我所拥有的是 static ArrayList
在Android上使用TextView和Html.ImageGetter异步显示图像？

我想设置一个TextView with SpannableString这是来自以下方法 Html fromHtml String source Html ImageGetter imageGetter Html TagHandler tag
JAX-RPC、JAX-WS 和 JAX-RS Web 服务之间基于实际用例的差异

我知道网上有很多文档其中大部分描述了技术差异但我很想知道在哪些常见用例中您更喜欢一种特定类型而不是其他类型为什么这些偏好是因为集成模式产品支持特定类型吗感谢您的回答然而实际用例的差异以及何时使用什么 JAX WS 和 JAX
Node+Express+NGINX 应用程序返回 localhost 而不是域

我有一个node express网站在我的ubuntu服务器上运行在端口10000上 nginx在端口80上使用proxy pass到localhost 10000 我的问题是当我在 Express 中请求主机时它返回 localhos
使用存储过程参数作为 DATE_SUB 的单位参数

我想知道是否可以将参数传递给mysql存储过程并使用该参数作为unitDATE SUB 函数的参数看来unit参数是保留字所以我不知道是否有单位类型我正在尝试做的示例 DELIMITER DROP PROCEDURE IF EXIST
生成 256 个随机位的数字的最佳方法？

生成 256 个随机位的数字的最佳方法是什么连接随机字节有效吗 byte data new byte 32 RNGCryptoServiceProvider rng new RNGCryptoServiceProvider rng Get
在 Oracle 中动态构建数字表

如何根据当前日期返回由过去四年组成的行集如果此查询于 2010 年 12 月 31 日运行则应返回 2007 2008 2009 2010 但如果它在 1 1 2011 运行它应该返回 2008 2009 2010 2011 这是我开
如何在第二层实现SplitViewController？

如何在第二层实现 SplitViewController 实际上我想要的是使用登录页面并在登录后启动应用程序我需要 SplitViewController 我就是这样做的通过从窗口中删除第一个 viewController 并将其替换为
R：Plotly 和 subplot()：基于因子创建子图的最快方法

我有一个dataframe例如 line station var 1 a 39446 1 b 82964 1 c 57840 1 d 78946 1 e 69972 1 f 14303 1 g 78179 2 a 37738 2 b 622
NamedJDBCTemplate 参数是列表的列表

我有一个查询看起来像这样 SELECT FROM someTable t WHERE t a t b IN VALUES 1 2 3 4 它会选择任何记录t a 1 AND t b 2 or t a 3 AND t b 4 这似乎工作得很
有没有办法在 cpanel 上部署 fastapi 应用程序？

我在使用 Passenger 在 cpanel 上部署 FastAPI 应用程序时遇到问题您也许可以使用以下命令运行 FastAPI 应用程序a2wsgi In your passenger wsgi py from a2wsgi imp
在列中查找匹配值，然后在行中查找匹配值

这很难在问题标题中解释我有一个多页 Excel 文件需要在其中进行查找 Sheet1具有我正在寻找的价值观并且sheet2有我想找到他们的地方 On sheet1我有一个Service Code在列中E and a Unit Cost在
tableFooterView 上的 UIButtons 不响应事件

我已成功将一些 UIButton 添加到自定义 tableFooterView 中问题是按钮事件没有被调用此外相对于 UIControlStateHighlighted 的图像不会出现有任何想法吗我已经尝试了所有我能想到的方法但
使用 PHP 将标准输出上的 MP3 流式传输到 Jplayer

我使用以下参数初始化 jplayer jplayer jPlayer setMedia mp3 data audioMP3 oga data audioOGA 假使假设data autdioMP3 以及它的 OGA 对应项是 php 脚
MATLAB ButtonDownFcn

我有一个 MATLAB 中的光学字符识别项目需要您的帮助当用户在图像上按下鼠标时我如何识别我尝试使用 ButtonDownFcn 执行此操作但即使我只是打印消息该消息未打印我想允许用户从图像中选择车牌我怎样才能做到这一点
尝试创建 SSIS 目录时“服务主密钥解密期间发生错误”

我正在尝试按照指南进行操作创建 SSIS 目录在我的 SQL 2012 Developer 实例上我收到以下错误 An error occurred during Service Master Key decryption Changed
如何将 jsoup 文档另存为文本文件

我试图将网页上的所有可读单词保存到一个文本文档中同时忽略 html 标记使用 JSoup 解析网页上的所有单词我对如何从代码中分离真实单词的唯一猜测是通过元素是否可以将 jsoup 文档的多个元素转换为文本文件 i e Elemen

如何将 jsoup 文档另存为文本文件

如何将 jsoup 文档另存为文本文件 的相关文章

随机推荐

热门标签

如何将 jsoup 文档另存为文本文件的相关文章