python 中的字数统计

2024-01-03

我想计算从网站上获取的文本的字数。我正在尝试下面的代码：

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen

def get_text(url):
  page = urlopen(url)
  soup = BeautifulSoup(page, "lxml")
  text = ' '.join(map(lambda p: p.text, soup.find_all('p')))
  return soup.title.text, text

number_of_words = 0

url = input('Enter URL - ')
text = get_text(url)

我想计算这个的字数text多变的

Taking https://www.ibm.com/in-en/cloud/learn/what-is-artificial-intelligence https://www.ibm.com/in-en/cloud/learn/what-is-artificial-intelligence作为 URL，除了获取文本变量的字数之外，一切都运行良好。

附： - 作为参数输入的word_count计数变量，生成的摘要的字数统计不同。

我还设法使用以下代码获取从 URL 检索的原始文本的文本字符长度

print('Text character length - ', len(str(text)))

len(str(text))会计算字母而不是单词，要计算总单词数，您必须拆分文本len(str(text).split()):

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen


def get_text(url):
    page = urlopen(url)
    soup = BeautifulSoup(page, "lxml")
    text = ' '.join(map(lambda p: p.text, soup.find_all('p')))
    return soup.title.text, text


url = input('Enter URL - ')

text = get_text(url)
number_of_words = len(str(text).split())
print(number_of_words)

output:

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

URL

beautifulsoup

htmlparsing

wordcount

python 中的字数统计的相关文章

如何测试顶级窗口是否打开？

我感觉 Python 编程可能不是我的菜我创建了一个 tkinter GUI 它使用按钮回调来打开另一个窗口其他搜索说这个窗口应该是顶级窗口并且它工作得很好但是每次按下按钮时它都会打开另一个相同的窗口如据我所知窗口问题如何测
刷新访问令牌时出现“invalid_grant”错误的情况？

最近我一直在为这个问题揪心一些背景使用oauth2客户端 https code google com p google api python client 库来管理用户的令牌这些令牌用于定期并发执行各种后台任务每次要为用户运行其中一
错误只有 size-1 数组可以转换为 Python 标量

我有这个代码 for a in data X for i in a if not i isdigit x hash i data X column row x row row 1 row 0 column column 1 desired
使用 python 通过搜索端点从 Spotify API 获取曲目

因此我尝试使用 API 的搜索端点进行搜索从而从 Spotify API 获取曲目请参阅文档 https developer spotify com documentation web api reference search sea
运行源代码中包含 Unicode 字符的 Python 2.7 代码

我想运行一个在源代码中包含 unicode utf 8 字符的 Python 源文件我知道这可以通过添加评论来完成 coding utf 8 在一开始的时候但是我希望不使用这种方法来做到这一点我能想到的一种方法是以转义形式编写 un
Keras，如何获取每一层的输出？

我已经用 CNN 训练了一个二元分类模型这是我的代码 model Sequential model add Convolution2D nb filters kernel size 0 kernel size 1 border mode
用于打印 C/C++ 文件的所有函数定义的 Python 脚本

我想要一个 python 脚本来打印 C C 文件中定义的所有函数的列表 e g abc c定义两个函数为 void func1 int func2 int i printf d i return 1 我只想搜索文件 abc c 并打印其中
Python 3.x 中的 PIL ImageTk 等效项

我正在使用 Tkinter 开发一个应用程序它使用以下数据库png图标的图像文件为了在应用程序中使用所述图像我使用 PIL 打开它们Image open 运行它通过ImageTk PhotoImage函数然后将其传递给小部件构造函数
超时时杀死或终止子进程？

我想尽可能快地重复执行子进程然而有时这个过程会花费太长的时间所以我想杀死它我使用 signal signal 如下所示 ppid pipeexe pid signal signal signal SIGALRM stop handl
如何在Python中正确声明ctype结构+联合？

我正在制作一个二进制数据解析器虽然我可以依靠 C 但我想看看是否可以使用 Python 来完成该任务我对如何实现这一点有一些了解我当前的实现如下所示 from ctypes import class sHeader Structure
将带有两层分隔符的字符串转换为字典 - python

给定一个字符串 s x t1 ny t2 nz t3 我想转换成字典 sdic x 1 y 2 z 3 我通过这样做让它工作 sdic dict tuple j split t for j in i for i in s split n F
散景中的时间序列流

我想在散景中绘制实时时间序列我只想在每次更新时绘制新的数据点我怎样才能做到这一点散景网站上有一个动画情节的示例但它每次都需要重新绘制整个图片另外我正在寻找一个简单的示例我可以在其中逐点绘制时间序列的实时绘图散景效果0 11
将 ASCII 字符转换为“”unicode 表示法的脚本

我正在对 Linux 区域设置文件进行一些更改 usr share i18n locales like pt BR 并且需要格式化字符串例如 d m Y H M 必须以 Unicode 指定其中每个在本例中为 ASCII 字符表示为
Pandas - 分割大的Excel文件

我有一个大约有 500 000 行的 Excel 文件我想将其拆分为多个 Excel 文件每个文件有 50 000 行我想用熊猫来做这样它会是最快和最简单的有什么想法如何制作吗感谢您的帮助假设您的 Excel 文件只有一个第
Synapse Notebook 参考 - 使用参数从另一个笔记本调用 Synapse Notebook

我有一个带有参数的突触笔记本我试图从另一个笔记本调用该笔记本我正在使用 run 命令我应该如何将参数从基本笔记本传递到正在调用的笔记本另外对我来说上述答案不起作用作为对此问题的单独解决方案下面是一个答案打开笔记本并转到最右
升级后 pip 损坏

我做了 pip install U easyinstall 然后 pip install U pip 来升级我的 pip 但是当我尝试使用 pip 时我现在收到此错误 root d8fb98fc3a66 which pip usr lo
在 Gensim 中通过 ID 检索文档的字符串版本

我正在使用 Gensim 进行一些主题建模并且已经达到使用 LSI 和 tf idf 模型进行相似性查询的程度我取回 ID 集和相似点例如 299501 0 64505910873413086 如何获取与 ID 在本例中为 29950
在没有numpy的情况下在python中分配变量NaN

大多数语言都有一个 NaN 常量您可以使用它为变量分配值 NaN python 可以在不使用 numpy 的情况下做到这一点吗是的使用math nan https docs python org 3 library math html
提供节点名或服务名，或未知

我收到这个 Python 错误 File Library Frameworks Python framework Versions 2 7 lib python2 7 urllib2 py line 1184 in do open rais
在 pip 中为 Flask 应用程序构建 docker 映像失败

from alpine latest RUN apk add no cache python3 dev pip3 install upgrade pip WORKDIR backend COPY backend RUN pip no cac

随机推荐

异质平等的一致性

我正在尝试使用异构相等来证明涉及此索引数据类型的语句 data Counter Set where cut i j Counter suc i j 我能够使用以下方式编写我的证明Relation Binary HeterogenousEqu
如何在浏览器中播放MKV文件？

我有一个视频文件MKV格式我想在浏览器中播放该文件而不进行转换如何在浏览器中播放该文件格式
简洁的架构：在哪里进行 API 调用

我目前正在创建一个微服务项目在其中实现 Bob Martin 创造的清洁架构模式虽然我的代码运行良好但我对干净的架构模式有疑问特别是接口和 use cases 层该应用程序是我正在开发的一个小型电子商务 POC 话虽如此由于它正
从 Python 字典批量更新 PostgreSQL

在现有的 PostgreSQL 表中我想UPDATE几个现有列其值来自字典查找请参见下面的字典有点像这里描述的不错的博文 http tapoueh org blog 2013 03 15 batch update 但是我不知道如何
如何在 jhipster 中通过 OAuth2 成功登录后执行操作

我想问一下通过 OAuth2 成功登录后如何执行操作以及如何根据某些先决条件否决登录我尝试在 Google 上搜索并找到了一些链接但我不确定如何在这个框架上执行此操作我可能可以添加一些过滤器等但想知道执行此操作的正确位置注意 Au
使用单线程执行器时，为什么“header.get() + footer.get()”会导致死锁？ [复制]

这个问题在这里已经有答案了这是清单 8 1Java 并发实践 https rads stackoverflow com amzn click com 0321349601 public class ThreadDeadlock Execu
XSLT 合并 2 个 XML 文件

我知道这里很少有 xml xslt 合并相关的问题但似乎没有一个能解决我遇到的问题我正在寻找的是一个 XSLT 尽可能通用与输入 XML 文件的结构不紧密它可以将 a xml 与 b xml 合并并生成 c xml 如下所示 c
在一个 LESS 文件中定义变量

我刚刚开始使用 LESS 来简化我的 CSS 内容我希望能够在一个文件中定义颜色这样我就可以拥有多种配色方案只需更改引用的文件即可在这些配色方案之间进行切换我尝试过这样的事情但我收到变量未定义错误styles less fil
如何存储 CBPeripheral 以便在其他视图中使用

我在视图控制器 SViewController 中设置了一些 BLE 连接并且需要存储外围设备以供其他视图控制器使用我尝试创建 NSUserDefault 对象并将外围设备存储在其中但出现错误 Attempt to insert no
如何使用生成器中的值填充 2D Python numpy 数组？

根据答案here https stackoverflow com questions 367565 how do i build a numpy array from a generator似乎没有一种简单的方法可以用生成器中的数据填充 2
来自回调的 feed 助手

我正在尝试在 Meteor 中实现一个文件浏览器用户可以浏览一些网络文件夹并将它们添加到集合中以进行进一步处理这是我的简单模板显示和给定目录中的文件夹
ruby on Rails 和 bootstrap ，使 field_with_errors 显示水平

in custom css scss file field with errors extend control group extend error 和 html erb
未设置 TransferEncodingChunked 时 HttpClient 抛出 OutOfMemory 异常

为了支持带有进度报告的大型实际上非常大高达几 GB 文件的上传我们开始将 HttpClient 与 PushStreamContent 结合使用如下所述here https www thomaslevesque com tag p
使用解构元组赋值扩展方法进行类型推断

给出一些扩展方法 public static TO ConvertValue
如何在 Swing 应用程序中捕获并处理 JavaFX TouchEvent？

我开发了一个 Swing 应用程序现在需要在其中实现自定义的多点触摸手势经过一番研究最简单的方法似乎是使用 JavaFX 因为它可以嵌入到 Swing 中并为触摸屏上的每个手指单独提供事件然后我尝试根据以下示例实现触摸处理 htt
使用 svc 调用实现 fork()

我实现了系统调用宏来调用软件中断调用对于许多系统调用来说它运行良好然而这并不是为了fork 父进程和子进程的返回 pid 相同片段如下 define SYSCALL0 N register int ip asm ip N regis
如何获取 PSCustomobject 的长度？

以下内容存储在powershell中 Maintainer Note The leftmost parameter must match the registry key name exactly e g DES 56 For more i
从部分字符串中查找全局原子

我可以使用创建一个全局原子GlobalAddAtom我可以使用再次找到该原子GlobalFindAtom如果我已经知道与原子相关的字符串但是有没有办法找到关联字符串与给定部分字符串匹配的所有原子呢例如假设我有一个原子其字符串是 He
使用模板时的类型推断

所以这就是我想做的我使用std pair 但我肯定想使用元组或几乎任何类型的模板来做同样的事情分配对变量时我需要输入如下内容 T1 t1 T2 t2 std pair
python 中的字数统计

我想计算从网站上获取的文本的字数我正在尝试下面的代码 import requests from bs4 import BeautifulSoup from urllib request import urlopen def get tex

python 中的字数统计

python 中的字数统计 的相关文章

随机推荐

热门标签

python 中的字数统计的相关文章