python 中的字数统计

2024-01-03

我想计算从网站上获取的文本的字数。 我正在尝试下面的代码:

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen

def get_text(url):
  page = urlopen(url)
  soup = BeautifulSoup(page, "lxml")
  text = ' '.join(map(lambda p: p.text, soup.find_all('p')))
  return soup.title.text, text

number_of_words = 0

url = input('Enter URL - ')
text = get_text(url)

我想计算这个的字数text多变的

Taking https://www.ibm.com/in-en/cloud/learn/what-is-artificial-intelligence https://www.ibm.com/in-en/cloud/learn/what-is-artificial-intelligence作为 URL,除了获取文本变量的字数之外,一切都运行良好。

附: - 作为参数输入的word_count计数变量,生成的摘要的字数统计不同。

我还设法使用以下代码获取从 URL 检索的原始文本的文本字符长度

print('Text character length - ', len(str(text)))

len(str(text))会计算字母而不是单词,要计算总单词数,您必须拆分文本len(str(text).split()):

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen


def get_text(url):
    page = urlopen(url)
    soup = BeautifulSoup(page, "lxml")
    text = ' '.join(map(lambda p: p.text, soup.find_all('p')))
    return soup.title.text, text


url = input('Enter URL - ')

text = get_text(url)
number_of_words = len(str(text).split())
print(number_of_words)

output:

1080
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python 中的字数统计 的相关文章

  • 如何测试顶级窗口是否打开?

    我感觉 Python 编程可能不是我的菜 我创建了一个 tkinter GUI 它使用按钮回调来打开另一个窗口 其他搜索说这个窗口应该是顶级窗口 并且它工作得很好 但是每次按下按钮时它都会打开另一个相同的窗口 如据我所知 窗口 问题 如何测
  • 刷新访问令牌时出现“invalid_grant”错误的情况?

    最近我一直在为这个问题揪心 一些背景 使用oauth2客户端 https code google com p google api python client 库来管理用户的令牌 这些令牌用于定期并发执行各种后台任务 每次要为用户运行其中一
  • 错误只有 size-1 数组可以转换为 Python 标量

    我有这个代码 for a in data X for i in a if not i isdigit x hash i data X column row x row row 1 row 0 column column 1 desired
  • 使用 python 通过搜索端点从 Spotify API 获取曲目

    因此 我尝试使用 API 的搜索端点进行搜索 从而从 Spotify API 获取曲目 请参阅文档 https developer spotify com documentation web api reference search sea
  • 运行源代码中包含 Unicode 字符的 Python 2.7 代码

    我想运行一个在源代码中包含 unicode utf 8 字符的 Python 源文件 我知道这可以通过添加评论来完成 coding utf 8 在一开始的时候 但是 我希望不使用这种方法来做到这一点 我能想到的一种方法是以转义形式编写 un
  • Keras,如何获取每一层的输出?

    我已经用 CNN 训练了一个二元分类模型 这是我的代码 model Sequential model add Convolution2D nb filters kernel size 0 kernel size 1 border mode
  • 用于打印 C/C++ 文件的所有函数定义的 Python 脚本

    我想要一个 python 脚本来打印 C C 文件中定义的所有函数的列表 e g abc c定义两个函数为 void func1 int func2 int i printf d i return 1 我只想搜索文件 abc c 并打印其中
  • Python 3.x 中的 PIL ImageTk 等效项

    我正在使用 Tkinter 开发一个应用程序 它使用以下数据库png图标的图像文件 为了在应用程序中使用所述图像 我使用 PIL 打开它们Image open 运行它通过ImageTk PhotoImage函数 然后将其传递给小部件构造函数
  • 超时时杀死或终止子进程?

    我想尽可能快地重复执行子进程 然而 有时这个过程会花费太长的时间 所以我想杀死它 我使用 signal signal 如下所示 ppid pipeexe pid signal signal signal SIGALRM stop handl
  • 如何在Python中正确声明ctype结构+联合?

    我正在制作一个二进制数据解析器 虽然我可以依靠 C 但我想看看是否可以使用 Python 来完成该任务 我对如何实现这一点有一些了解 我当前的实现如下所示 from ctypes import class sHeader Structure
  • 将带有两层分隔符的字符串转换为字典 - python

    给定一个字符串 s x t1 ny t2 nz t3 我想转换成字典 sdic x 1 y 2 z 3 我通过这样做让它工作 sdic dict tuple j split t for j in i for i in s split n F
  • 散景中的时间序列流

    我想在散景中绘制实时时间序列 我只想在每次更新时绘制新的数据点 我怎样才能做到这一点 散景网站上有一个动画情节的示例 但它每次都需要重新绘制整个图片 另外 我正在寻找一个简单的示例 我可以在其中逐点绘制时间序列的实时绘图 散景效果0 11
  • 将 ASCII 字符转换为“”unicode 表示法的脚本

    我正在对 Linux 区域设置文件进行一些更改 usr share i18n locales like pt BR 并且需要格式化字符串 例如 d m Y H M 必须以 Unicode 指定 其中每个 在本例中为 ASCII 字符表示为
  • Pandas - 分割大的Excel文件

    我有一个大约有 500 000 行的 Excel 文件 我想将其拆分为多个 Excel 文件 每个文件有 50 000 行 我想用熊猫来做 这样它会是最快和最简单的 有什么想法如何制作吗 感谢您的帮助 假设您的 Excel 文件只有一个 第
  • Synapse Notebook 参考 - 使用参数从另一个笔记本调用 Synapse Notebook

    我有一个带有参数的突触笔记本 我试图从另一个笔记本调用该笔记本 我正在使用 run 命令 我应该如何将参数从基本笔记本传递到正在调用的笔记本 另外 对我来说 上述答案不起作用 作为对此问题的单独解决方案 下面是一个答案 打开笔记本并转到最右
  • 升级后 pip 损坏

    我做了 pip install U easyinstall 然后 pip install U pip 来升级我的 pip 但是 当我尝试使用 pip 时 我现在收到此错误 root d8fb98fc3a66 which pip usr lo
  • 在 Gensim 中通过 ID 检索文档的字符串版本

    我正在使用 Gensim 进行一些主题建模 并且已经达到使用 LSI 和 tf idf 模型进行相似性查询的程度 我取回 ID 集和相似点 例如 299501 0 64505910873413086 如何获取与 ID 在本例中为 29950
  • 在没有numpy的情况下在python中分配变量NaN

    大多数语言都有一个 NaN 常量 您可以使用它为变量分配值 NaN python 可以在不使用 numpy 的情况下做到这一点吗 是的 使用math nan https docs python org 3 library math html
  • 提供节点名或服务名,或未知

    我收到这个 Python 错误 File Library Frameworks Python framework Versions 2 7 lib python2 7 urllib2 py line 1184 in do open rais
  • 在 pip 中为 Flask 应用程序构建 docker 映像失败

    from alpine latest RUN apk add no cache python3 dev pip3 install upgrade pip WORKDIR backend COPY backend RUN pip no cac

随机推荐

  • 异质平等的一致性

    我正在尝试使用异构相等来证明涉及此索引数据类型的语句 data Counter Set where cut i j Counter suc i j 我能够使用以下方式编写我的证明Relation Binary HeterogenousEqu
  • 如何在浏览器中播放MKV文件?

    我有一个视频文件MKV格式 我想在浏览器中播放该文件而不进行转换 如何在浏览器中播放该文件格式
  • 简洁的架构:在哪里进行 API 调用

    我目前正在创建一个微服务项目 在其中实现 Bob Martin 创造的清洁架构模式 虽然我的代码运行良好 但我对干净的架构模式有疑问 特别是接口和 use cases 层 该应用程序是我正在开发的一个小型电子商务 POC 话虽如此 由于它正
  • 从 Python 字典批量更新 PostgreSQL

    在现有的 PostgreSQL 表中 我想UPDATE几个现有列 其值来自字典查找 请参见下面的字典 有点像这里描述的不错的博文 http tapoueh org blog 2013 03 15 batch update 但是 我不知道如何
  • 如何在 jhipster 中通过 OAuth2 成功登录后执行操作

    我想问一下通过 OAuth2 成功登录后如何执行操作以及如何根据某些先决条件否决登录 我尝试在 Google 上搜索并找到了一些链接 但我不确定如何在这个框架上执行此操作 我可能可以添加一些过滤器等 但想知道执行此操作的正确位置 注意 Au
  • 使用单线程执行器时,为什么“header.get() + footer.get()”会导致死锁? [复制]

    这个问题在这里已经有答案了 这是清单 8 1Java 并发实践 https rads stackoverflow com amzn click com 0321349601 public class ThreadDeadlock Execu
  • XSLT 合并 2 个 XML 文件

    我知道这里很少有 xml xslt 合并相关的问题 但似乎没有一个能解决我遇到的问题 我正在寻找的是一个 XSLT 尽可能通用 与输入 XML 文件的结构不紧密 它可以 将 a xml 与 b xml 合并并生成 c xml 如下所示 c
  • 在一个 LESS 文件中定义变量

    我刚刚开始使用 LESS 来简化我的 CSS 内容 我希望能够在一个文件中定义颜色 这样我就可以拥有多种配色方案 只需更改引用的文件即可在这些配色方案之间进行切换 我尝试过这样的事情 但我收到 变量未定义 错误styles less fil
  • 如何存储 CBPeripheral 以便在其他视图中使用

    我在视图控制器 SViewController 中设置了一些 BLE 连接 并且需要存储外围设备以供其他视图控制器使用 我尝试创建 NSUserDefault 对象并将外围设备存储在其中 但出现错误 Attempt to insert no
  • 如何使用生成器中的值填充 2D Python numpy 数组?

    根据答案here https stackoverflow com questions 367565 how do i build a numpy array from a generator似乎没有一种简单的方法可以用生成器中的数据填充 2
  • 来自回调的 feed 助手

    我正在尝试在 Meteor 中实现一个文件浏览器 用户可以浏览一些网络文件夹并将它们添加到集合中以进行进一步处理 这是我的简单模板 显示 和给定目录中的文件夹
  • ruby on Rails 和 bootstrap ,使 field_with_errors 显示水平

    in custom css scss file field with errors extend control group extend error 和 html erb
  • 未设置 TransferEncodingChunked 时 HttpClient 抛出 OutOfMemory 异常

    为了支持带有进度报告的大型 实际上非 常大 高达几 GB 文件的上传 我们开始将 HttpClient 与 PushStreamContent 结合使用 如下所述here https www thomaslevesque com tag p
  • 使用解构元组赋值扩展方法进行类型推断

    给出一些扩展方法 public static TO ConvertValue
  • 如何在 Swing 应用程序中捕获并处理 JavaFX TouchEvent?

    我开发了一个 Swing 应用程序 现在需要在其中实现自定义的多点触摸手势 经过一番研究 最简单的方法似乎是使用 JavaFX 因为它可以嵌入到 Swing 中 并为触摸屏上的每个手指单独提供事件 然后我尝试根据以下示例实现触摸处理 htt
  • 使用 svc 调用实现 fork()

    我实现了系统调用宏来调用软件中断调用 对于许多系统调用来说它运行良好 然而 这并不是为了fork 父进程和子进程的返回 pid 相同 片段如下 define SYSCALL0 N register int ip asm ip N regis
  • 如何获取 PSCustomobject 的长度?

    以下内容存储在powershell中 Maintainer Note The leftmost parameter must match the registry key name exactly e g DES 56 For more i
  • 从部分字符串中查找全局原子

    我可以使用创建一个全局原子GlobalAddAtom我可以使用再次找到该原子GlobalFindAtom如果我已经知道与原子相关的字符串 但是有没有办法找到关联字符串与给定部分字符串匹配的所有原子呢 例如 假设我有一个原子 其字符串是 He
  • 使用模板时的类型推断

    所以这就是我想做的 我使用std pair 但我肯定想使用元组或几乎任何类型的模板来做同样的事情 分配对变量时 我需要输入如下内容 T1 t1 T2 t2 std pair
  • python 中的字数统计

    我想计算从网站上获取的文本的字数 我正在尝试下面的代码 import requests from bs4 import BeautifulSoup from urllib request import urlopen def get tex