我想计算从网站上获取的文本的字数。
我正在尝试下面的代码:
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
def get_text(url):
page = urlopen(url)
soup = BeautifulSoup(page, "lxml")
text = ' '.join(map(lambda p: p.text, soup.find_all('p')))
return soup.title.text, text
number_of_words = 0
url = input('Enter URL - ')
text = get_text(url)
我想计算这个的字数text多变的
Taking https://www.ibm.com/in-en/cloud/learn/what-is-artificial-intelligence https://www.ibm.com/in-en/cloud/learn/what-is-artificial-intelligence作为 URL,除了获取文本变量的字数之外,一切都运行良好。
附: - 作为参数输入的word_count计数变量,生成的摘要的字数统计不同。
我还设法使用以下代码获取从 URL 检索的原始文本的文本字符长度
print('Text character length - ', len(str(text)))
len(str(text))
会计算字母而不是单词,要计算总单词数,您必须拆分文本len(str(text).split())
:
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
def get_text(url):
page = urlopen(url)
soup = BeautifulSoup(page, "lxml")
text = ' '.join(map(lambda p: p.text, soup.find_all('p')))
return soup.title.text, text
url = input('Enter URL - ')
text = get_text(url)
number_of_words = len(str(text).split())
print(number_of_words)
output:
1080
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)