如何根据字体计算字符数？

2024-04-30

对于给定 PDF 文件中的每个页面，可以列出所使用的字体：

$ pdffonts -f 10 -l 10 file.pdf
name                                 type              encoding         emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
[none]                               Type 3            Custom           yes no  no      12  0
DIIDPF+ArialMT                       CID TrueType      Identity-H       yes yes yes     95  0
DIIEDH+Arial                         CID TrueType      Identity-H       yes yes no     101  0
DIIEBG+TimesNewRomanPSMT             CID TrueType      Identity-H       yes yes yes    106  0
DIIEDG+Arial                         CID TrueType      Identity-H       yes yes no     112  0
Arial                                TrueType          WinAnsi          yes no  no     121  0

我需要根据以下内容识别可能有问题的字体pdffonts根据字体输出和计数字符。我通过实现以下代码片段来实现它：

def count_fonts_ocurrencies_by_page(pdf_filepath):
    page_layout = next(extract_pages(pdf_filepath))

    fonts = []

    for element in page_layout:
        if isinstance(element, LTTextContainer):
            for text_line in element:
                for character in text_line:
                    if isinstance(character, LTChar):
                        fonts.append(character.fontname)

    return Counter(fonts)

我期待着找到一种简单的方法来做同样的事情（或接近，我只需要知道单个 PDF 页面上的字体使用百分比之类的信息）而不迭代每个字符（如果可能），或者可能不使用整个模块，例如 pdfminer，一次只针对一个函数和一个 PDF 页面。如果我可以使用 pdfminer 的最少代码（重新）做类似的事情也会很有帮助，因为它是以模块化方式构建的。

你可以尝试使用pdftohtml来自同一个包pdffonts然后使用 xpath 解析 html 文件并考虑样式

pdftohtml -f 1 -l 1 -c -s -i -fontfullname fonts.pdf

生成的文档

<!DOCTYPE html>
<html xmlns="http://www.w3.org/1999/xhtml" lang="" xml:lang="">
<head>
<title>fonts-html.html</title>

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/>
 <br/>
<style type="text/css">
<!--
    p {margin: 0; padding: 0;}  .ft10{font-size:16px;font-family:BAAAAA+NotoSans-CondensedExtraBold;color:#000000;}
    .ft11{font-size:16px;font-family:CAAAAA+DejaVuMathTeXGyre-Regular;color:#000000;}
    .ft12{font-size:13px;font-family:DAAAAA+Baekmuk-Headline;color:#000000;}
    .ft13{font-size:13px;font-family:EAAAAA+LMMono9-Regular;color:#000000;}
    .ft14{font-size:13px;font-family:FAAAAA+CantarellRegular;color:#000000;}
    .ft15{font-size:13px;font-family:GAAAAA+Courier;color:#000000;}
-->
</style>
</head>
<body bgcolor="#A0A0A0" vlink="blue" link="blue">
<div id="page1-div" style="position:relative;width:892px;height:1263px;">
<img width="892" height="1263" src="fonts001.png" alt="background image"/>
<p style="position:absolute;top:64px;left:86px;white-space:nowrap" class="ft10"><b>Font1</b></p>
<p style="position:absolute;top:91px;left:86px;white-space:nowrap" class="ft11">font3</p>
<p style="position:absolute;top:109px;left:86px;white-space:nowrap" class="ft12">font4</p>
<p style="position:absolute;top:124px;left:86px;white-space:nowrap" class="ft13">font5</p>
<p style="position:absolute;top:144px;left:86px;white-space:nowrap" class="ft14">font6</p>
<p style="position:absolute;top:163px;left:86px;white-space:nowrap" class="ft15">font7</p>
</div>
</body>
</html>

用python解析html并按字体计数字符（类属性）

from lxml import html                      
tree = html.parse(r'/home/luis/tmp/fonts-html.html')
eleList = tree.xpath("//p[@class='ft10']")
len(eleList[0].text_content())
# text length: 5 
eleList = tree.xpath("//p[@class[contains(.,'ft')]]")
eleList[0].get('class')
# class name: 'ft10'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdf

pdfminer

如何根据字体计算字符数？的相关文章

Tkinter 菜单删除项

如何删除任何菜单项例如我想删除播放 self menubar Menu self root self root config menu self menubar self filemenu2 Menu self menubar self
从字典的元素创建 Pandas 数据框

我正在尝试从字典创建一个 pandas 数据框字典设置为 nvalues y1 1 2 3 4 y2 5 6 7 8 y3 a b c d 我希望数据框仅包含 y1 and y2 到目前为止我可以使用 df pd DataFrame fr
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
如何在python中附加两个字节？

说你有b x04 and b x00 你如何将它们组合起来b x0400 使用Python 3 gt gt gt a b x04 gt gt gt b b x00 gt gt gt a b b x04 x00
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
使用 Pytest 的参数化添加测试功能的描述

当其中一个测试失败时可以在测试正在测试的内容的参数化中添加描述快速了解测试失败的原因有时您不知道测试失败的原因您必须查看代码通过每个测试的描述您就可以知道例如 pytest mark parametrize num1 num2
python celery -A 的无效值无法加载应用程序

我有一个以下项目目录 azima init py main py tasks py task py from main import app app task def add x y return x y app task def mul
Python“非规范化”unicode 组合字符

我正在寻找标准化 python 中的一些 unicode 文本我想知道是否有一种简单的方法可以在 python 中获得组合 unicode 字符的非规范化形式例如如果我有序列u o xaf i e latin small lette
为什么这个 if 语句会导致语法错误

我正在尝试设置一个 elif 语句如果用户按下 Enter 键代码将继续但是我不断遇到语法错误 GTIN 0 while True try GTIN int input input your gtin 8 number if len
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
检索 geodjango 多边形对象的边界框

如何在 geodjango 中获取 MultiPolygon 对象的边界框在 API 中找不到任何内容http geodjango org docs geos html http geodjango org docs geos html
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
使用 suds SOAP 库进行 HTTP 身份验证的奇怪行为

我有一个正在运行的 python 程序它使用 suds 通过 SOAP 获取大量数据 Web服务是通过分页功能实现的这样我就可以抓取nnn每个 fetch 调用的行并获取下一个nnn与后续的电话如果我使用如下代码向 HTTP 服务器进
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg
Jupyter Notebook：带有小部件的交互式绘图

我正在尝试生成一个依赖于小部件的交互式绘图我遇到的问题是当我使用滑块更改参数时会在前一个绘图之后完成一个新绘图而我预计只有一个绘图会根据参数发生变化 Example from ipywidgets import interact i

随机推荐

Spring Boot 忽略 @JsonDeserialize 和 @JsonSerialize

我有一个带有 RESTful 端点的 Spring Boot 应用程序我想向其中添加自定义序列化器乔达时间 http www joda org joda time 但我无法让应用程序默认 Jackson Serailzier 识别我的自定
Pandas DataFrame：在我想要保留的内容之前和之后从字符串中删除不需要的部分

在我的 data cleaner 数据集中我有列功能项目 ID 这标识了项目其格式为代码年份代码我只对项目的年份感兴趣所以我想删除第一个之前的所有内容和第二个之后的所有内容 Project ID AGPG 2013 1
使用 Facebook OAuth 2.0 - 如何获取访问令牌？

我是新来的OAuth http en wikipedia org wiki OAuth 我正在尝试使用脸书连接 http en wikipedia org wiki Facebook Platform Facebook Connect与我的
C# 排序列表 - 快速，具有可移动、重复的键

我制作了一个带有压缩机制的应用程序需要我自己的字典我的应用程序中的每个 cicle 都会将新元素添加到 myDictionary 中并更新向 myDictionary 中的一些先前元素添加一个字符我用普通列表和快速排序函数来做到这一
了解 Windows 10 何时处于平板电脑模式 - Windows 10 / Windows 10 Mobile

我致力于开发适用于 Windows 10 和 Windows 10 Mobile 的通用应用程序有谁知道如何检查 Windows 10 是否在平板电脑模式下运行我在这里找到了这个问题但这是针对 Windows 窗体的如何在 Wind
如何使用Lodash根据一个键合并两个集合？

我有两个集合这些对象有一个公共键 userId 如下 var require lodash var a userId p1 item 1 userId p2 item 2 userId p3 item 4 var b userId p1
PostgreSQL 逻辑复制 - 创建订阅挂起

我正在尝试在 Debian 9 和 PG 11 1 的 2 个云实例之间设置逻辑复制命令CREATE PUBLICATION在 master 上成功了但是当我启动命令时CREATE SUBSCRIPTION在预期的逻辑副本上该命令无限
您可以在 @Helper 中使用 @Helper 吗？

我不确定这是否可能我有一堆 Helper位于视图内以及其他视图中 helper ViewHelper1 helper ViewHelper2 etc 我有在视图和其他视图中使用的重复代码 if Model Entity Model Enu
relativelayout/customview 不填充选项卡的宽度

我正在尝试用视图填充选项卡有关我尝试通过视图实现的确切目标的更多信息请阅读我之前的问题如何自定义各个选项卡更改背景颜色指示器颜色和文本颜色 https stackoverflow com questions 21335267 ho
捕获 Node js 应用程序的所有 uncaughtException

我有一个问题如何处理我的节点应用程序的所有未捕获的异常操作开发人员错误将导致所有服务停止然后每当发现错误时我就可以向我发送电子邮件警报您可以使用process https nodejs org api process html
由于 JavaScript 没有太多权限，病毒如何通过浏览器进入 PC？

我想知道浏览器如何允许病毒传播到我们的计算机我们收到的响应是文本响应响应中唯一可执行的东西是 JavaScript 它没有太多权限是什么让浏览器倾向于将某些文件传递到计算机短名单浏览器插件一般来说 ActiveX 尤其是 Fla
获取作业格式表以及作业的运行时间

我正在尝试编写一个 PowerShell 5 1 脚本来监视作业我在编写正确的获取工作表时遇到问题以下是我所拥有的 Get Job Format Table AutoSize Property name state name Run
连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集
存储过程 - 返回标识作为输出参数或标量

当您将记录插入到具有标识列的表中时可以使用 SCOPE IDENTITY 来获取该值在存储过程的上下文中这将是返回标识值的推荐方法作为输出参数SET RETURN VALUE SCOPE IDENTITY 作为标量SELECT SC
XAML ComboBox SelectionChanged 触发 OnLoad

如果我有一个具有 SelectionChanged 事件的 ComboBox 它会在我加载控件时触发因此在页面加载时我设置了 SelectedValue 并触发 SelectionChanged 事件这不是我想要发生的情况阻止这种
将 SQLCEResultSet 结果视图转换为数据表

是否可以将 sqlceresultset resultview 转换为数据表未经测试但这应该可以满足您的需要 public DataTable ResultSetToDataTable SqlCeResultSet set DataTa
如何在bash中使用echo和find？

我有10个文件我可以列出它们find type f我想要实现的目标是在使用 find 命令找到所有 10 个文件后向它们发送一条消息我所尝试过的 find type f exec echo This file found gt gt 逻
react-css-modules (babel) 和 css-loader (webpack) 如何协同工作？

当同时使用 webpack 和 babel 时需要配置两者才能使用 React CSS 模块例如 webpack config js将需要这样的规则 Translates CSS into CommonJS modules loader
Spring Boot不会抱怨两个同名的bean

我有以下配置其中有两个来自两个不同配置类的同名 Spring bean import org springframework context annotation Bean import org springframework conte
如何根据字体计算字符数？

对于给定 PDF 文件中的每个页面可以列出所使用的字体 pdffonts f 10 l 10 file pdf name type encoding emb sub uni object ID none Type 3 Custom yes

如何根据字体计算字符数？

如何根据字体计算字符数？ 的相关文章

随机推荐

热门标签

如何根据字体计算字符数？的相关文章