从 Gmail 获取 pdf 附件作为文本

2024-05-10

我在网络和 Stack Overflow 上搜索但没有找到解决方案。我尝试做的事情如下：我通过邮件收到某些附件，我希望将其作为（纯）文本进行进一步处理。我的脚本如下所示：

function MyFunction() {

  var threads = GmailApp.search ('label:templabel'); 
  var messages = GmailApp.getMessagesForThreads(threads); 

   for (i = 0; i < messages.length; ++i)
   {
     j = messages[i].length; 
   var messageBody = messages[i][0].getBody(); 
   var messageSubject = messages [i][0].getSubject();
     var attach = messages [i][0].getAttachments();
     var attachcontent = attach.getContentAsString();
    GmailApp.sendEmail("mail", messageSubject, "", {htmlBody: attachcontent});
    }
}

不幸的是这不起作用。这里有人知道我该怎么做吗？有可能吗？

预先非常感谢您。

最好的，菲尔

_{Edit: Updated for DriveApp, as DocsList deprecated.}

我建议将其分解为两个问题。第一个是如何从电子邮件中获取 pdf 附件，第二个是如何将 pdf 转换为文本。

正如你所发现的，getContentAsString()不会神奇地将 pdf 附件更改为纯文本或 html。我们需要做一些更复杂的事情。

首先，我们将获取附件Blob https://developers.google.com/apps-script/reference/base/blob，多个服务用来交换数据的实用程序类。

var blob = attachments[0].getAs(MimeType.PDF);

因此，第二个问题被分离出来，并保持我们只对标记为每个线程的第一条消息的第一个附件感兴趣的假设templabel，这是如何myFunction() looks:

/**
 * Get messages labeled 'templabel', and send myself the text contents of
 * pdf attachments in new emails.
 */
function myFunction() {

  var threads = GmailApp.search('label:templabel');
  var threadsMessages = GmailApp.getMessagesForThreads(threads);

  for (var thread = 0; thread < threadsMessages.length; ++thread) {
    var message = threadsMessages[thread][0];
    var messageBody = message.getBody();
    var messageSubject = message.getSubject();
    var attachments = message.getAttachments();

    var blob = attachments[0].getAs(MimeType.PDF);
    var filetext = pdfToText( blob, {keepTextfile: false} );

    GmailApp.sendEmail(Session.getActiveUser().getEmail(), messageSubject, filetext);
  }
}

我们依赖一个辅助函数，pdfToText()，转换我们的pdfblob转换为文本，然后我们将其作为纯文本电子邮件发送给自己。这个辅助函数有多种选项；通过设置keepTextfile: false，我们选择只将 PDF 文件的文本内容返回给我们，并且在我们的云端硬盘中不留下任何残留文件。

pdfToText()

该实用程序可用作为要点 https://gist.github.com/mogsdad/e6795e438615d252584f。那里提供了几个例子。

A 之前的回答 https://stackoverflow.com/questions/14406966/upload-pdf-with-ocr-with-google-apps-script-and-possibly-drive-api/14408321#14408321表明可以使用 Drive APIinsert执行方法OCR http://en.wikipedia.org/wiki/Optical_character_recognition，但没有提供代码详细信息。随着高级 Google 服务的推出，可以通过 Google Apps 脚本轻松访问 Drive API。您确实需要打开并启用Drive API来自编辑，根据Resources > Advanced Google Services.

pdfToText()使用 Drive 服务从 PDF 文件的内容生成 Google 文档。不幸的是，这包含文档中每个页面的“图片” - 我们对此无能为力。然后它使用常规的DocumentService将文档正文提取为纯文本。

/**
 * See gist: https://gist.github.com/mogsdad/e6795e438615d252584f
 *
 * Convert pdf file (blob) to a text file on Drive, using built-in OCR.
 * By default, the text file will be placed in the root folder, with the same
 * name as source pdf (but extension 'txt'). Options:
 *   keepPdf (boolean, default false)     Keep a copy of the original PDF file.
 *   keepGdoc (boolean, default false)    Keep a copy of the OCR Google Doc file.
 *   keepTextfile (boolean, default true) Keep a copy of the text file.
 *   path (string, default blank)         Folder path to store file(s) in.
 *   ocrLanguage (ISO 639-1 code)         Default 'en'.
 *   textResult (boolean, default false)  If true and keepTextfile true, return
 *                                        string of text content. If keepTextfile
 *                                        is false, text content is returned without
 *                                        regard to this option. Otherwise, return
 *                                        id of textfile.
 *
 * @param {blob}   pdfFile    Blob containing pdf file
 * @param {object} options    (Optional) Object specifying handling details
 *
 * @returns {string}          id of text file (default) or text content
 */
function pdfToText ( pdfFile, options ) {
  // Ensure Advanced Drive Service is enabled
  try {
    Drive.Files.list();
  }
  catch (e) {
    throw new Error( "To use pdfToText(), first enable 'Drive API' in Resources > Advanced Google Services." );
  }

  // Set default options
  options = options || {};
  options.keepTextfile = options.hasOwnProperty("keepTextfile") ? options.keepTextfile : true;

  // Prepare resource object for file creation
  var parents = [];
  if (options.path) {
    parents.push( getDriveFolderFromPath (options.path) );
  }
  var pdfName = pdfFile.getName();
  var resource = {
    title: pdfName,
    mimeType: pdfFile.getContentType(),
    parents: parents
  };

  // Save PDF to Drive, if requested
  if (options.keepPdf) {
    var file = Drive.Files.insert(resource, pdfFile);
  }

  // Save PDF as GDOC
  resource.title = pdfName.replace(/pdf$/, 'gdoc');
  var insertOpts = {
    ocr: true,
    ocrLanguage: options.ocrLanguage || 'en'
  }
  var gdocFile = Drive.Files.insert(resource, pdfFile, insertOpts);

  // Get text from GDOC  
  var gdocDoc = DocumentApp.openById(gdocFile.id);
  var text = gdocDoc.getBody().getText();

  // We're done using the Gdoc. Unless requested to keepGdoc, delete it.
  if (!options.keepGdoc) {
    Drive.Files.remove(gdocFile.id);
  }

  // Save text file, if requested
  if (options.keepTextfile) {
    resource.title = pdfName.replace(/pdf$/, 'txt');
    resource.mimeType = MimeType.PLAIN_TEXT;

    var textBlob = Utilities.newBlob(text, MimeType.PLAIN_TEXT, resource.title);
    var textFile = Drive.Files.insert(resource, textBlob);
  }

  // Return result of conversion
  if (!options.keepTextfile || options.textResult) {
    return text;
  }
  else {
    return textFile.id
  }
}

转换为 DriveApp 有助于此布鲁斯·麦克弗森的实用程序 http://ramblings.mcpher.com/Home/excelquirks/gooscript/driveapppathfolder:

// From: http://ramblings.mcpher.com/Home/excelquirks/gooscript/driveapppathfolder
function getDriveFolderFromPath (path) {
  return (path || "/").split("/").reduce ( function(prev,current) {
    if (prev && current) {
      var fldrs = prev.getFoldersByName(current);
      return fldrs.hasNext() ? fldrs.next() : null;
    }
    else { 
      return current ? null : prev; 
    }
  },DriveApp.getRootFolder()); 
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 Gmail 获取 pdf 附件作为文本的相关文章

Gmail 应用程序中指向特定邮件的深层链接

我成功地从 gmail api 获得了消息网址 https mail google com mail email protected cdn cgi l email protection all 155134b5e66a9b06 然而当我
url文本压缩（不是缩短）并存储在mysql中

我在 mysql 中有一个 url 表其中只有两个字段 id 和 varchar 255 用于 url 目前那里有超过 5000 万个 url 我的老板刚刚向我提供了有关当前项目扩展的线索这将导致在该 url 表中添加更多的 url 预
GhostScript PDF 合并（丢失可编辑字段）

我正在使用 GhostScript 将 PDF 合并为一个 PDF 其中一份 PDF 具有我在 Adob e Acrobat Pro 9 中创建的文本框字段可编辑字段当我使用 GhostScript 合并这两个 PDF 时我丢失了文本
使用itext java库复制时pdf文件大小大大增加

我正在尝试使用 Java 中的 itextpdf 库将现有的 pdf 文件复制到一些新文件中我使用的是 itextpdf 5 5 10 版本我在两种方式上都面临着不同的问题 PDFStamper 和 PdfCopy 当我使用 PDFSt
在 iPhone 上搜索 PDF

经过两天尝试使用 Quartz 从 PDF 中读取注释后我成功做到了并且发布我的代码 https stackoverflow com questions 4080373 get pdf hyperlinks on ios with qua
如何在模态窗口中显示pdf？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个模式窗口其中包含锚文本当我单击此链接时它必须调用其他位置的 pdf 并将其显示在弹出窗口中我怎样才能做到这一点请帮忙
使用 GhostScript 获取页面大小

是否可以使用 GhostScript 获取页面大小例如从 PDF 文档页面我见过 bbox 设备但它返回的是边界框每页不同而不是 PDF 页面的 TrimBox 或 CropBox 看http www prePressure co
如何为 Android 创建我们自己的 PDF 查看器？

我想构建一个可在我的 Android 应用程序中使用的 PDF 阅读器查看器但我无法使用 Google 文档来阅读我的内容我无法使用我的设备中已安装的任何 PDF 阅读器它应该位于我的应用程序内并且不会通过互联网公开我的安全内容
如何从纯文本文件中解析文本并使用结果突出显示 PDF 文件

早在 2010 年就有人声称能够做到这一点 http www mobileread com forums showthread php t 103847 http www mobileread com forums showthread
如果输入重复，则覆盖 Google 表格（用于表单响应）行

因此我一直在尝试找出如何阻止谷歌表单中的谷歌表格响应输出中出现重复的行如果找到这个链接听起来它正是我想要的表单 Google 脚本防止重复 https stackoverflow com questions 16965687 for
将 Word 转换为 PDF - 禁用“保存”对话框

我有一个用 C 编写的 Word 到 PDF 转换器除了一件事之外它工作得很好有时在某些 Word 文件上后台会出现一条消息保存源文件中的更改 gt 是否取消但我没有对源文件进行任何更改我只想从 Word 文件创建 PDF
裁剪 .pdf 文件的页面

我想知道是否有人有以编程方式处理 pdf 文件的经验我有一个 pdf 文件我需要将每一页裁剪到一定大小经过快速谷歌搜索后我找到了 python 的 pyPdf 库但我的实验失败了当我更改页面对象上的cropBox 和trimBo
脚本在 SpreadsheetApp.openById 上失败 - 需要权限

我有一个 onOpen 函数可以在电子表格中创建自定义菜单它已经工作了一年多但几天前它停止工作了当我查看执行记录时我得到执行失败您无权调用 SpreadsheetApp openById 所需权限 https www goog
将 PDF 转换为 CMYK 但忽略黑色？

我使用以下命令将 RGB PDF 转换为 CMYK usr local bin gs dSAFER dBATCH dNOPAUSE dNOCACHE sDEVICE pdfwrite sColorConversionStrategy CMY
如何使用 pdftk 和 /MediaBox 裁剪 PDF 边距

I used pdftk解压缩 PDF 然后将其作为文本文件打开我想编辑媒体盒领域就我而言 MediaBox 0 0 612 792 例如我想减少边距 MediaBox 100 0 512 792 不幸的是它不起作用我可以改变0
Google Add-on 在有限模式应用脚本中添加菜单项

我们在新的谷歌应用程序脚本添加商店中发布了一个插件但在除安装的初始电子表格之外的任何电子表格中使用该插件时权限似乎无法正常工作我遇到一个问题当创建新电子表格并且用户从管理加载项菜单中选择使用此加载项时我们的菜单项不会填充
测量填写部分的时间 - 谷歌表单

我正在尝试使用谷歌表单进行研究调查问卷对于某些部分我想自动测量用户填写所需的时间谷歌表单中没有这样的选项我尝试复制表单源并用 javascript 填充时间但它不起作用跨源问题未能成功托管复制的表单如何做到我如何衡量回答
打印包含 JBIG2 图像的 PDF

请推荐一些库帮助我打印包含 JBIG2 编码图像的 PDF 文件 PDFRenderer PDFBox别帮我这些库可以打印简单的 PDF 但不能打印包含 JBIG2 图像的 PDF PDFRenderer尝试修复它根据 PDFRedn
如何为 Gmail 开发 Chrome 扩展程序？

我正在考虑为 Gmail 开发 Chrome 扩展程序我想知道当前的最佳实践是什么例如默认情况下为每封电子邮件附加 GPG 签名添加一个额外的按钮来执行某些操作我已经有了发送电子邮件并提示我完成某些操作的劫持操作只是这些例子帮
从 puppeteer PDF 中删除分页符？

我目前正在尝试查看是否有一种方法可以删除我的 puppeteer PDF 中的分页符因为我当前的 PDF 设置中的一些分页符正在以一种奇怪的方式切断文本我正在谈论的内容的屏幕截图我的傀儡代码 app get companyId pdf

随机推荐

AppEngine：获取当前服务应用程序版本

有没有一种简单的方法可以获取 AppEngine 中当前的服务应用程序版本 os environ CURRENT VERSION ID
iOS 8 UITableView 分隔符插入 0 不起作用

我有一个应用程序其中UITableView的分隔符插入设置为自定义值右0 Left 0 这完美地适用于iOS 7 x 但是在iOS 8 0我看到分隔符插入设置为默认值15在右侧即使在 xib 文件中它设置为0 它仍然显示不正确我该如
即使 if 语句中发生警报，if 语句中的 jQuery 代码也不会运行

我有一个 if 语句里面有两个警报以及一个变量赋值当满足条件时所有这三件事都会发生但是当我将 jQuery 代码添加到 if 语句套件中时该 jQuery 代码不会发生我怎样才能得到 tabViewWindow animate
JavaFX 中的内部框架

我找到了这个内部框架的例子 http docs oracle com javase tutorial uiswing components internalframe html http docs oracle com javase tut
ruby 中的树结构，父子采用数组格式，没有 gem？

我有一个数组其中包含这样的项目列表 arr id gt 1 title gt A parent id gt nil id gt 2 title gt B parent id gt nil id gt 3 title gt A1 paren
VSCode和flutter，如何连接多个设备？

我在 macOS 上使用 Visual Studio Code 来开发 Flutter 应用程序我可以在 VSC 左下角选择一个设备我还可以使用在多个设备上运行flutter run d all 我想知道如何使用 VSC 中的调试控制台
如何按值降序对哈希进行排序并在 ruby 中输出哈希？

output sort by k v v reverse 和钥匙 h a gt 1 c gt 3 b gt 2 d gt 4 gt a gt 1 c gt 3 b gt 2 d gt 4 Hash h sort 现在我有这两个但我试图按值
流分析作业 -> 数据湖输出

我想使用 StreamAnalytics 作业设置 CI CD ARM 模板并将输出设置为 DataLake Store https learn microsoft com en us azure templates microsoft
算术运算的左侧和右侧必须是“any”、“number”或枚举类型

我收到以下错误我无法找出我到底错在哪里有人可以帮我解决问题吗 The code function this devices forEach device gt let lastConnect device lastConnection
MVC：业务逻辑放在哪里？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案首先我看到了很多这方面的问题但背后的推理还不够如果我的问题不够好并且应该被删除我会理解我看过例如 this https stacko
自定义 Netbeans 平台配置应该在哪里？文件是这样让maven找到它吗？

在 NetBeans 平台之上构建的应用程序具有
将 UIImage 放入 UIButton 的简单方法

我的 iPhone 应用程序中有一个 UIButton 我将其大小设置为 100x100 我有一个 400x200 的图像我希望在按钮中显示它按钮仍然需要保持在 100x100 并且我希望图像缩小以适应但是保持正确的纵横比我想这就
普罗米修斯警报中缺少标签

我对 Prometheus 警报规则有疑问我设置了各种 cAdvisor 特定警报例如 alert ContainerCpuUsage expr sum rate container cpu usage seconds total 3m
dompdf 在文档末尾插入空白页

我正在使用 dompdf 0 6 0 生成 pdf 文档并且遇到一个奇怪的问题即最后创建了一个空白页面我的简化的 html
如何在两个不同帐户之间设置无密码身份验证

我们可以在两台机器的两种不同用途之间设置无密码身份验证吗例如计算机A有用户A 计算机B有用户B 我们可以设置密码 ssh 以便计算机 A 上的用户 A 使用其用户帐户 A 登录计算机 B 谢谢你如果我理解你的问题你能设置一下吗ssh
在 ios wifi 网络上查找对等点

我试图弄清楚如何搜索登录到 wifi 网络且在特定端口上托管应用程序的其他设备在不知道这些其他设备的地址甚至不知道它们托管的端口的情况下如何检测它们的存在一旦发现我应该能够联系该设备并与其建立连接最标准的 iOS方式是使用Bon
什么是 Java 8“视图”？

我正在观看 Paul Philips 的演讲 http www youtube com watch v TS1lpKBMkgg http www youtube com watch v TS1lpKBMkgg 在 12 48 比较 Scal
C# 等价于 C++ 向量或双端队列

我几乎可以肯定这应该是重复的但我搜索了一段时间但找不到答案我应该在 C 中使用什么来替换 C 向量和双端队列有效率的也就是说我需要一种有效支持直接索引的结构并且还支持以有效的方式再次从一端或两端删除取决于向量或双端队列的情况在
按下按钮时如何更改 Twitter Bootstrap 选项卡？

我需要在按下按钮时更改选项卡并且选项卡应由 id 标识以下代码对我不起作用只是重新加载页面 div class form actions div
从 Gmail 获取 pdf 附件作为文本

我在网络和 Stack Overflow 上搜索但没有找到解决方案我尝试做的事情如下我通过邮件收到某些附件我希望将其作为纯文本进行进一步处理我的脚本如下所示 function MyFunction var threads Gma

从 Gmail 获取 pdf 附件作为文本

pdfToText()

从 Gmail 获取 pdf 附件作为文本 的相关文章

随机推荐

热门标签

从 Gmail 获取 pdf 附件作为文本的相关文章