在selenium中读取PDF:构造函数PDFParser(BufferedInputStream)未定义

2024-02-11

我收到错误

构造函数 PDFParser(BufferedInputStream) 未定义

我正在尝试使用 Selenium 阅读 PDF 内容。

WebDriver driver=new FirefoxDriver();
driver.get("http://www.axmag.com/download/pdfurl-guide.pdf");
URL TestURL = new URL("http://www.axmag.com/download/pdfurl-guide.pdf");
BufferedInputStream TestFile = new BufferedInputStream(TestURL.openStream());
PDFParser TestPDF = new PDFParser(TestFile);
TestPDF.parse();
String TestText = new PDFTextStripper().getText(TestPDF.getPDDocument());
System.out.println(TestText);
Assert.assertTrue(TestText.contains("Open the setting.xml, you can see it is like this"));

有人可以帮忙吗?


PDFBox 2.0.2(也适用于 1.8.*)的最佳代码是这样的 - 你只需要调用PDDocument.load()打开 PDF 文件:

WebDriver driver = new FirefoxDriver();
driver.get("http://www.axmag.com/download/pdfurl-guide.pdf");
URL url = new URL("http://www.axmag.com/download/pdfurl-guide.pdf");
BufferedInputStream bis = new BufferedInputStream(url.openStream());
PDDocument doc = PDDocument.load(bis);
String text = new PDFTextStripper().getText(doc);
doc.close();
bis.close();
System.out.println(text);
Assert.assertTrue(text.contains("Open the setting.xml, you can see it is like this"));
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在selenium中读取PDF:构造函数PDFParser(BufferedInputStream)未定义 的相关文章

随机推荐