不幸的是,PDFBox 的字符串编码还远非完美(版本 1.8.x)。不幸的是,在通用 PDF 对象中编码字符串时,它使用与在内容流中编码字符串时相同的例程,这是根本错误的。因此,不要使用PDPageContentStream.drawString
(使用错误的编码),您必须自己翻译为正确的编码。
例如。而不是使用
contentStream.beginText();
contentStream.setTextMatrix(100, 0, 0, 100, 50, 100);
contentStream.setFont(PDType1Font.HELVETICA, 2);
contentStream.drawString("€");
contentStream.endText();
contentStream.close();
这导致
你可以使用一些像
contentStream.beginText();
contentStream.setTextMatrix(100, 0, 0, 100, 50, 100);
contentStream.setFont(PDType1Font.HELVETICA, 8);
byte[] commands = "(x) Tj ".getBytes();
commands[1] = (byte) 128;
contentStream.appendRawCommands(commands);
contentStream.endText();
contentStream.close();
导致
如果您想知道我如何使用 128 作为 € 的字节码,请查看 PDF 规范ISO 32000-1,附件D.2,拉丁字符集和编码它表示 WinAnsiEncoding 中 € 符号的八进制值 200(十进制 128)。
PS:同时其他答案提出了另一种方法,在欧元符号的情况下相当于:
contentStream.beginText();
contentStream.setTextMatrix(100, 0, 0, 100, 50, 100);
contentStream.setFont(PDType1Font.HELVETICA, 8);
contentStream.drawString(String.valueOf(Character.toChars(EncodingManager.INSTANCE.getEncoding(COSName.WIN_ANSI_ENCODING).getCode("Euro"))));
contentStream.endText();
contentStream.close();
这确实也绘制了“€”符号。但即使这种做法看起来更干净(它不使用byte
数组,它不会手动构造实际的 PDF 流操作),它is dirty以它自己的方式:
用一个破方法,其实breaks它的字符串参数以正确的方式抵消方法中的错误。
因此,如果 PDFBox 人员决定修复损坏的 PDFBox 方法,则这里看似干净的解决方法代码将开始失败,因为它随后会向固定方法提供损坏的输入数据。
诚然,我怀疑他们会在 2.0.0 之前修复这个错误(并且在 2.0.0 中修复的方法有不同的名称),但人们永远不知道......