以文本方式查看主题

-  Foxtable(狐表)  (http://foxtable.com/bbs/index.asp)
--  专家坐堂  (http://foxtable.com/bbs/list.asp?boardid=2)
----  PDFbox中的中文乱码的问题。  (http://foxtable.com/bbs/dispbbs.asp?boardid=2&id=159782)

--  作者:newsun2k
--  发布时间:2021/1/8 15:37:00
--  PDFbox中的中文乱码的问题。

求解。。。


引用pdfbox,执行下面代码

 

http://www.foxtable.com/bbs/dispbbs.asp?BoardID=2&ID=104162&skin=0

 

Dim doc As org.apache.pdfbox.pdmodel.PDDocument = Nothing
Try
    doc = org.apache.pdfbox.pdmodel.PDDocument.load("d:\\abc.pdf")
    Dim pages = doc.getDocumentCatalog().getAllPages()
    Dim pdfStripper = new org.apache.pdfbox.util.PDFTextStripper
    Dim text = pdfStripper.getText(doc)
    msgbox(text)                                           ‘中文会出现乱码(问号),数字和字母则没问题。
catch ex As exception
    msgbox(ex.message)
Finally
    If doc IsNot Nothing Then
        doc.close()
    End If
End Try


--  作者:有点蓝
--  发布时间:2021/1/8 16:00:00
--  
第三方的应用您要自行去研究他们的文档了,看看什么地方可以设置编码的:https://pdfbox.apache.org/docs/2.0.2/javadocs/org/apache/pdfbox/pdmodel/package-summary.html