以文本方式查看主题

-  Foxtable(狐表)  (http://foxtable.com/bbs/index.asp)
--  专家坐堂  (http://foxtable.com/bbs/list.asp?boardid=2)
----  关于提取PDF的内容  (http://foxtable.com/bbs/dispbbs.asp?boardid=2&id=125844)

--  作者:ap9709130
--  发布时间:2018/10/8 13:41:00
--  关于提取PDF的内容
老师,
我用论坛上的方法,代码如下:
Dim doc As org.apache.pdfbox.pdmodel.PDDocument = Nothing
doc = org.apache.pdfbox.pdmodel.PDDocument.load("d:\\1.pdf")
Dim pdfStripper = new org.apache.pdfbox.util.PDFTextStripper
Dim text = pdfStripper.getText(doc)

If text > "" Then
Output.show(text)
End If

有的内容可以提取出来,是中文的没有问题,但有的中文内容提取出来的都是这种问号:“??” 是不是字体的编码问题?


--  作者:有点甜
--  发布时间:2018/10/8 14:15:00
--  

如果无法提取,那就没办法了,不是所有都可以提取的。


--  作者:有点甜
--  发布时间:2018/10/8 14:19:00
--  
你可以用别的控件,比如 FoxitReader_AX_Pro.ocx

 

https://www.foxitsoftware.cn/