以文本方式查看主题 - Foxtable(狐表) (http://foxtable.com/bbs/index.asp) -- 专家坐堂 (http://foxtable.com/bbs/list.asp?boardid=2) ---- pdf中获取内容包括表格内容 (http://foxtable.com/bbs/dispbbs.asp?boardid=2&id=190949) |
-- 作者:qaz17909 -- 发布时间:2024/3/15 21:36:00 -- pdf中获取内容包括表格内容 有个业务需要将pdf中的内容提取出来,pdf中有些字段内容比如编号、时间等,然后pdf中还有表格,需要将表格中的内容也提取出来。 |
-- 作者:有点蓝 -- 发布时间:2024/3/16 8:54:00 -- 这个需要自行研究了,网上搜搜iTextSharp的用法 |
-- 作者:qaz17909 -- 发布时间:2024/3/17 11:07:00 -- 可以提取了,但是发现有些pdf提取后的中文是乱码,这个应该如何解码?上传的两个pdf文档一个正常,一个中文乱码 |
-- 作者:有点蓝 -- 发布时间:2024/3/17 20:45:00 -- 去掉这句有没有问题? pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext))) 如果不行,自己试试不同编码的结果
|
-- 作者:qaz17909 -- 发布时间:2024/3/18 9:10:00 -- 去掉这句也是不行的,我改了加粗的地方,但是还是不行 pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext)))
|
-- 作者:有点蓝 -- 发布时间:2024/3/18 9:15:00 -- pagetext = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.[Default], Encoding.UTF8, Encoding.[Default].GetBytes(pagetext))) 什么所有红色的地方都改为不同的编码试试。如果不知道pdf到底使用的什么编码,只能自己试试所有编码的组合了
|
-- 作者:qaz17909 -- 发布时间:2024/5/9 13:19:00 -- 三楼的这个附件是我原先上传的,为什么现在下载下来不能用了? [此贴子已经被作者于2024/5/9 13:19:40编辑过]
|
-- 作者:有点蓝 -- 发布时间:2024/5/9 13:31:00 -- 提示什么错误? |
-- 作者:qaz17909 -- 发布时间:2024/5/9 13:42:00 -- 好像又可以了,还有问题,可否用代码将pdf格式的文件,另存为txt文本文件? |
-- 作者:有点蓝 -- 发布时间:2024/5/9 14:35:00 -- 不能的 |