pdf转TXT乱码怎么办?

#1
下载了很多文学作品,但是都是PDF,而且转换成TXT的时候都乱码,求教高手有什么解决办法吗?谢谢!
 
#2
将PDF文件中的文本部分选定后使用复制和粘贴存为文本文件。因为PDF中非文本部分转化时经常乱码。
 

xusun575

高级会员
#3
回复:pdf转TXT乱码怎么办?

以下是引用 jerrycheny2006-7-10 15:00:19 的发言:
下载了很多文学作品,但是都是PDF,而且转换成TXT的时候都乱码,求教高手有什么解决办法吗?谢谢!
中文还是英文?若是英文,可以试用专门的软件转换.
 

jackie

初级会员
#5
遇到过类似的事,当时采取的方法是2楼和4楼的综合,因为有的文章在pdf中不能复制但可在caj中进行。不过有些文章采用这两种方法都不行,我只好放弃。另外,变成txt后,要手动进行修正,主要是换行时的标点符号错误和单词内多余空格的问题。good luck:)
 

动态语法

管理员
Staff member
#6
回复:pdf转TXT乱码怎么办?

以下是引用 jackie2006-7-11 22:08:16 的发言:
遇到过类似的事,当时采取的方法是2楼和4楼的综合,因为有的文章在pdf中不能复制但可在caj中进行。不过有些文章采用这两种方法都不行,我只好放弃。另外,变成txt后,要手动进行修正,主要是换行时的标点符号错误和单词内多余空格的问题。good luck:)
用Textpro处理汉语文本中的问题:

http://www.corpus4u.com/forum_view.asp?view_id=2041&forum_id=54
 

xujiajin

管理员
Staff member
#10
去除每个字中间的空格的办法如下:
在Word的查找和替换中
查找中输入:^?加一个空格
替换为:^&

然后全部替换就可以了。
 
#13
分三步进行:
1.用Cajview打开此文件,然后另存为.txt文件。
2.将.txt文件复制到Word.
3.用其中替换功能分两次进行,第一次去掉字间的空格,第二次去掉多余的空行。
 
#16
回复:pdf转TXT乱码怎么办?

以下是引用 armstrong2006-7-12 18:48:46 的发言:
分三步进行:
1.用Cajview打开此文件,然后另存为.txt文件。
2.将.txt文件复制到Word.
3.用其中替换功能分两次进行,第一次去掉字间的空格,第二次去掉多余的空行。
xu老师已经告诉我们怎么去空格,请问怎么去多余的空行?我一般是一个一个删掉的。应该有什么见到的办法吧?谢谢!
 
#17
在查找栏中输入^P^P
在替换栏中输入^P
然后进行替换,多进行几次,直至所有的多余的空行没有为止。
 
#18
回复:pdf转TXT乱码怎么办?

以下是引用 armstrong2006-7-13 9:07:14 的发言:
在查找栏中输入^P^P
在替换栏中输入^P
然后进行替换,多进行几次,直至所有的多余的空行没有为止。
我用xu老师的办法去空格"^? "替换为"^&",但是还是不能去除空格,字与字之间还是有一个空格,是不是我哪里设置有问题?还是我太笨了
 
顶部