求助:.xls转换成.txt文件时多出了双引号,如何去掉?

mayerniu

初级会员
在处理生语料时,本人遇到了文本转换的问题:在将.xls文本转换成.txt文件时多出了双引号,如何去掉?尝试了将.xls文本save as .txt文本也无济于事,请经验丰富的大侠们出出主意!
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

在处理生语料时,本人遇到了文本转换的问题:在将.xls文本转换成.txt文件时多出了双引号,如何去掉?尝试了将.xls文本save as .txt文本也无济于事,请经验丰富的大侠们出出主意!

用文本处理工具(或用word), 作查找(双引号)替换(为空)即可
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

用文本处理工具(或用word), 作查找(双引号)替换(为空)即可

谢谢!用word转换一次的确双引号都没了,就是文件多了处理起来就有些麻烦。如果用替代为空的方法,原文中原有的双引号也都不存在了,会引起原有信息的丢失。但不知您说的文本处理工具是哪一款?我自己手头的不具备这种功能。谢谢!
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

谢谢!用word转换一次的确双引号都没了,就是文件多了处理起来就有些麻烦。如果用替代为空的方法,原文中原有的双引号也都不存在了,会引起原有信息的丢失。但不知您说的文本处理工具是哪一款?我自己手头的不具备这种功能。谢谢!

很多,如TextPro, 你可以试试看。
http://www.corpus4u.org/showthread.php?t=593&highlight=textpro
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

以前好象碰到类似的情况,往往出现在句首或句末的位置,然后利用替换的方法,如果句首、末原文有的就有两对,这样就可以分别处理了.
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

以前好象碰到类似的情况,往往出现在句首或句末的位置,然后利用替换的方法,如果句首、末原文有的就有两对,这样就可以分别处理了.

谢谢armstrong.
 
Last edited:
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

在处理生语料时,本人遇到了文本转换的问题:在将.xls文本转换成.txt文件时多出了双引号,如何去掉?尝试了将.xls文本save as .txt文本也无济于事,请经验丰富的大侠们出出主意!


不知是否已經解決了 若還沒
或者你可先將所有文本合併後再一起取代呢?
合併工具很多
搜尋即可找到的

我用過的是這個:
http://www.corpus4u.org/showthread.php?t=6884
http://www.corpus4u.org/showthread.php?t=6133&page=2(19樓有動畫檔)

蠻簡易的 你可以參考

xujiajin管理員最近也分享了更好用的合併器:
http://www.corpus4u.org/showthread.php?p=41111#post41111

合併為一個大檔後
取代處打入你不要的雙引號
取代為 留空 即可

成功後請也分享一下心得
感謝你~
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

不知是否已經解決了 若還沒
或者你可先將所有文本合併後再一起取代呢?
合併工具很多
搜尋即可找到的

我用過的是這個:
http://www.corpus4u.org/showthread.php?t=6884
http://www.corpus4u.org/showthread.php?t=6133&page=2(19樓有動畫檔)

蠻簡易的 你可以參考

xujiajin管理員最近也分享了更好用的合併器:
http://www.corpus4u.org/showthread.php?p=41111#post41111

合併為一個大檔後
取代處打入你不要的雙引號
取代為 留空 即可

成功後請也分享一下心得
感謝你~


抱歉 我漏看了
嗯 對
用取代不行
"原文中原有的双引号也都不存在了,会引起原有信息的丢失。"
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

抱歉 我漏看了
嗯 對
用取代不行
"原文中原有的双引号也都不存在了,会引起原有信息的丢失。"


想到了!
是個笨方法 :eek:

將XLS另存為WEB文本(*.HTM)
再將*.HTM另存為*.TXT
試過OK的
不會有多雙引號 且原來的雙引號還在

只是不確定原來之格式是否會亂掉
而且
合併器可以處理TXT檔但無法合併您的EXCEL檔
唉 ...
要是有個按鈕按一下啥都可以照你要的就好了...
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

想到了!
是個笨方法 :eek:

將XLS另存為WEB文本(*.HTM)
再將*.HTM另存為*.TXT
試過OK的
不會有多雙引號 且原來的雙引號還在

只是不確定原來之格式是否會亂掉
而且
合併器可以處理TXT檔但無法合併您的EXCEL檔
唉 ...
要是有個按鈕按一下啥都可以照你要的就好了...

我给您的想法一样。的确,如果有个神奇的按钮能完全按照我们的意志工作就好了!谢谢!
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

该问题依然没有得到解决,希望各位路过再帮出出主意。
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

该问题依然没有得到解决,希望各位路过再帮出出主意。
引号应该是有规律的.你发一个样本上来让我看看吧.解决应该没有问题
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

引号应该是有规律的.你发一个样本上来让我看看吧.解决应该没有问题


是挺有规律的。在原来的xsl文件中,文本的开始和结束点是没有引号的,但转换成txt文件后,成对的双引号就自动生成了。
 

附件

  • Noname2.txt
    386 bytes · 浏览: 10
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

引号应该是有规律的.你发一个样本上来让我看看吧.解决应该没有问题

我已尝试用正则表达式的方法初步解决了该问题,但还要检查在转换过程中是否还存在其它问题,微软提供的有专门的转换软件,可惜我没有。但不知您将采用何种办法解决,谢谢!
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

我已尝试用正则表达式的方法初步解决了该问题,但还要检查在转换过程中是否还存在其它问题,微软提供的有专门的转换软件,可惜我没有。但不知您将采用何种办法解决,谢谢!

提供的文本记录太少了.至少应该有三条.我是不会侵权滴:D.
但是,如果你的纪录全是一个field,问题就更简单了:其规律就是第一个引号前和第二个引号后均有换行符即\n 或word ^p(通配符检索状态下为^13),用任一款文本处理工具(或word)的"查找替换"都可以解决,即删除掉引号,,保留换行符即可.
如果多个field,解决思路是同样的,也是同样的简单.
如果还不能解决,你给我用email多发几条纪录,我给你搞个小工具吧.
 
“高手”支招

看大家讨论热烈,参与一招。
规律比较明显:
1.纯汉语文本不会增加句首、句尾的引号。
2.含有英文或纯英文才会自动添加首尾双引号。规律是自动添加只在首尾。行内的规律是:excel只对英文的双引号添加一对双引号,其余不填加。
归结起来:excel转UTF-8只针对两种情况添加:(含有)英文文本的句首句尾,以及英文半角的双引号。
所以,处理方法是:
1.在所有的行首、行尾添加汉字,等转为txt后统一剔除。句子如下:汉首汉头This paper presents 'mechanisms studies of汉尾汉巴。
转换后变成:
"汉首汉头This paper presents 'mechanisms studies of汉尾汉巴。"
去掉就标记就容易了。正则里加上^ $表首尾。你肯定会,不赘述。
2. 做了上面的替换添加汉字之后,还要解决行内添加的双引号。只要规律不错自然可以,书上不是说:双引号只能用一次,用两次算错吗?!
所以,查找两对双引号,替换为一对双引号。ie, 4片小李飞刀替换为2片小李飞刀。
OK了。
 
excel每行不得超出240字符!

提醒同仁们,我以前处理文本txt转换为excel时多出许多行,原因是excel只接受每行最多240字符!!超出字符excel会多情地为你分成新行!
长句当心!
 
回复: 求助:.xls转换成.txt文件时多出了双引号,如何去掉?

看大家的招都挺高的的,也挺管用,很受启发。谢了!!
 
Back
顶部