在处理生语料时,本人遇到了文本转换的问题:在将.xls文本转换成.txt文件时多出了双引号,如何去掉?尝试了将.xls文本save as .txt文本也无济于事,请经验丰富的大侠们出出主意!
用文本处理工具(或用word), 作查找(双引号)替换(为空)即可
谢谢!用word转换一次的确双引号都没了,就是文件多了处理起来就有些麻烦。如果用替代为空的方法,原文中原有的双引号也都不存在了,会引起原有信息的丢失。但不知您说的文本处理工具是哪一款?我自己手头的不具备这种功能。谢谢!
很多,如TextPro, 你可以试试看。
http://www.corpus4u.org/showthread.php?t=593&highlight=textpro
以前好象碰到类似的情况,往往出现在句首或句末的位置,然后利用替换的方法,如果句首、末原文有的就有两对,这样就可以分别处理了.
在处理生语料时,本人遇到了文本转换的问题:在将.xls文本转换成.txt文件时多出了双引号,如何去掉?尝试了将.xls文本save as .txt文本也无济于事,请经验丰富的大侠们出出主意!
不知是否已經解決了 若還沒
或者你可先將所有文本合併後再一起取代呢?
合併工具很多
搜尋即可找到的
我用過的是這個:
http://www.corpus4u.org/showthread.php?t=6884
http://www.corpus4u.org/showthread.php?t=6133&page=2(19樓有動畫檔)
蠻簡易的 你可以參考
xujiajin管理員最近也分享了更好用的合併器:
http://www.corpus4u.org/showthread.php?p=41111#post41111
合併為一個大檔後
取代處打入你不要的雙引號
取代為 留空 即可
成功後請也分享一下心得
感謝你~
抱歉 我漏看了
嗯 對
用取代不行
"原文中原有的双引号也都不存在了,会引起原有信息的丢失。"
想到了!
是個笨方法
將XLS另存為WEB文本(*.HTM)
再將*.HTM另存為*.TXT
試過OK的
不會有多雙引號 且原來的雙引號還在
只是不確定原來之格式是否會亂掉
而且
合併器可以處理TXT檔但無法合併您的EXCEL檔
唉 ...
要是有個按鈕按一下啥都可以照你要的就好了...
引号应该是有规律的.你发一个样本上来让我看看吧.解决应该没有问题该问题依然没有得到解决,希望各位路过再帮出出主意。
引号应该是有规律的.你发一个样本上来让我看看吧.解决应该没有问题
引号应该是有规律的.你发一个样本上来让我看看吧.解决应该没有问题
我已尝试用正则表达式的方法初步解决了该问题,但还要检查在转换过程中是否还存在其它问题,微软提供的有专门的转换软件,可惜我没有。但不知您将采用何种办法解决,谢谢!