还剩11页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
TextForever使用说明书[__佚名转贴自Internet__马健使用说明
一、软件__/删除
二、软件使用Q TextForever是什么?A这是一个专为整理电子版小说而__的工具,包括HTML到文本文件的转换、文件合并、文件切分、段落合并、段落切分、内码转换(只能在Win2k/XP下用)、文本替换、HTML整理、文本抽取、正则表达式(需要IE
5.5以上版本的支持)、tcr文件压缩/解压等功能Q TextForever收费吗?A TextForever是一个“友情软件”(Friendware),用户在承诺不用于商业目的,也不对文件及其附件进行任何更改的条件下,不需要为使用该软件负任何费用,最多是在某个讨论区看到我发帖子灌水时(我的ID一般是strnghrs),进去捧个人场,作为友情回报;或者在年节时发个e__il问声好(所以叫“友情软件”)我承诺绝不在程序中暗藏任何商业__、木马,但不承诺为使用TextForever的后果承担任何责任如果您需要将它用于商业目的,或加入您的__,请与我__,否则保留追究一切责任的权利Q TextForever在使用上有什么限制?A部分功能对软件环境有所要求在“Html-Text”功能中,如果选择了“使用IE内核”,而网页又是utf-8编码,则可以选择将结果转换成Unicode或ANSI,ANSI使用的是系统缺省字符集(简体中文Windows2000/XP的缺省字符集为GB2312)在“编码转换”功能中,为了省事,转码过程使用的是Windows本身提供的标准API接口由于转码过程中需要用Unicode作为中间码,因此此功能不能在对Unicode支持非常有限的Windows95/98/me下使用,只能在支持GBK/Big5/ShiftJIS代码页的2000/XP下使用正常情况下,只要IE能够正常显示中文简体、中文繁体、日文网页,即可正常转换“正则表达式”功能需要IE
5.5以上版本的支持所有功能均针对ANSI编码的纯文本文件,不支持UNICODE编码的文件Q文件转换、文件合并功能好理解,段落合并、段落切分是干什么的?A段落合并其实就是某些软件所吹嘘的“自动分段”功能在转换、识别出来的文本文件中,往往在一个自然段中间加入了若干回车/换行符,成了一行一行的了,因此需要将这些多余的回车/换行符去掉,只在自然段结尾才出现回车/换行符有人喜欢把这个功能称为“自动分段”,我更喜欢称为“段落合并”段落切分是段落合并的逆过程段落合并完成后,在某些软件下阅读时可能因为行太长,给阅读带来不便,因此需要按照指定的行长对段落进行切分,切成一个一个短行Q tcr功能是干什么用的?A tcr的全称是TextCompressionforReader,是一种在手机和PDA上看的___格式,此功能用来将___文件打包成tcr格式,或将tcr格式解包如果您只打算在PC上看书,相信您不会用到这个功能tcr虽然也是一种文本压缩格式,但是专门针对手机和PDA这种存储空间和处理能力都很有限的环境,压缩能力和zip、rar当然不能比,不过总比没有强所以在手持设备能够处理象zip和rar这样复杂的文件之前,我相信都会保持其流行趋势Q___要__TextForever?A我曾经极度热衷于在PC上看小说,但是从网上下载的网页多半不适合直接离线浏览,需要进行转换、整理等,然后才能符合我的收藏标准现成的HTML到___的转换工具有不少,但是集转换、合并、分段、替换等功能于一体的好像还没有,尤其是分段工具,多半分完段后都会有哭笑不得的感觉,所以我才自己__了这个工具后来我又开始在手机上看小说,所以又加了tcr压缩/解压、文件切分等功能使用说明
一、软件__/删除本软件为纯正的绿色软件,不需要__,下载ZIP包后直接展开、运行即可删除时删除可执行文件和帮助文件即可软件包中仅包含下列两个文件,如果有其它的,保证不是我加的,请不要犹豫,立刻删除TextForever.exe可执行文件TextForever.htm本帮助文件另外如果在运行过程中改变了参数值,会自动生成TextForever.ini文件,删除时可以一起删除单独删除TextForever.ini文件后重新运行TextForever,所有参数将恢复成缺省值,相当于__了“恢复”按钮
二、软件使用注意TextForever会自动记忆您所设置的参数值(记录在TextForever.ini文件中),__“恢复”按钮可以将所有参数恢复到缺省值
1、HTML文件到文本文件的转换(HTML-Text)根据需要设置选项(也可以什么不选,直接使用预设值),__“开始转换”按钮,在弹出的对话框中选择需要转换的文件(按住Ctrl键或Shift键__文件,即可选多个),然后点“打开”或“Open”按钮即可如果转换出来的内容不对,可能是因为真正的内容是用j__ascript动态生成的,可以选择“使用IE内核”,然后再点“开始转换”,重新试一遍这个选项相当于IE的“另存为文本文件”功能,用缺省选项搞不定的网页,都可以用这个选项试试看与在IE中打开网页不同的是,如果网页中有错,这里不会弹出错误对话框要求调试网页,而是直接跳过,反正错误对获取文本没有什么影响另外如果使用IE内核,而网页又是utf-8编码,则可以选择将结果转换成Unicode或ANSI,ANSI使用的是系统缺省字符集(简体中文Windows2000/XP的缺省字符集为GB2312)
2、文件合并(MergeFiles)一般__刊登电子版小说时,都是一章一个文件,因此在将HTML文件转换成___文件后,一般还需要按照章节顺序将转换出来的诸多___文件合并成一个文件使用方法__“选择”按钮,在弹出的对话框中输入合并后的文件名,然后点“开始”按钮,在弹出的对话框中选择需要合并的文件即可注意文件的合并顺序,等同于在点“开始”按钮后,弹出的对话框中“文件名”(FileName)项中的显示顺序通常最先选择的文件将排在末尾,而最后选择的文件将排在开头最简单的选择方法先选择最后一个文件,然后按住Shift健,选择第一个文件;或者先选择最后一个文件,然后按住Ctrl健,倒序选择其余文件
3、段落合并(Paragraph)在把HTML转换成___文件后,由于去掉了HTML中的段落控制,转出来的文件看起来可能会参差不齐,需要重新合并、分段使用方法按照界面上标示出来的
1、
2、3顺序,先设置“源文件段落开始标志”选项,再设置“输出文件段落控制”选项,最后选择源文件如果是对单个文件进行处理,则在“选择源文件”框中,先点“选择...”按钮选择源文件(如果前面做过文件合并,这里会自动填入合并后的文件名,则不再需要选择),再点“开始合并”按钮开始合并;如果是对多个文件进行操作,直接点“对多个文件中的段落进行合并...”按钮,然后在弹出的对话框中选择需要操作的所有文件(按住Ctrl键或Shift键__文件,即可选多个)选项说明“源文件段落开始标志”框指定分段条件,即在输入文件中,满足什么样的条件算一个段落这样的条件可以有4个以2个或指定个数的中文空格开头以4个或指定个数的英文空格开头上一行的长度比平均行长短少1/20一般这个条件用于OCR出来、没有整理过的文件如下面这段文字他很专注的检阅着自己刚获得的新领土虽然自己对空气中的这股刺鼻甜味并不是很喜欢,但只要习惯之后也就没什么他在这块领地上绕了整整一圈看来这里似乎没有任何敌人的样子他抬起头来望着一道闸门,刚才自己就是从这里出发的虽然他看不懂门上那块牌子的文字,不过那里确实是写着海德伯爵城馆帝国中最小不隆咚的贵族城馆他端正的坐在门前,并盼望那扇门能够马上开启因为自己一路睡到刚刚才醒的关系,被关在门外也是不得已的然而,那扇门却没有任何开启的迹象很显然,每一段的最后一行都要比其它行短后面跟一个空行“输出文件段落控制”框指定输出格式,可以指定的内容包括段落的引导字符可以是2个中文空格、4个英文空格或者什么也没有在段__面加一个空行删除原文文本行的引导空格删除原文文本行的末尾空格
4、段落切分(Reparagraph)有时候在用段落合并功能对原文中的段落进行合并、整理后,还需要按照指定的行宽,对段落进行分行,避免在没有自动环绕功能的浏览器上出现横向滚动条段落合并功能与段落切分功能互为逆过程,如果对切分结果不满意,可以合并后重新切分使用方法按照界面上标示出来的
1、
2、3顺序,先设置“输出段落”选项,再设置源文件是否保留备份,最后选择源文件如果是对单个文件进行处理,则在“选择源文件进行操作”框中,先点“选择...”按钮选择源文件(如果前面做过文件合并,这里会自动填入合并后的文件名,则不再需要选择),再点“开始切分”按钮开始切分;如果是对多个文件进行操作,直接点“对多个文件中的段落进行切分...”按钮,然后在弹出的对话框中选择需要操作的所有文件(按住Ctrl键或Shift键__文件,即可选多个)如果切分结果出现行末最后一个字节是半个汉字,则该汉字被分到下一行,以免出现乱码;如果切分结果中,行末会出现把一个英文单词劈成两半,则整个单词分到下一行;如果行末是英文空白、标点符号,则按照习惯,即使这些字符超出最大行长,也不分到下一行选项说明“最大行长”项说明分行的行长,以英文字符为单位注意一个中文字符等于两个英文字符“段落开头添加”选项设置分行后段落的引导字符,可以是2个中文字符、4个英文字符或者什么也没有“在段__添加空行”选项说明是否需要在段__加一个空行
5、编码转换(GB/GBK/Big5)这个功能可以实现GB、GBK、Big
5、Unicode码的相互转换,及从日文ShiftJIS到中文GB2312的单向转换为了省事,转码过程使用的是Windows本身提供的标准API接口由于转码过程中需要用Unicode作为中间码,因此此功能不能在对Unicode支持非常有限的Windows95/98/me下使用,只能在支持GBK/Big5/ShiftJIS代码页的2000/XP下使用正常情况下,只要IE能够正常显示中文简体、中文繁体、日文网页,即可正常转换使用方法先设置文件选项、转码选项,然后点“开始”按钮,选择需要转换的文件即可转码后如果出现固定的错别字,可以用“文本替换”功能进行修正文件选项说明覆盖原文件转换后的文件将覆盖转换前的文件原文件另存为bak文件转换后的文件不会覆盖转换前的文件,转换完成后将在原文件名后加后缀.bak转码选项说明左侧为原文件中的汉字编码,右侧为转换后的汉字编码GB码按照国家标准GB2312-80编排,包括全部简体字及常用符号在中文简体版的Windows下显示为简体,在繁体版Windows下显示为乱码GBK码是国家技术监督局1995年为中文Windows95所制定的新的汉字内码规范(其中GB表示国标,K表示扩展)该规范在字汇一级上支持ISO10646和GB13000中的全部中日韩(CJK)汉字,并与国家标准GB2312-80信息处理交换码相兼容如果在中文简体版的Windows95/98/2000下看到繁体中文或繁简混杂,那么多半这些中文是用GBK编码的Big5码港台地区流行的汉字编码,针对繁体字这种编码的汉字在中文简体版的Windows95/98/2000下多半显示为乱码,但是在繁体版Windows下显示正常Unicode码Windows2000/XP下的字符编码,全世界的文字都可以用统一的编码进行表示在Windows95/98/Me下显示,看到的可能是一堆问号
6、文本替换(Repla__)对指定的文件进行批量文本替换,包括去除HTML文件中的__链接、js/css代码,或从___文件中去掉某些固定的文本等在设计这个功能时,主要依据我平时对文件进行整理的经验,同时参考了UltraEdit32v
10.10a、居辰工作室的TextWitchv
1.
0、风林的文本整理器v
2.0等的长处另外为了加快速度,替换前先将整个文件读入内存,然后在内存中进行替换,因此处理某些巨型文件时可能会有问题,不过处理通常几个MB的文件应该没啥问题使用方法先设置替换选项,然后输入替换内容,即可开始替换“替换选项”说明匹配全词对中文没用,不用点忽略大小写对中文没用,不用点Unix格式转Windows格式Unix格式的文本文件以\n为换行符,Windows格式的文本文件以\r\n为换行符通常这个选项也不用点“替换选项”中每选择一个选项,都会增加一定的处理时间,“忽略大小写”选项被选中后,还会增加内存消耗,因此请尽量不要选择不必要的选项输入替换内容的方法可以点“添加文本”或“添加字符”按钮添加内容,也可以点“调入”按钮调入以前保存的内容每项内容都可以包含多行,一次可以对多项内容进行替换,特别适合于批量整理从网上下载的HTML文件如果经常需要整理从同一个__下载的网页,可以在输入全部替换内容后,点“保存”按钮存盘,以后再整理该__的网页时,点“调入”按钮即可载入替换内容“开始替换”选项说明如果只需要对某个或某几个文件进行替换,可以点“选择并替换指定的文件”按钮,在弹出的对话框中选择文件即可按住Ctrl或Shift键__文件,即可一次选定多个文件如果需要对某个文件夹下的文件进行替换,可以先在“文件”框中选择或输入文件选择标准,再点“文件夹”框右侧的按钮选择文件夹,__“替换指定文件夹下的文件”按钮即可如果“包括子文件夹”选项被选中,则连子文件夹下的文件一起替换
7、HTML整理(TidyHTML)这个功能主要用于整理从__上批量下载的HTML文件,包括去掉其中的__链接、不合适的CSS设置及功能限制(禁止选择、禁止拷贝、禁止右键菜单)等,也可以解密某些HTML加密软件加密的HTML页对于做E书的人来说,还可以用来在打包前先检查一下HTML页面中是否包含指向本地磁盘的绝对链接使用方法先选择需要整理的HTML文件所在文件夹根据需要选择检查选项,然后点“检查”按钮开始对文件进行扫描扫描结果出来以后,先逐项双击打开看看,对不合适的可以编辑或删除搞定后,点“替换表中所有项”按钮,对HTML文件进行替换如果觉得一项一项双击打开看太麻烦,也可以导出成HTML文件看,但是一定要看,不然可能发生悲剧注意在第三步开始替换后,原始HTML文件将会被替换,请事先做好文件备份,以免后悔选项说明如下包括子文件夹如果此选项被选中,则扫描时包括选定文件夹下面的所有子文件夹Unix格式转Windows格式Unix格式的文本文件以\n为换行符,Windows格式的文本文件以\r\n为换行符通常这个选项也不用点解密网页对加密HTML文件进行解密,然后对解密结果进行检查对于未加密网页来说,勾上这个选项后,不仅检查速度会变慢,而且整理后的网页代码看起来好象重新排过版一样(其实是被IE内核重新排版),所以缺省此选项未被选中检查绝对链接检查网页中是否包含绝对链接检查时不包括anchor链接理论上说,打包E书的所有链接都必须是相对链接,不能是绝对链接检查CSS检查网页中是否包含样式表对于不满意的样式表可以替换或清除检查Script检查网页中是否包含脚本通常__链接都在脚本里检查功能限制检查网页里是否包含功能限制,包括禁止选择、禁止拷贝、禁止右键菜单等在选择解密网页、检查绝对链接、检查CSS、检查Script、检查功能限制等选项时要注意,如果都选上,不仅检查速度慢,而且可能一次列出太多的检查结果,因此应该根据需要,一次只检查一项或几项,不需要的选项不必选
8、文件切分(SplitFiles)能够按照指定的大小切分文本文件,并且避免因为切出半个汉字而造成乱码,或将一个英文单词切到两个文件中某些手机对jar文件大小有限制,所以在制作jar___前,往往需要先对文本文件进行切分,然后再打包成jar书使用方法先设置“文件选项”,再设置“文件最大长度”,然后__“开始”按钮,在弹出的对话框中选择需要切分的文件(可多选)即可每切分一个文件,都会在您所选的文件所在目录下创建一个子目录,存放切分后的文件
9、文本提取(Extractor)从文本中抽取或删除指定的内容其实这个功能完全可以通过正则表达式替换实现,不过考虑到正则表达式不是人人都懂,所以还是单独做了这么一个大众化的功能使用方法选择需要进行的操作,究竟是“提取”还是“删除”起始点到结束点之间的内容指定在输出时,是否要输出起始点、结束点的内容,如起始点字符串、结束点字符串设置起始点设置结束点设置在提取完成后,如何处理原___文件根据需要,__“开始提取”框中的按钮“开始提取”选项说明如果只需要对某个或某几个文件进行提取,可以点“选择并提取指定的文件”按钮,在弹出的对话框中选择文件即可按住Ctrl或Shift键__文件,即可一次选定多个文件如果需要对某个文件夹下的文件进行提取,可以先在“文件”框中选择或输入文件选择标准,再点“文件夹”框右侧的按钮选择文件夹,__“提取指定文件夹下的文件”按钮即可如果“包括子文件夹”选项被选中,则连子文件夹下的文件一起提取
10、正则表达式(RegExp)运用正则表达式,实现批量文本查找、文本替换、文件切分功能合理使用这些功能,可以全部或部分代替本软件的下列功能Html-Text、段落合并、段落切分、文本替换、HTML整理、文件切分、文本提取,当然前提条件是您能够写出正确的表达式,否则建议您还是隐藏这个页面吧支持正则表达式的软件在实现时通常都基于某个成熟的正则表达式引擎,目前可用的引擎有不少,从开源的到封装过的都有从我试用的结果来看,开源的几个引擎用起来都有点麻烦,尤其在处理
1、支持非贪婪模式,而
1.0版所有匹配都是贪婪的
2、支持Multiline选项,这个对^、$有影响,而且很常用所以我没啥好犹豫的,直接就选择了
5.5版当然由此也带来了两个限制
1、TextForever的正则表达式功能只能在装有IE
5.5以上版本的机器上使用不过现在IE6应该已经算标配了吧?
2、由于JScript/VBScript内部均基于UNICODE,所以在表达式中计算字符数的时候,一个中文字也算一个字符,而不是象通常ANSI环境下,一个字母、数字算一个字符,一个中文字算两个字符编码转换使用当前系统缺省代码页微软正则表达式引擎
5.5版的详细说明见JScript/VBScript的相关文档,在本文附录B部分给出了一个语法表,摘自微软出版的《VBScipt用户指南》电子版这个基本上是给会写正则表达式的人士参考用,用它来学写正则表达式可能有点困难,如果真想学,建议还是老老实实找本书去翻翻吧这个正则表达式引擎要比我用过的EditPlusv
2.10c、UltraEdit
3210.10a的复杂和强大许多,包括向后引用(Backreferencing)等使用方法
1、“添加”正则表达式添加时可以先测试一下表达式的效果如果表达式不正确,在这里才给出提示表达式输入后,可以“删除”、“修改”,也可以“保存”,在需要的时候再“调入”,以重复利用
2、选择需要操作的文件所在文件夹,及需要操作的文件如果“含子文件夹”选项被选中,则操作包括所选文件夹及其下所有子文件夹中的文件,否则只处理所选文件夹中的文件
3、根据需要,选择“查找”、“替换”或“文件切分”操作为了保险,建议在做替换或切分之前,先用查找功能查一次,看看正则表达式的匹配结果与想像的是否一致,以免一失足成千古恨在输入正则表达式时,允许有三个选项全局搜索(Global)指明在搜索正则表达式的匹配时,是搜索文件中的所有匹配,还是只搜索第一个匹配缺省为选中,即搜索所有匹配忽略大小写(IgnoreCase)指明搜索正则表达式匹配时是否忽略大小写这个对中文没用,所以缺省未选中多行文本(Multiline)如果被选中,那么^匹配每行的开始位置,而$匹配每行的结束位置如果未被选中,那么^匹配文件的开始位置,而$匹配文件的结束位置缺省为选中
11、TCR将文本文件批量压缩成tcr文件,或将tcr文件批量解压成文本文件压缩时可以选择是否过滤空白符、段落标记,以节省存储和显示空间这个功能是专门给制作在手机和PDA上阅读的___用的,如果您只打算在电脑上看书,相信您不会用到这个功能使用方法___文件压缩先设置“压缩文件选项”,然后__“开始压缩”按钮,在弹出的对话框中选择需要压缩的文件(可多选)即可压缩后的文件和您所选的文件在同一目录下,如果有同名文件,将会被自动覆盖TCR文件解压__“开始解压”按钮,在弹出的对话框中选择需要解压的文件(可多选)即可解压后的文件和您所选的文件在同一目录下,如果有同名文件,将会被自动覆盖附录A鸣谢TCR文件处理代码来自AndrewGiddings的TCR
1.04,在此对他表示感谢!在“编码转换”中将GBK/Big5转换成GB码时,繁体字词修正表参考了盛泉虎的DreamEditV和风林的文本整理器V
2.0的缺省设置,在此对他们表示感谢!“HTML整理”功能的部分创意来自大唐游侠的文本之星TextStar,所用的HTML代码解析器来自GurmeetS.Kochar的HTMLReaderC++ClassLibrary,在此对他们表示感谢!“Html-text”、“HTML整理”、“正则表达式”等功能均使用了微软随Windows系统提供的控件,在此表示感谢!附录B正则表达式语法(引自《VBScipt用户指南》)一个正则表达式就是由普通字符(例如字符a到z)以及特殊字符(称为元字符)组成的文字模式该模式描述在查找文字主体时待匹配的一个或多个字符串正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配这里有一些可能会遇到的正则表达式示例正则表达式匹配^\[\t]*$匹配一个空白行\d{2}-\d{5}验证一个ID号码是否由一个2位数字,一个连字符以及一个5位数字组成.*.*\/\1匹配一个HTML标记下表是元字符及其在正则表达式上下文中的行为的一个完整列表字符描述\将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符例如,n匹配字符n\n匹配一个换行符序列\\匹配\而\则匹配^匹配输入字符串的开始位置如果设置了RegExp对象的Multiline属性,^也匹配\n或\r之后的位置$匹配输入字符串的结束位置如果设置了RegExp对象的Multiline属性,$也匹配\n或\r之前的位置*匹配前面的子表达式零次或多次例如,zo*能匹配z以及zoo*等价于{0}+匹配前面的子表达式一次或多次例如,zo+能匹配zo以及zoo,但不能匹配z+等价于{1}匹配前面的子表达式零次或一次例如,does可以匹配do或does中的do等价于{01}{n}n是一个非负整数匹配确定的n次例如,o{2}不能匹配Bob中的o,但是能匹配food中的两个o{n}n是一个非负整数至少匹配n次例如,o{2}不能匹配Bob中的o,但能匹配foooood中的所有oo{1}等价于o+o{0}则等价于o*{nm}m和n均为非负整数,其中n=m最少匹配n次且最多匹配m次例如,o{13}将匹配fooooood中的前三个oo{01}等价于o请注意在逗号和两个数之间不能有空格当该字符紧跟在任何一个其他限制符*+{n}{n}{nm}后面时,匹配模式是非贪婪的非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串例如,对于字符串oooo,o+将匹配单个o,而o+将匹配所有o.匹配除\n之外的任何单个字符要匹配包括\n在内的任何字符,请使用象[.\n]的模式pattern匹配pattern并获取这一匹配所获取的匹配可以从产生的__tches__得到,在VBScript中使用Sub__tches__,在JScript中则使用$0…$9属性要匹配圆括号字符,请使用\或\:pattern匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用这在使用或字符|来组合一个模式的各个部分是很有用例如,industr:y|ies就是一个比industry|industries更简略的表达式=pattern正向预查,在任何匹配pattern的字符串开始处匹配查找字符串这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用例如,Windows=95|98|NT|2000能匹配Windows2000中的Windows,但不能匹配Windows
3.1中的Windows预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始!pattern负向预查,在任何不匹配pattern的字符串开始处匹配查找字符串这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用例如Windows!95|98|NT|2000能匹配Windows
3.1中的Windows,但不能匹配Windows2000中的Windows预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始x|y匹配x或y例如,z|food能匹配z或foodz|food则匹配zood或food[xyz]字符__匹配所包含的任意一个字符例如,[abc]可以匹配plain中的a[^xyz]负值字符__匹配未包含的任意字符例如,[^abc]可以匹配plain中的p[a-z]字符范围匹配指定范围内的任意字符例如,[a-z]可以匹配a到z范围内的任意小写字母字符[^a-z]负值字符范围匹配任何不在指定范围内的任意字符例如,[^a-z]可以匹配任何不在a到z范围内的任意字符\b匹配一个单词边界,也就是指单词和空格间的位置例如,er\b可以匹配never中的er,但不能匹配verb中的er\B匹配非单词边界er\B能匹配verb中的er,但不能匹配never中的er\cx匹配由x指明的控制字符例如,\cM匹配一个Control-M或回车符x的值必须为A-Z或a-z之一否则,将c视为一个原义的c字符\d匹配一个数字字符等价于[0-9]\D匹配一个非数字字符等价于[^0-9]\f匹配一个换页符等价于\x0c和\cL\n匹配一个换行符等价于\x0a和\cJ\r匹配一个回车符等价于\x0d和\cM\s匹配任何空白字符,包括空格、制表符、换页符等等等价于[\f\n\r\t\v]\S匹配任何非空白字符等价于[^\f\n\r\t\v]\t匹配一个制表符等价于\x09和\cI\v匹配一个垂直制表符等价于\x0b和\cK\w匹配包括下划线的任何单词字符等价于[A-Za-z0-9_]\W匹配任何非单词字符等价于[^A-Za-z0-9_]\xn匹配n,其中n为十六进制转义值十六进制转义值必须为确定的两个数字长例如,\x41匹配A\x041则等价于\x041正则表达式中可以使用ASCII编码.\num匹配num,其中num是一个正整数对所获取的匹配的引用例如,.\1匹配两个连续的相同字符\n标识一个八进制转义值或一个向后引用如果\n之前至少n个获取的子表达式,则n为向后引用否则,如果n为八进制数字0-7,则n为一个八进制转义值\__标识一个八进制转义值或一个向后引用如果\__之前至少有__个获得子表达式,则__为向后引用如果\__之前至少有n个获取,则n为一个后跟文字m的向后引用如果前面的条件都不满足,若n和m均为八进制数字0-7,则\__将匹配八进制转义值__\__l如果n为八进制数字0-3,且m和l均为八进制数字0-7,则匹配八进制转义值__l\un匹配n,其中n是一个用四个十六进制数字表示的Unicode字符例如,\u00A9匹配版权符号©附录C版本更新记录Version
1.54软件名称从FineReader改为TextForever,以免与别的软件重名新增功能显示设置,可以设置只显示常用页面,隐藏不常用的页面新增功能“正则表达式”页,可以用正则表达式查找、替换、切分文件此功能可以全部或部分代替下列功能Html-Text、段落合并、段落切分、文本替换、HTML整理、文件切分、文本提取,当然前提条件是您能够写出正确的表达式,否则建议您还是隐藏这个页面吧新增功能“文本提取”页,可以从文本中抽取或删除指定的内容其实这个功能可以通过正则表达式实现,不过考虑到正则表达式不是人人都懂,所以还是单独做了这么一个大众化的功能错误修正在“Html-Text”页面中,如果选择了“使用IE内核”,再点“恢复”按钮,各控件状态不会改变Version
1.53新增功能HTML整理,批量去除HTML文件中的js、css、功能限制、绝对链接,并能解密加密网页这个功能主要用于整理从__上批量下载的HTML文件,去掉其中的__链接、不合适的CSS设置及功能限制(禁止选择、拷贝、右键菜单等),也可以解密某些HTML加密软件加密的HTML页对于做E书的人来说,还可以用来在打包前先检查一下HTML页面中是否包含指向本地磁盘的绝对链接此功能部分创意来自大唐游侠的文本之星TextStar功能增强在“Html-Text”时,能够处理pre段中的符号,能够处理xmp标签功能增强在“文本替换”时,能够处理以\r作为行结束符的文件功能增强在“文本替换”页中,导出HTML文件后,自动打开导出的文件功能调整将“编码转换”页调整到“文本替换”页前面,便于在转换完成后,用替换功能校正转换出来的固定错别字功能调整在“段落合并”页中,调整了判断段落开始的第三个条件的说明,原来界面上的说明有误错误修正在“段落合并”功能中,如果文件最后不以回车或换行符结束,则最后一行可能会重复上一行的部分内容错误修正在打开“文本替换”页后,有时程序会意外退出Version
1.52新增功能文本替换,支持多行替换及批量替换,并能保存/调入替换内容新增功能在“编码转换”页中,支持从日文Shift-JIS到中文GB2312的转换功能增强在“编码转换”页中,能够检查当前系统是否支持GBK/Big5/Shift-JIS代码页功能增强在“Html-Text”页中,如果使用IE内核,而网页又是utf-8编码,则可以选择将结果转换成Unicode或ANSI,ANSI使用系统缺省字符集(简体中文Windows的缺省字符集为GB2312)功能增强在“段落合并”页中,允许段落开头的中、英文空格最多为50个(以前为10个)功能增强在“编码转换”页中,将GBK/Big5转换成GB码时,能够修正更多的繁体字词错误修正在“Html-Text”页中,如果使用IE内核,而网页中的脚本有错误,则会启动脚本调试软件Version
1.51功能增强在“TCR”页面中,可以对英文空格、制表符指定如何处理,便于压缩英文文本功能增强在“编码转换”页中,将GBK/Big5转换成GB码时,能够修正更多的繁体字词字词修正表参考了盛泉虎的DreamEditV和风林的文本整理器V
2.0的缺省设置,再加上我自己的积累,因此应该比这两个软件缺省设置下的转换效果更好一些功能增强对英文版界面进行了调整错误修正在“编码转换”页中,将GBK/Big5转换成GB码时,可能会因为半个汉字而造成乱码Version
1.50功能增强在“编码转换”页中,将unicode格式转换成其它格式时,能够兼容bigendian的unicode格式功能增强“编码转换”功能只能用于Windows2000/XP,在Windows95/98/me下使用时,在界面上给出提示错误修正在“段落合并”功能中,在处理某些文件时,会造成程序死锁Version
1.49新增功能在HTML-Text时,能够指定使用IE内核,相当于IE的“另存为文本文件”功能,原来搞不定的网页,尤其是用j__ascript动态生成显示内容的网页,现在都可以用这个选项试试看新增功能在“段落合并”、“段落切分”页,能够一次对多个文件进行操作以前一次只能合并或切分一个文件新增功能“文件切分”页,能够按照指定的大小切分文本文件,并且避免因为切出半个汉字而造成乱码,或将一个英文单词切到两个文件中某些手机对jar文件大小有限制,所以在制作jar___前,往往需要先对文本文件进行切分新增功能在Big5-GB和GBK-GB时,能够对常见的错别字进行修正,包括後、麽、於等新增功能增加Unicode与GB、GBK、Big5的相互转换因此将页面标题从原来的“GB/GBK/Big5”改成“编码转换”错误修正以\n分行的文件在进行内码转换后,就成了以\r\n分行了错误修正在HTML-Text时,如果HTML的注释中包含其它tag,则tag后的注释内容会被输出错误修正在HTML-Text时,如果在HTML的body中包含script、style段,则这些段中内容会被当作文本输出Version
1.48新增功能将文本文件批量压缩成tcr文件,将tcr文件批量解压成文本文件压缩时可以选择是否过滤空白符、段落标记,以节省存储和显示空间这个功能是专门给制作在手机和PDA上阅读的___用的新增功能自动记忆所有参数,点“恢复”按钮恢复缺省值新增功能在“HTML-___”、“___文件合并”页中,加入“删除源文件”选项;在“段落合并”、“段落切分”页中,加入“源文件另存为.bak”选项功能调整删除了“HTML-___”中的某些选项这些选项基本上没有什么实际用途错误修正英文版PropertyPage高度计算不准确Version
1.47新增功能GB/GBK/Big5码转换转码过程使用的是Windows本身提供的标准接口,转码效果与IE相当Verion
1.46发行简体中文版更正“关于”对话框中的e__il地址统一文件浏览对话框的风格修正定位代码,彻底解决改变字体后PropertyPage高度计算不精确的问题根据新的用户界面,更改了本帮助文件Version
1.45在分段(Paragraph)的时候,可以去除行首、行尾的制表符Version
1.44在HTML-___对话框中,增加“Convertiso8859-1sequen__”选项,即将nbsp;转成空格,将middot;转成·等Version
1.
431、增加分行(Reparagrahp)功能
2、增加本说明文件。