如果要说校对的话,个人有几种建议:
1、开发多端排版软件,或者直接在已有软件上二次开发,手机端用网页版。用户排版完上传排版后的版本,引入版本管理机制,例如未排版原版、段落优化版、精校版、繁体版等不同分支。
2、部分书源定时爬取SIS、sis001、pixiv等网站,按来源和分类进行基础排版,自动导入原网址tag(主要是pixiv),用户可提交作者/作品页面尝试爬取,很多书源扒SIS时没有按照论坛规则反格式化,直接自己处理了一遍,结果格式稀烂,唯一的办法是自己爬代替这些书源。
3、排版规则可以参考txtFormat和SIS的EverEdit及他的网页版。排版规则其实主要就几种:换行错误、标点格式不规范、引号未配对、屏蔽符和干扰符、广告、作者引言、章节及分隔符格式不统一、章节缺失或重复。有些本来没问题的地方可能会处理出错误来,所以只能简单的粗处理,然后再手动处理。
之前想自己做来着,但是太懒,就没动过。