1194712.jpg

非典型废宅

GF  2022-04-05 15:46
(从不畏惧,也从不后悔)

[请教]业余码农怎么提升自己

最近写点自己用的小插件和小软件,代码量小的还好,代码量稍微多一点就感觉力不从心。

感觉自己软件架构等方面有很大问题,各个模块分离不好,抽象搞得一团糟,有没有什么书或者可以参考的开源库可以提升下自己?

主要使用C#、JavaScript、Python这几种语言。非科班出身,纯兴趣自修的。

1194712.jpg

非典型废宅

B1F  2022-04-06 22:30
(从不畏惧,也从不后悔)

回 4楼(言合) 的帖子

数据结构有在看,但是感觉解决不了我这个问题啊,我是对一个工程不知道怎么拆分,拆分多细,数据结构的话,暂时还没遇到需要特地去学的内容

1194712.jpg

非典型废宅

B2F  2022-05-11 22:58
(从不畏惧,也从不后悔)

回 10楼(BokFather) 的帖子

不可能,单引号一点就无法自动修正,只要少了一个剩下都有可能全乱,还有嵌套引号等问题。引号不对齐还会带来别的问题。加上本身有些规则就是比较模棱两可的,比如双引号中的拟声词不需要用句号结尾,但黄文里经常会有些对话不知道是算作声音还是对话,所以没有确定的结果。总之要实现自动校对的话,基本得上人工智能了。

1194712.jpg

非典型废宅

B3F  2022-05-11 23:16
(从不畏惧,也从不后悔)

回 10楼(BokFather) 的帖子

如果要说校对的话,个人有几种建议:

1、开发多端排版软件,或者直接在已有软件上二次开发,手机端用网页版。用户排版完上传排版后的版本,引入版本管理机制,例如未排版原版、段落优化版、精校版、繁体版等不同分支。
2、部分书源定时爬取SIS、sis001、pixiv等网站,按来源和分类进行基础排版,自动导入原网址tag(主要是pixiv),用户可提交作者/作品页面尝试爬取,很多书源扒SIS时没有按照论坛规则反格式化,直接自己处理了一遍,结果格式稀烂,唯一的办法是自己爬代替这些书源。
3、排版规则可以参考txtFormat和SIS的EverEdit及他的网页版。排版规则其实主要就几种:换行错误、标点格式不规范、引号未配对、屏蔽符和干扰符、广告、作者引言、章节及分隔符格式不统一、章节缺失或重复。有些本来没问题的地方可能会处理出错误来,所以只能简单的粗处理,然后再手动处理。

之前想自己做来着,但是太懒,就没动过。

1194712.jpg

非典型废宅

B4F  2022-05-18 22:51
(从不畏惧,也从不后悔)

回 19楼(BokFather) 的帖子

这个也是一种办法,自定义批量处理规则,让读者自己选择处理方法。人工校对的书源其实也不少但很难自动爬取,多在各种论坛,可以开通一个单独的校对版上传通道,要自动择优的话感觉难度很大,最基础的*等不常用符号和拼音的数量可以作为判断的一个依据,但要更准确就只能根据网友评分来优化了

1194712.jpg

非典型废宅

B5F  2022-05-23 21:31
(从不畏惧,也从不后悔)

回 41楼(单连通李群) 的帖子

SICP确实可以,看过大半,一直没看完