入职四天,第一次接触公司项目,有些收货记录下来
领导让我查为什么头条爬虫最近记日数据量下来了,每个时间段从几百kb掉到了几k。
第一次改bug,毫无头绪无从下手。打算先从代码逻辑下手,看了一会代码逻辑,和略略几笔的开发文档,找到了日志的位置。但是没有日志系统复杂,整体运行日志,模块运行日志,mysql运行记录。找了很久没有线索。
然后,我寻找前些日子数据正常的错误日志和最近错误日志的对比,一路摸索发现头条文章页面改版,导致数据量降低,我根据新的html写了一套新的爬取模板,用了任务链模式添加了我的版本,同时也不废除曾经的解析模板。
弄完这些差不多要下班了,和领导一起上线跟了一会日志到7点坐上最后一套公交回家。
今早一看,数据正常,没有问题。