问题描述

一个问题,就是我有一张爬虫表。我发现我的 web 时间字段解析出错了
以至于出现了未来的时间:
web页面解析错误以至于在数据库中出现了未来的时间
以当前的时间为准,查询出错误的数据大概有这些,均来与同一个数据源 大公报, 数据源代码 OrgTableCode 为 1034 。
查询出错误的数据量
比较苦恼,因为我可能要重新请求一下错误的页面。

突然我发现我可以从文章的链接中抽取到这个时间,校验了下这个思路没有问题:
从文章的链接中抽取发布时间
update 一下:
使用 mysql 函数完成业务
这样比较好解决了我的问题 。

但是之前我有一个比较麻烦的思路:
大致是这样的:
比价麻烦的思路
最终的 _map 将会是一个 id 和发布时间的映射,类似于:
在这里插入图片描述
这样我的 sql 语句 update 要么就要分很多条写;
要么就是用这个 _map 建立一个临时表去连表;
要么就是用条件语句:

UPDATE mytable
    SET myfield = CASE other_field
        WHEN 1 THEN 'value'
        WHEN 2 THEN 'value'
        WHEN 3 THEN 'value'
    END
WHERE id IN (1,2,3)

其中的 where then 通过拼接 _map 而来。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐