www.bcmx.net > 如何用rEDis去重

如何用rEDis去重

$key = 'URL_HASH'; if(!$redis->hGet($key, md5($url))){ // do something ... // 抓取一个 $url 后 $redis->hSet($key, md5($url), true); }这里需要注意的是,如果是多线程的,要考虑其他进程,可以吧 bool 值改为枚举值。

and there cliff wall. Go

$key = 'URL_HASH'; if(!$redis->hGet($key, md5($url))){ // do something ... // 抓取一个 $url 后 $redis->hSet($key, md5($url), true); }

$key = 'URL_HASH'; if(!$redis->hGet($key, md5($url))){ // do something ... // 抓取一个 $url 后 $redis->hSet($key, md5($url), true); } 这里需要注意的是,如果是多线程的,要考虑其他进程,可以吧 bool 值改为枚举值。

使用scrapy-redis后,过滤重复的request不能使用原来scrapy的过去组件,要scrapy-redis的,在settings.py上配置DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 可以查看文档!

网站地图

All rights reserved Powered by www.bcmx.net

copyright ©right 2010-2021。
www.bcmx.net内容来自网络,如有侵犯请联系客服。zhit325@qq.com