悦月直播免费版app下载 - 悦月直播app大全下载最新版本免费安装软件

基于Scrapy-Redis的分布式爬取當(dāng)當(dāng)網(wǎng)圖書數(shù)據(jù)

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘  要:單機的網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)效率較低,而研究分布式網(wǎng)絡(luò)爬蟲能有效提高數(shù)據(jù)的爬取效率。文中選擇使用上更為簡單的Scrapy-Redis框架,設(shè)計一個架構(gòu)模式為主從式的分布式網(wǎng)絡(luò)爬蟲系統(tǒng),實現(xiàn)對當(dāng)當(dāng)網(wǎng)圖書信息的爬取;并對布隆過濾器算法進行研究,分析影響其性能的參數(shù),將算法集成到Scrapy-Redis的Scheduler的去重模塊中。(剩余6520字)

monitor