首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
华为云
V2EX  ›  程序员

xspider 爬虫小框架,专注策略实现爬虫

  •  
  •   intohole · 62 天前 · 1146 次点击
    这是一个创建于 62 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://github.com/intohole/xspider

    1. 本地磁盘队列,对各位只有单机,存储内存 cpu 不大的情况实现
    2. 针对不同链接 pattern,使用不同解析器;
    3. 结合 bloomfilter 过滤神器,达到减少内存占用
    4. 整个抽取器,json /正则/ xpath / css selector 等,还在构造中
    5. 对整个抓取流程结构化

    现在不足点:

    1. 数据库存储问题
    2. 对抓取失败后,处理策略优化;
    3. 无可视化页面,对整个爬虫架构完善
    4. 无可自动抽取元素

    爬虫架构本人在使用,写一些定制化的爬虫,期待你的建议~

    不喜勿喷,可以略过~谢谢

    12 回复  |  直到 2018-06-13 20:39:05 +08:00
        1
    glacer   62 天前
    mark
        2
    ihancheng   62 天前 via Android
    战马
        3
    cheesea   61 天前
    我想问一下,楼主这个框架,对比 scrapy/pyspider 有什么区别,或者说解决了什么问题?
        4
    itsme001   61 天前
    看到请求用的 requests 就停了.requests 默认的有些 http 头都是去不掉的.会被 requests 使用的下层库(urllib?httplib?)添加上去.玩具成熟点再发吧.
        5
    golmic   61 天前
    我还没看到 4L 那,只看到了
    1. 抓取单线程
    2. from xspider.spider.spider
    就不打算继续看了
        6
    Leigg   61 天前 via iPhone
    有想法,不过最好有鲜明的优势,相较于 scrapy,pyspider 这些框架,不用把他们实现的你都实现,不然就是造轮子了。
    总体建议是: 整体构思好再出发比较好,这是一个很锻炼 coding,架构能力的事情,还是支持楼主。
        7
    intohole   61 天前
    楼上们,没用你怎么知道不好呢? 好奇? 看到 requests 就停止了~
        8
    intohole   61 天前
    @cheesea 机器资源紧张,需要设计一些策略问题
        9
    intohole   61 天前
    @Leigg 这个有架构的~,这是我自己一些爬虫工具,磨练出来的
        10
    gouchaoer2   61 天前 via Android
    你可能不需要队列,mysql 足够
    你可能不需要 bloomfilter,unique 索引足够
    可能你不需要优化性能,因为爬虫就不是个 cpu/内存消耗的东西
        11
    xiangbohua   61 天前
    @gouchaoer2 网络请求、放反扒应该占用大多数时间吧
        12
    intohole   61 天前
    @gouchaoer2 其实什么都不用做 , 直接用 requests 就可以
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   实用小工具   ·   3119 人在线   最高记录 3762   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 20ms · UTC 06:37 · PVG 14:37 · LAX 23:37 · JFK 02:37
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1