java吧 关注:1,242,640贴子:12,714,582
  • 6回复贴,共1

【爬虫】求问,有哪些开源爬虫可用易用

只看楼主收藏回复

只是到网页爬取一些数据,有哪些开源java爬虫可用、易用、可以自己扩展的?之前没有用过,希望大(shui)神(huo)们指点一二。
查到有很多,
Nutch
Heritrix
JSpider
WebMagic
WebCollector
等等等等。
http://www.oschina.net/project/tag/64/spider?sort=view&lang=19&os=0


IP属地:北京1楼2015-02-22 11:18回复
    求召唤 求挽尊


    IP属地:北京2楼2015-02-22 11:24
    回复
      httpclient自己写几行代码就行


      IP属地:河南3楼2015-02-22 13:32
      收起回复
        轻量级的推荐jsoup,能发送http请求加html解析。如果需要浏览器引擎,比如自动执行js,可以用htmlunit。类似的还有太很多,这两个是我经常在项目里使用的


        来自Android客户端4楼2015-02-22 20:01
        回复