java吧 关注:1,242,640贴子:12,715,152
  • 24回复贴,共1

刚开始学爬虫,爬不到数据

只看楼主收藏回复

刚开始学爬虫,爬不到数据


IP属地:山东来自Android客户端1楼2019-02-11 16:14回复
    和讲师一样的代码


    IP属地:山东来自Android客户端2楼2019-02-11 16:14
    回复
      好像每次都让我登陆,爬的京东


      IP属地:山东来自Android客户端3楼2019-02-11 16:15
      回复
        @Scheduled(fixedDelay = 1000*100,initialDelay = 1000)
        public void process() throws IOException {
        System.out.println("111");
        String url = "https://search.jd.com/Search?keyword=手机&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=手机&cid2=653&cid3=655&s=174&click=0&page=";
        for (int i = 0; i <= 10; i+=2) {
        String html1 = httpUtil.getHtml(url + i);
        System.out.println(222+""+html1);
        parseHtml(html1);
        }
        }


        IP属地:山东4楼2019-02-11 16:21
        回复
          每次打印222那行就打印出这个
          222<script>window.location.href='https://passport.jd.com/uc/login'</script>


          IP属地:山东5楼2019-02-11 16:22
          收起回复
            10


            IP属地:山东8楼2019-02-11 16:33
            回复
              大佬在哪里


              IP属地:山东来自Android客户端9楼2019-02-11 16:39
              回复
                9


                IP属地:山东来自Android客户端10楼2019-02-11 17:15
                回复
                  老哥已经上班了吗


                  IP属地:陕西来自Android客户端11楼2019-02-11 17:26
                  收起回复
                    java写爬虫不科学吧, python了解一下


                    IP属地:上海12楼2019-02-11 17:57
                    收起回复
                      把cookie换一下试试


                      IP属地:四川来自Android客户端13楼2019-02-12 13:03
                      回复
                        cookie呢,请求头参数呢


                        IP属地:北京来自Android客户端14楼2019-02-14 18:48
                        回复
                          你以为你想爬就爬的,现在真正的门户网站都是有反爬虫机制的,否则你这边死命发请求把别人搞炸了怎么办?或者你把页面爬去骗别人咋办?


                          IP属地:辽宁来自Android客户端15楼2019-02-22 21:31
                          回复
                            起码你请求头得加cookie,然后可能还有别的请求头


                            IP属地:上海来自Android客户端17楼2019-02-22 21:39
                            回复
                              设置一下头信息 httpGet.setHeader("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0");


                              18楼2020-02-17 17:47
                              收起回复