网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
05月19日漏签0天
python吧 关注:474,141贴子:1,965,916
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 8回复贴,共1页
<<返回python吧
>0< 加载中...

用python提取 百度帖子的标题可是问题来了

  • 只看楼主
  • 收藏

  • 回复
  • 百度网友82e2220
  • 白丁
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
我的代码:
# -*- coding:utf-8 -*-
import urllib
import urllib2
import re
#百度贴吧爬虫类
class BDTB:
#初始化,传入基地址,是否只看楼主的参数
def __init__(self,baseUrl,seeLZ):
self.baseURL = baseUrl
self.seeLZ = '?see_lz='+str(seeLZ)
#传入页码,获取该页帖子的代码
def getPage(self,pageNum):
try:
url = self.baseURL+ self.seeLZ + '&pn=' + str(pageNum)
request = urllib2.Request(url)
response = urllib2.urlopen(request)
# print response.read()
return response
except urllib2.URLError, e:
if hasattr(e,"reason"):
print u"连接百度贴吧失败,错误原因",e.reason
return None
def getTitle(self):
page = self.getPage(1)
#<h3 class="core_title_txt pull-left text-overflow "纯原创我心中的NBA2014-2015赛季现役50大</h3>
pattern=re.compile('<h3 class="core_title_txt pull-left text-overflow.*?>(.*?)</h3>',re.S)
result=re.search(pattern,page)
if result:
print result.group(1) #测试输出
#如果存在,则返回标题
return result.group(1).strip()
else:
return None
baseURL = 'http://tieba.baidu.com/p/3138733512'
bdtb = BDTB(baseURL,1)
bdtb.getContent(1)
运行后弹出
TypeError: expected string or buffer
为什么会这样


  • 蜡笔小新好吧6
  • 秀才
    3
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
好厉害的感觉


2025-05-19 18:09:01
广告
  • 皮皮磕破了头
  • 进士
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
正则为什么引入不了变量


  • 黄哥python培训
  • 探花
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
getContent()方法的代码呢?
缺啊 !


  • 黄哥python培训
  • 探花
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
请贴出getContent()方法的代码,帮你调试一下。


  • 依然小水丶
  • 进士
    8
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
还有比我这个更标准的十五个字吗?


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 8回复贴,共1页
<<返回python吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示