10行代码采集刀网的活动线报数据

sage136 · 发表于 2022-4-8 20:36:04

第一次投稿还是小白用Python的写的爬虫比较简单话不多说代码如下! 大神勿喷!import requests #库必须要装

from lxml import etree #库必须要装

url = 'https://www.xd0.com/i_wz_306807.html' #链接

data = requests.get(url)#发送请求

data.encoding='gb2312'#转编码

s=etree.HTML(data.text)#进行解析

hdxb_dz=s.xpath('//h2[@class="post-title"]//a/text()|//h2[@class="post-title"]//a/@href|//span[@class="ptime"]//span/text()')#匹配

print('已经抓取',int(len(hdxb_dz)/3),'条')

for hdxb in hdxb_dz:

print(hdxb.replace('i-wz-','https://www.xd0.com/i-wz-')) #链接转换输出
复制代码

补充一下运行的结果图

相关帖子

浏览过的版块