切换风格

默认晚霞 雪山 粉色心情 伦敦 花卉 绿野仙踪 加州 白云 星空 薰衣草 城市 简约黑色 简约米色 龙珠
回复 0

3986

主题

3987

帖子

1万

积分

论坛元老

Rank: 8Rank: 8

积分
13197
10行代码采集刀网的活动线报数据[复制链接]
发表于 2022-4-8 20:36:04 | 显示全部楼层 |阅读模式
第一次投稿    还是小白 用Python的写的爬虫 比较简单    话不多说 代码如下! 大神勿喷!import requests    #库必须要装

from lxml import etree #库必须要装

url = 'https://www.xd0.com/i_wz_306807.html'    #链接

data = requests.get(url)#发送请求

data.encoding='gb2312'#转编码

s=etree.HTML(data.text)#进行解析

hdxb_dz=s.xpath('//h2[@class="post-title"]//a/text()|//h2[@class="post-title"]//a/@href|//span[@class="ptime"]//span/text()')#匹配

print('已经抓取',int(len(hdxb_dz)/3),'条')

for    hdxb in hdxb_dz:     

            print(hdxb.replace('i-wz-','https://www.xd0.com/i-wz-')) #链接转换 输出
复制代码





补充一下运行的结果图


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|不懂 ( 粤ICP备14042591号-1 )|网站地图

GMT+8, 2024-11-22 09:00 , Processed in 0.066896 second(s), 28 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

返回顶部