切换风格

默认晚霞 雪山 粉色心情 伦敦 花卉 绿野仙踪 加州 白云 星空 薰衣草 城市 简约黑色 简约米色 龙珠
回复 0

4396

主题

4397

帖子

1万

积分

论坛元老

Rank: 8Rank: 8

积分
14549
爬取补天厂商标题对应百度查找主域名的一个收集脚本[复制链接]
发表于 2022-4-7 18:30:42 | 显示全部楼层 |阅读模式
刀网成立两天了,没什么发的就发个爬虫脚本吧
使用的时候修改你访问补天网站的cookie就行
183041zs2n916za5lwrlnv.jpg 然后这是代码实例运行图 183042jvw380mbc445mec8.jpg
#coing=utf-8
#authoriod
import requests,re,json
class butian(object):
      def __init__(self, page):
              self.page = page
              self.butian_url = "http://loudong.360.cn/Reward/pub"
              #self.proxies = {"http":"113.214.13.1:8000"}
              self.data = {
                    "s":1,
                    "p":self.page,
                    "token":""
              }     
      def bananer(self):
              page = self.page
              self.header = {
                    "Cookie":"",      #COOKIE
                    "Host":"loudong.360.cn",
                    "Referer":"http://loudong.360.cn/Service",
                    "User-Agent":"Mozilla/5.0 (Linux; U; Android 5.1; zh-cn; m1 metal Build/LMY47I) AppleWebKit/537.36 (KHTML, like Gecko)Version/4.0 Chrome/37.0.0.0 MQQBrowser/7.6 Mobile Safari/537.36",
                    "Origin":"http://loudong.360.cn",
                    "Accept":"application/json, text/javascript, */*; q=0.01",
                    "Content-Type":"application/x-www-form-urlencoded; charset=UTF-8",
                    "X-Requested-With":"XMLHttpRequest",
                    "Accept-Encoding":"gzip, deflate",
                    "Content-Length":'14',
                    "Connection":"keep-alive",
                    "Accept-Language":"zh-CN,zh;q=0.8"
              }
              return self.header
      def butianjson(self):
              self.res = requests.post("http://loudong.360.cn/Reward/pub", headers = self.bananer(), data = self.data)
              print self.res.content
              self.content = json.loads(self.res.content)
              result = []
              for i in range(0, len(self.content["data"]["list"])-1):
                    result.append(self.content["data"]["list"]["company_name"])
              return result

class baidu(object):
      def __init__(self):
              self.url = "https://www.baidu.com/s?ie=utf-8
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|不懂 ( 粤ICP备14042591号-1 )|网站地图

GMT+8, 2025-1-18 18:15 , Processed in 0.072476 second(s), 30 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

返回顶部