切换风格

默认晚霞 雪山 粉色心情 伦敦 花卉 绿野仙踪 加州 白云 星空 薰衣草 城市 简约黑色 简约米色 龙珠
回复 0

3821

主题

3822

帖子

1万

积分

论坛元老

Rank: 8Rank: 8

积分
12742
赏学吧自动爬题PHP源码-付费百万题库,无需工具人自动爬[复制链接]
发表于 2022-5-23 14:49:46 | 显示全部楼层 |阅读模式
我来放大招了
授人以鱼不如授人以渔-第三波
我又来了兄弟们,作业在线已经爬的差不多了吧,该爬爬其他的题库了~~~~~~
,该网站隶属于某学吧,总题库量为270W+,普通用户查题需付费。
因为赏学吧的题目,是按照数字id来的,比如:这个id就是2683074,也就是第2683074道题。咦,我刚好有个朋友,他发现了赏学吧无需付费的官方答案接口,而且现在不会ban IP,不限制次数。盘它~~~~~~~~~~~~~~~~
官方的答案接口我也一起打包了,厉害的兄弟可以自己用这个接口爬~~
这次给兄弟们带来的2个版本:
第一个是:利用宝塔计划任务,按题目id自动爬取,题目,答案。选项,分类。然后保存到数据库。这个文件是crawler.php和sxb_id.php
这个就不放演示地址了。
第二个是:继续用工具人,让用户搜题,然后转存到自己数据库内~。这个文件是%E5%A4%A7%E5%AD%A6题目名称
小服务器,很卡,仅供测试~~
-------------------------------------------------------------------------------------------------------------------------------------------------------------------
下面是关于数据库的一些操作:
第一步:在phpmyadmin内,新建数据表:
144942pku6a59a9kbuud32.jpg
第二步:在源码文件里填好自己的数据库信息: 144943gj1dnn2422nr4q1w.jpg
第三步:运行工具人源码即可~:    (如果只要用搜题转存的源码,到这一步就够了)
--------------------------------------------------------------------------------------------------------------------------------
下面的是关于利用宝塔的计划任务,自动爬题的操作
第一步:将源码解压到某一目录下:
144943kyxlxw1w1kowfzzo.jpg
第二步:新建2个文件,counter.dat和counter2.dat
counter.dat 这个文件是开始爬的id,比如我要从第一道题开始爬,里面就写1
counter2.dat    这个文件是最后爬的id,比如我只要爬到第20W道题,里面就写200000
要保持4个文件都在同一目录下哦~
144943fz7ktz2s7kxdjkn7.jpg
第三步:打开crawler.php文件,填写好数据库信息
第四步:打开宝塔计划任务,选择访问URL,设置频率2分钟,将你的crawler.php文件的地址输入,然后添加任务即可
144944p9xagc523a6wcg8a.jpg
添加成功后,再点一下执行。
144944zm7a3ww0e77fm77y.jpg
然后就可以坐等数据库里增加题目啦
144945idht9h7tt2dhhbdt.jpg
兄弟们爬快点,把服务器都搞上,你爬不快,可能赏学吧就BAN 接口了
14494738985[下载].rar



我的环境如下:
系统环境:Centos7.2
面板:宝塔面板
其他环境:PHP7.0,Nginx,mysql,phpmyadmin
先说一句环境都不会配置的,或者说啥访问不了文件的。这种纯属个人问题!


几乎于每行代码我都写了注释,这还看不懂,自己补补基础吧
crawler.php 文件需要自己去填好所有的相关信息。
数据库信息,你的赏学吧接口sxb_id.php,然后还要新建2个文件


有兄弟嫌宝塔爬题慢了.......指个路子,那是因为你只添加了一个计划任务。
1个crawler.php文件等于一个计划任务。那我添加10个爬虫文件,10个计划任务分id段体同时爬呢?
思路就在这里了,其实也可以用其他语言写爬虫,php效率确实不高
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|不懂 ( 粤ICP备14042591号-1 )|网站地图

GMT+8, 2024-11-22 10:17 , Processed in 0.097785 second(s), 31 queries .

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc.

返回顶部