安全渗透测试中的一款免费开源的超级关键词URL采集工具

news/2024/6/18 21:29:51

安全渗透测试中的一款免费开源的超级关键词URL采集工具。

####################
免责声明:工具本身并无好坏,希望大家以遵守《网络安全法》相关法律为前提来使用该工具,支持研究学习,切勿用于非法犯罪活动,对于恶意使用该工具造成的损失,和本人及开发者无关。
####################

superl-url 关键词URL采集:

一款基于Python的开源免费关键词URL采集工具。

根据关键词,对搜索引擎内容检索结果的网址内容进行采集的一款轻量级软程序。

程序主要运用于安全渗透测试项目,以及批量评估各类CMS系统0DAY的影响程度,同时也是批量采集自己获取感兴趣的网站的一个小程序~~

可自动从搜索引擎采集相关网站的真实地址与标题等信息,可保存为文件,自动去除重复URL。同时,也可以自定义忽略多条域名。

在这里插入图片描述

程序特色
支持同时采集多个搜索引擎(已内置了百度,搜狗,360),结构模块化,很方便进行扩展,可以无限添加。

获取到的是搜索引擎的搜索结果的真实URL地址

跨平台,采用Python开发,所有代码完整开源.并且无捆绑后门风险,更新方便。网上大部分URL采集软件为WINDOWS下的可执行文件,并且很多都在搜索引擎更新后无法正常使用。

强大的过滤功能。可过滤多种顶级域名,可过滤指定标题中包含某关键子的URL,比如搜索结果中过滤属于youku.com的子域名URL。支持TXT配置过滤。

可自动去除重复URL

可灵活的通过配置文件自定义要保存的结果格式。比如只输出带参数的原始真实URL,或者只输出域名,或者同时输出标题,搜索引擎名称。

可灵活的开启与关闭参与采集的搜索引擎,比如只想使用百度,就把其他搜索引擎参数设置为False即可。

同时兼容python3和python2版本运行!良心开源小产品啊~~~

可分别自定义不同搜索引擎每页显示数量(如果搜索引擎自身支持的话)

支持多进程同时采集,每个搜索引擎一个进程

可自定义每页采集时间间隔,防止被屏蔽

实时显示采集到的网页的【真实URL】以及【标题】。前面的【ID】对应的是当前页搜索引擎结果的第X条数据。

保存类型可自定义,目前支持保存为本地txt,以及写入远程MYSQL数据库!

superl-url安装与使用

git clone https://github.com/super-l/superl-url.git

安装依赖

python3:pip install ConfigParserpip install tldextract

Python2:pip install tldextractpip install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser

如果提示模块不存在,则根据提示进行安装!

使用说明
如果要采集关键词为“hacker”的相关网站,采集搜索结果的前3页,则输入如下:

please input keyword:hacker

Search Number of pages:3


配置文件说明 config.cfg :

节点 参数 示例值 说明
global save_type mysql 保存类型 可选择file或者mysql 如果是file则保存为本地txt
global sleep_time 1 每次搜索处理完一页后的等待时间,防止太频繁被搜索引擎屏蔽
url url_type realurl 保存文件txt里面显示的url类型。realurl=真实网站地址 baseurl=原始搜索引擎地址 urlparam=带参数的真实网站地址
filter filter_status True 是否开启过滤器,如果开启,则过滤域名和标题都不生效
filter filter_domain True 是否过滤域名
filter filter_title True 是否过滤标题
log write_title True 是否显示标题
log write_name True 是否显示搜索引擎名称
engine baidu True 百度搜索引擎模块是否开启
engine sougou True 搜狗模块是否开启
engine so False 搜搜模块是否开启 (搜搜现在抓取不到了)
pagesize baidu_pagesize 50 每页条数
pagesize sougou_pagesize 50 每页条数
pagesize so_pagesize 10 每页条数
mysql host 127.0.0.1 如果保存类型为Mysql,则此节点必须配置正确
mysql port 3306 端口
mysql user root 用户名
mysql password root 密码
mysql database superldb 数据库名称
mysql table search_data 表名称
file save_pathdir result 如果保存类型为file,则这里设置的是保存的路径,当前为程序根目录的result文件夹
plugin pr True 预留的插件功能,暂时不支持


数据库创建表sql语句:


CREATE TABLE `search_data` (
  `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
  `engine` varchar(20) NOT NULL DEFAULT '',
  `keyword` varchar(100) NOT NULL DEFAULT '',
  `baseurl` varchar(255) NOT NULL DEFAULT '',
  `realurl` varchar(255) NOT NULL DEFAULT '',
  `urlparam` varchar(255) NOT NULL DEFAULT '',
  `webtitle` varchar(255) NOT NULL DEFAULT '',
  `create_time` int(10) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=MyISAM AUTO_INCREMENT=395 DEFAULT CHARSET=utf8;

http://www.niftyadmin.cn/n/58320.html

相关文章

API 的安全性

大家好。今天聊一个很重要但是大部分人不重视的API安全问题。api固有的范围和风险意味着它们需要一种不同的安全方法。应用程序编程接口(api)是现代应用程序的构建模块,它们的使用正在以惊人的速度增长。然而,随着使用的增加,风险也会增加。。…

家政服务小程序实战教程08-宫格导航

小程序一般会在首页显示商品的分类,这类需求我们在微搭中是使用宫格导航组件来实现。 01 组件说明 宫格导航组件可以在导航配置里设置菜单,可以手动添加,也可以变量绑定 因为我们一般的分类是动态变化的,品类会不断的调整&#…

软件工程专业常去的网站有以下10个

1.CSDN开源社区 CSDN设计计算机很多领域,网络安全,软件,硬件等等。 2.Github-开源代码托管平台 面向开源及私有软件项目的托管平台。 因为经常登陆不进去的原因,我很少访问。 3.菜鸟教程 是一个入门学生学习的网站。我经常在…

【Python学习笔记】28.Python3 错误和异常

前言 作为 Python 初学者,在刚学习 Python 编程时,经常会看到一些报错信息,在前面我们没有提及,这章节我们会专门介绍。 Python3 错误和异常 Python 有两种错误很容易辨认:语法错误和异常。 Python assert&#xf…

信息系统安全技术

一、信息安全的有关概念 1. 属性2. 四个安全层次※3. 信息安全保护等级※4. 安全保护能力的等级※ 二、信息加密、解密与常用算法 1. 对称加密2. 非对称加密3. Hash函数4. 数字签名5. 认证 三、信息系统安全 1. 计算机设备安全2. 网络安全3. 操作系统安全4. 数据库安全5. 应用系…

JSP四大域对象

四种属性范围在JSP中提供了四种属性的保存范围,所谓的属性保存范围,指的就是一个设置的对象,可以再多少个页面中保存并可以继续使用。1. page范围pagecontext:只在一个页面中保存属性,跳转之后无效2.request范围request :只在一次…

ChatGPT留给知乎、小红书的时间不多了

大家好啊,今天我打算给大家整点好活!挑战一下用ChatGPT打入各平台内部。 知乎挑战! 首先了解一下“知乎体” 知乎体是以专业知识为基础,以清晰的条理对问题进行阐述,并解决该问题的文体格式。对于不能明确给出答案的…

【Docker 03】docker的数据共享法宝-数据卷技术

一、数据卷基础介绍 1.数据卷 docker和宿主机进行数据的共享,使用的技术叫做数据卷技术。 场景:如果容器使用msyql 创建了数据库。默认数据库数据存户在容器中的。但是容器随时可能被移动或者删除,数据就随之消失,这是非常不合理的。 或者其他应用场景,我们希望通过配置宿…