Abril 21, 2018, 05:46:14 am

Autor Tema: Crawler generador de diccionarios  (Leído 1152 veces)

0 Usuarios y 1 Visitante están viendo este tema.

Desconectado seth

  • El mas real
  • G#
  • **
  • Mensajes: 7923
  • Sexo: Masculino
    • Ver Perfil
Crawler generador de diccionarios
« en: Mayo 22, 2015, 04:14:16 am »
Resulta que You are not allowed to view links. Register or Login crashea cuando hay un error en la conexion, asi que hice esto. Crawlea una pagina con la recursividad que le pongas y guarda las palabras unicas en un txt para usarlas con cualquier programa de fuerza bruta

habria que hacer que no siga links a archivos binarios y que corte la descarga despues de cierta cantidad de bytes pero asi anda
los diccionarios salen llenos de mugre, hay que limpiarlos. Por ejemplo, este es un pedacito del diccionario que genera con cph:
Código: You are not allowed to view links. Register or Login
¿Perdiste
tu
email
de
activación?
Inicio
Ayuda
Ingresar
Registrarse
Sitemap
Mayo
21,
2015,
04:06:54
las lineas que no tienen letras no deberian estar
tampoco las que tienen menos de 6 caracteres
las que terminan con simbolos como ? , . ) deberian estar sin esos simbolos
lo mismo para las que empiezan con ¿ y (
todo eso se puede hacer despues con grep y sed, personalizado para cada diccionario, asi que no lo meto en el programa

me llevó un par de horas, asi que puede explotar facil
Código: You are not allowed to view links. Register or Login
from bs4 import BeautifulSoup
import requests
import sys
import urlparse
import codecs
import argparse

if len(sys.argv) < 4:
    print 'dicgen.py <url> <depth> <file> [retries=3]'
    sys.exit(1)

sys.argv[2] = int(sys.argv[2])
if sys.argv[2] < 1:
    print 'depth must be >0'
    sys.exit(1)

if len(sys.argv) >= 5:
    max_retries = int(sys.argv[4])
else:
    max_retries = 3
retries = max_retries

file = codecs.open(sys.argv[3], 'w', encoding="utf-8")

url_list = []
for i in xrange(sys.argv[2]):
    url_list.append([])
url_list[0].append(sys.argv[1])

host = urlparse.urlparse(sys.argv[1])[1]
words = []

for depth in xrange(sys.argv[2]):
    for url in url_list[depth]:
        print depth, url
        try:
            r = requests.get(url, allow_redirects=False)
        except (requests.exceptions.ConnectionError, requests.exceptions.Timeout):
            if retries > 0:
                print "Error, retrying... (" + str(retries) + ")"
                url_list[depth].append(url)
                retries = retries - 1
            else:
                print "Error, giving up"
                file.close()
                sys.exit(2)
        else:
            retries = max_retries
            soup = BeautifulSoup(r.text, 'html.parser')
            #remove javascript and css
            for script in soup(["script", "style"]):
                script.extract()    # rip it out
            #write the words to the file
            for word in soup.get_text().split():
                if word not in words:
                    words.append(word)
                    file.write(word + "\n")
            #add new links to que queue
            for link in soup.find_all('a'):
                link = urlparse.urldefrag(urlparse.urljoin(url, link.get('href')))[0]
                if depth+1 < sys.argv[2]:
                    if not any(link in x for x in url_list):
                        if urlparse.urlparse(link)[1] == host:
                           url_list[depth+1].append(link)

file.close()


Ves links a xd-blog.com.ar que no andan? buscalos en You are not allowed to view links. Register or Login


exclamation
[C] Generador de Diccionarios

Iniciado por mr.blood

6 Respuestas
2290 Vistas
Último mensaje Enero 31, 2011, 12:10:52 am
por JaAViEr
exclamation
[C] Generador de diccionarios(Comando)

Iniciado por mr.blood

1 Respuestas
2818 Vistas
Último mensaje Febrero 21, 2011, 04:43:30 pm
por taul
resuelto
Generador de diccionarios númericos. WPA-WPA2. By Mekishiko

Iniciado por edy2310

2 Respuestas
2786 Vistas
Último mensaje Junio 18, 2014, 09:27:12 pm
por KJAN1996
question
Diccionarios wpa??

Iniciado por MaT_TaG

10 Respuestas
4271 Vistas
Último mensaje Marzo 02, 2011, 03:07:43 pm
por .xAk.
xx
Diccionarios

Iniciado por [H]Telesforo[H]

2 Respuestas
1440 Vistas
Último mensaje Febrero 06, 2010, 04:55:53 am
por cibergolen
xx
Diccionarios

Iniciado por seth

7 Respuestas
1856 Vistas
Último mensaje Junio 02, 2011, 11:46:17 pm
por seth
xx
diccionarios

Iniciado por payaso91

2 Respuestas
2559 Vistas
Último mensaje ſeptiembre 28, 2010, 12:02:25 am
por Aetsu
xx
diccionarios de password

Iniciado por Pbxfulll

1 Respuestas
1207 Vistas
Último mensaje Junio 29, 2008, 08:04:18 pm
por seth
xx
¿Qué son los Diccionarios en la WifiWay 2.0?

Iniciado por Kranqul

12 Respuestas
3330 Vistas
Último mensaje Junio 07, 2011, 05:44:10 am
por Aetsu
xx
Diccionarios de palabras!!

Iniciado por HolyKnight

2 Respuestas
1726 Vistas
Último mensaje Enero 24, 2007, 11:45:41 pm
por HolyKnight