Enero 20, 2018, 09:27:43 pm

Autor Tema: Crawler generador de diccionarios  (Leído 1016 veces)

0 Usuarios y 1 Visitante están viendo este tema.

Desconectado seth

  • El mas real
  • G#
  • **
  • Mensajes: 7889
  • Sexo: Masculino
    • Ver Perfil
Crawler generador de diccionarios
« en: Mayo 22, 2015, 04:14:16 am »
Resulta que You are not allowed to view links. Register or Login crashea cuando hay un error en la conexion, asi que hice esto. Crawlea una pagina con la recursividad que le pongas y guarda las palabras unicas en un txt para usarlas con cualquier programa de fuerza bruta

habria que hacer que no siga links a archivos binarios y que corte la descarga despues de cierta cantidad de bytes pero asi anda
los diccionarios salen llenos de mugre, hay que limpiarlos. Por ejemplo, este es un pedacito del diccionario que genera con cph:
Código: You are not allowed to view links. Register or Login
¿Perdiste
tu
email
de
activación?
Inicio
Ayuda
Ingresar
Registrarse
Sitemap
Mayo
21,
2015,
04:06:54
las lineas que no tienen letras no deberian estar
tampoco las que tienen menos de 6 caracteres
las que terminan con simbolos como ? , . ) deberian estar sin esos simbolos
lo mismo para las que empiezan con ¿ y (
todo eso se puede hacer despues con grep y sed, personalizado para cada diccionario, asi que no lo meto en el programa

me llevó un par de horas, asi que puede explotar facil
Código: You are not allowed to view links. Register or Login
from bs4 import BeautifulSoup
import requests
import sys
import urlparse
import codecs
import argparse

if len(sys.argv) < 4:
    print 'dicgen.py <url> <depth> <file> [retries=3]'
    sys.exit(1)

sys.argv[2] = int(sys.argv[2])
if sys.argv[2] < 1:
    print 'depth must be >0'
    sys.exit(1)

if len(sys.argv) >= 5:
    max_retries = int(sys.argv[4])
else:
    max_retries = 3
retries = max_retries

file = codecs.open(sys.argv[3], 'w', encoding="utf-8")

url_list = []
for i in xrange(sys.argv[2]):
    url_list.append([])
url_list[0].append(sys.argv[1])

host = urlparse.urlparse(sys.argv[1])[1]
words = []

for depth in xrange(sys.argv[2]):
    for url in url_list[depth]:
        print depth, url
        try:
            r = requests.get(url, allow_redirects=False)
        except (requests.exceptions.ConnectionError, requests.exceptions.Timeout):
            if retries > 0:
                print "Error, retrying... (" + str(retries) + ")"
                url_list[depth].append(url)
                retries = retries - 1
            else:
                print "Error, giving up"
                file.close()
                sys.exit(2)
        else:
            retries = max_retries
            soup = BeautifulSoup(r.text, 'html.parser')
            #remove javascript and css
            for script in soup(["script", "style"]):
                script.extract()    # rip it out
            #write the words to the file
            for word in soup.get_text().split():
                if word not in words:
                    words.append(word)
                    file.write(word + "\n")
            #add new links to que queue
            for link in soup.find_all('a'):
                link = urlparse.urldefrag(urlparse.urljoin(url, link.get('href')))[0]
                if depth+1 < sys.argv[2]:
                    if not any(link in x for x in url_list):
                        if urlparse.urlparse(link)[1] == host:
                           url_list[depth+1].append(link)

file.close()


Ves links a xd-blog.com.ar que no andan? buscalos en You are not allowed to view links. Register or Login


exclamation
[C] Generador de Diccionarios

Iniciado por mr.blood

6 Respuestas
2242 Vistas
Último mensaje Enero 31, 2011, 12:10:52 am
por JaAViEr
exclamation
[C] Generador de diccionarios(Comando)

Iniciado por mr.blood

1 Respuestas
2768 Vistas
Último mensaje Febrero 21, 2011, 04:43:30 pm
por taul
resuelto
Generador de diccionarios númericos. WPA-WPA2. By Mekishiko

Iniciado por edy2310

2 Respuestas
2743 Vistas
Último mensaje Junio 18, 2014, 09:27:12 pm
por KJAN1996
xx
Diccionarios

Iniciado por seth

7 Respuestas
1819 Vistas
Último mensaje Junio 02, 2011, 11:46:17 pm
por seth
xx
diccionarios

Iniciado por payaso91

2 Respuestas
2534 Vistas
Último mensaje ſeptiembre 28, 2010, 12:02:25 am
por Aetsu
question
Diccionarios wpa??

Iniciado por MaT_TaG

10 Respuestas
4197 Vistas
Último mensaje Marzo 02, 2011, 03:07:43 pm
por .xAk.
xx
Diccionarios

Iniciado por [H]Telesforo[H]

2 Respuestas
1410 Vistas
Último mensaje Febrero 06, 2010, 04:55:53 am
por cibergolen
xx
Diccionarios de Passwords

Iniciado por Pbxfulll

0 Respuestas
1309 Vistas
Último mensaje Junio 28, 2008, 02:47:24 pm
por Pbxfulll
xx
diccionarios de password

Iniciado por Pbxfulll

1 Respuestas
1180 Vistas
Último mensaje Junio 29, 2008, 08:04:18 pm
por seth
xx
¿Qué son los Diccionarios en la WifiWay 2.0?

Iniciado por Kranqul

12 Respuestas
3268 Vistas
Último mensaje Junio 07, 2011, 05:44:10 am
por Aetsu