download scientific paper
Auf Basis der Nachforschungen von Chad Houck und Jonathan Wilkins ist ein PHP-Skript entstanden, das die Bilder von reCAPTCHA erkennt. Dies wurde in ein Modul für das Programm jDownloader eingebunden. Die Erfolgsquote liegt inzwischen bei 17% (basierend auf einem Test mit über 5000 Captchas), trotzdem sollte die ‘reconnect’-Funktion weiterhin benutzt werden. Bei jDownloader wird nach einigen fehlgeschlagenen Versuchen der Download auf “Fatal Error” gesetzt. Da hilft bisher nur ein manuelles “enable/resume”.
Das Skript selbst baut auf PHP v5 auf, benutzt zur Qualitätssteigerung eine Vergrößerung mittels hq2x und übergibt das so entzerrte und verbesserte Bild an die freie OCR-Software tesseract-ocr. Der Kontrast wird nun selektiv für jedes Wort angepasst, und zwar auf ein Verhältnis von weißen zu schwarzen Pixeln von 1.5 zu 1. Anschließend werden teilweise Artefakte durch einen primitiven Shärfe-Algorithmus entfernt. Das Wörterbuch von tesseract-ocr für Englisch wurde um 300.000 Einträge erweitert – ein sehr großes Wörterbuch basierend auf der englischen Ausgabe der gesamten Wikipedia vom 16.09.2010 wird mit Version 0.3a integriert.
Leider ist das Programm bisher nur unter Windows lauffähig, sollte aber mit ein wenig Sachverstand auch unter Linux zum Laufen gebracht werden – sei es nun unter Wine oder durch Ersetzen von PHP, hq2x und tesseract durch die entsprechenden Linux Versionen.
Update
Der Benutzer ‘estirwes’ vom offiziellen JDownloder-Forum hat eine Anleitung erstellt, um arc0.2f unter Linux zum Laufen zu bringen. Ich habe diese Methode noch nicht testen können, werde diese aber nach aller Voraussicht nach in das nächste Update mit einbauen.
/Update
Um das Modul zu jDownloader hinzuzufügen, muss das Archiv in den Ordner “*JDownloader-Installationsordner*” extrahiert werden. Zum Entpacken bieten sich 7-Zip oder WinRAR an.
Die Programmierer von jDownloader entwickeln gerade eine rein Java basierte Version. Sobald diese stabil läuft und eine gute Erkennungsrate bietet, wird dieses Projekt hier eingestellt.
Alle Programme, die hier verwendet wurden, sind unter copyrightfreien Lizenzen veröffentlicht worden, dies gilt auch für das Modul selbst.
Visual C Runtime 2008 wird benötigt!
Download v0.2f Mirror1
Download v0.2f Mirror2
Download v0.2f Mirror3
Download v0.2f Mirror4
Download v0.2f Mirror5
# anti-recaptcha v0.2f (c)opyleft 2010 http://wegeneredv.de/arc **************
# ****************************************************************************
# future fixes and changes:
# – gaining greater recognization rates by using wikipedia as wordlist
# – see included paper ‘antirecaptcha.pdf’ for further information or
# download it from http://wegeneredv.de/antirecaptcha.pdf
# – clean up source / replace repeating code by functions
# – convert to c++ using http://github.com/facebook/hiphop-php
#
# ****************************************************************************
# Installation:
# copy directly to your jDownloader installation directory (e.g.
# c:\program files\jDowloader and extract.
# -runs only on Windows systems-
#
# ****************************************************************************
# Changelog:
#
# v0.2f
# – seperated both words by 100px
# – cleaned up directories – thx for the help @marc
# (http://board.gulli.com/member/974202-marcelser/)
# – fixed empty outputs from tesseract, so no captcha popups anymore
# – updates from jDownloader should work again, no need to block them
#
# v0.2e
# – fixed some tesseract issues
#
# v0.2d
# – support for one-click hoster maintained, hotfile and others now work. you
# have to ignore the updates of jDownloader, because i had to made changes
# to the file ‘outdated.dat’. if this file is changed, jD tries to download
# an untampered version.
#
# v0.2c
# – applied selective contrast to both words
# – improved success rate to 17% by adding a bigger wordlist to tesseract
# – some hoster aren’t supported any longer due to plugin errors caused by jD
#
# v0.2b
# – removed intersection cleaning due to ineffectivity
# – added experimental sharpening
# – changed from VietOCR to tesseract
#
# v0.2a
# – pushed recognization rate to ca. 10%
# – multiple iterations to ocr (‘best match’)
# – partially cleaned intersections between letters
# – cleaned up sourcecode
# – added support for the following one-click-hoster:
# combozip.com,cramit.in,crazyupload.com,drop.io,enterupload.com,extabit.com,
# filebling.com,filechip.com,filescloud.com,fileserve.com,filesmonster.com,
# filesonic.com,filestab.com,filestrack.com,filevo.com,freakshare.net,
# free-share.ru,hatlimit.com,hidemyass.com,hostingcup.com,maknyos.com,
# mediafire.com,putshare.com,quickupload.com,slingfile.com,tgf-services.com
# uploadfloor.com
#
# v0.1b
# – changed the directory structure
#
# v0.1
# – first version tested
#
# known bugs:
# – none
Tags: Allgemein by Benjamin Wegener
47 Comments »