Entries Tagged as ''

Flash vs. HTML5

Wie früher schon berichtet, stellt die proprietäre Natur von Adobe Flash nicht nur Nutzer (eines IPads z. B.) sondern auch Entwickler vor das Problem, dass ohne eine Alternative zur Flash-Version einer Webseite schnell Frust entsteht. Beim Nutzer, weil er bestimmete Informationen nicht erhält; beim Entwickler durch die doppelte Arbeit und beim Besitzer der Webseite die eventuell entgangenen Gewinne. Dies ist der Grund, warum von der Verwendung von Flash meist und nicht zu Unrecht abgeraten wird.
Doch nun hat einer der Entwickler bei Adobe, John Nack, ein Tool vorgestellt, das neben der Funktion “als HTML5 exportieren” eine der wichtigsten Funktionen beim Zusammenschluß des Web 3.0 dienen kann.
[Update]
Es ist ein Test über die HTML5-Funktionalität der wichtigsten Browser erschienen.
[Update2]
Auch Microsoft hat sich laut einem Interview mit ZDNet zu einem Strategiewechsel weg von Silverlight hin zu HTML5 entschieden.

TwitterBlogger PostMister-WongDeliciousDiggFacebookShare

raCAPTCHA ausgehebelt / antirecaptcha

download scientific paper

Auf Basis der Nachforschungen von Chad Houck und Jonathan Wilkins ist ein PHP-Skript entstanden, das die Bilder von reCAPTCHA erkennt. Dies wurde in ein Modul für das Programm jDownloader eingebunden.  Die Erfolgsquote liegt inzwischen bei 17% (basierend auf einem Test mit über 5000 Captchas), trotzdem sollte die ‘reconnect’-Funktion weiterhin benutzt werden. Bei jDownloader wird nach einigen fehlgeschlagenen Versuchen der Download auf “Fatal Error” gesetzt. Da hilft bisher nur ein manuelles “enable/resume”.

Das Skript selbst baut auf PHP v5 auf, benutzt zur Qualitätssteigerung eine Vergrößerung mittels hq2x und übergibt das so entzerrte und verbesserte Bild an die freie OCR-Software tesseract-ocr. Der Kontrast wird nun selektiv für jedes Wort angepasst, und zwar auf ein Verhältnis von weißen zu schwarzen Pixeln von 1.5 zu 1. Anschließend werden teilweise Artefakte durch einen primitiven Shärfe-Algorithmus entfernt. Das Wörterbuch von tesseract-ocr für Englisch wurde um 300.000 Einträge erweitert – ein sehr großes Wörterbuch basierend auf der englischen Ausgabe der gesamten Wikipedia vom 16.09.2010 wird mit Version 0.3a integriert.

Leider ist das Programm bisher nur unter Windows lauffähig, sollte aber mit ein wenig Sachverstand auch unter Linux zum Laufen gebracht werden – sei es nun unter Wine oder durch Ersetzen von PHP, hq2x und tesseract durch die entsprechenden Linux Versionen.

Update
Der Benutzer ‘estirwes’ vom offiziellen JDownloder-Forum hat eine Anleitung erstellt, um arc0.2f unter Linux zum Laufen zu bringen. Ich habe diese Methode noch nicht testen können, werde diese aber nach aller Voraussicht nach in das nächste Update mit einbauen.
/Update

Um das Modul zu jDownloader hinzuzufügen, muss das Archiv in den Ordner “*JDownloader-Installationsordner*” extrahiert werden. Zum Entpacken bieten sich 7-Zip oder WinRAR an.

Die Programmierer von jDownloader entwickeln gerade eine rein Java basierte Version. Sobald diese stabil läuft und eine gute Erkennungsrate bietet, wird dieses Projekt hier eingestellt.

Alle Programme, die hier verwendet wurden, sind unter copyrightfreien Lizenzen veröffentlicht worden, dies gilt auch für das Modul selbst.

Visual C Runtime 2008 wird benötigt!
Download v0.2f Mirror1

Download v0.2f Mirror2

Download v0.2f Mirror3

Download v0.2f Mirror4

Download v0.2f Mirror5


# anti-recaptcha v0.2f (c)opyleft 2010 http://wegeneredv.de/arc **************
# ****************************************************************************
# future fixes and changes:
# – gaining greater recognization rates by using wikipedia as wordlist
# – see included paper ‘antirecaptcha.pdf’ for further information or
# download it from http://wegeneredv.de/antirecaptcha.pdf
# – clean up source / replace repeating code by functions
# – convert to c++ using http://github.com/facebook/hiphop-php
#
# ****************************************************************************
# Installation:
# copy directly to your jDownloader installation directory (e.g.
# c:\program files\jDowloader and extract.
# -runs only on Windows systems-
#
# ****************************************************************************
# Changelog:
#
# v0.2f
# – seperated both words by 100px
# – cleaned up directories – thx for the help @marc
# (http://board.gulli.com/member/974202-marcelser/)
# – fixed empty outputs from tesseract, so no captcha popups anymore
# – updates from jDownloader should work again, no need to block them
#
# v0.2e
# – fixed some tesseract issues
#
# v0.2d
# – support for one-click hoster maintained, hotfile and others now work. you
# have to ignore the updates of jDownloader, because i had to made changes
# to the file ‘outdated.dat’. if this file is changed, jD tries to download
# an untampered version.
#
# v0.2c
# – applied selective contrast to both words
# – improved success rate to 17% by adding a bigger wordlist to tesseract
# – some hoster aren’t supported any longer due to plugin errors caused by jD
#
# v0.2b
# – removed intersection cleaning due to ineffectivity
# – added experimental sharpening
# – changed from VietOCR to tesseract
#
# v0.2a
# – pushed recognization rate to ca. 10%
# – multiple iterations to ocr (‘best match’)
# – partially cleaned intersections between letters
# – cleaned up sourcecode
# – added support for the following one-click-hoster:
# combozip.com,cramit.in,crazyupload.com,drop.io,enterupload.com,extabit.com,
# filebling.com,filechip.com,filescloud.com,fileserve.com,filesmonster.com,
# filesonic.com,filestab.com,filestrack.com,filevo.com,freakshare.net,
# free-share.ru,hatlimit.com,hidemyass.com,hostingcup.com,maknyos.com,
# mediafire.com,putshare.com,quickupload.com,slingfile.com,tgf-services.com
# uploadfloor.com
#
# v0.1b
# – changed the directory structure
#
# v0.1
# – first version tested
#
# known bugs:
# – none ;)

TwitterBlogger PostMister-WongDeliciousDiggFacebookShare