stefano passiglia
If my doctor told me I had only six minutes to live, I wouldn't brood. I'd type a little faster.
Isaac Asimov
    (Looking for my swimming (b)log?)

 
captcha e libri - Tuesday, April 08, 2008   

Oggi un post un pò techie.

Mi stavo chiedendo il perché di tanto spam sulla mia casella di posta personale GMail. Eppure, non uso qull'indirizzo per nessun altro motivo, solo per comunicazioni personali. Trovo per coincidenza un post su Slashdot che ne spiega la ragione: il sistema di Captcha che usa Google è stato bucato.

Il captcha, a chi sfuggisse il termine, sono quelle paroline scritte strane che spesso trovate quando vi dovete registrare presso un sito. Quelle paroline scritte male dovrebbero essere un modo per prevenire la registrazione automatica da parte di hacker, perché in teoria interpretabili solo da un essere umano che sappia leggere. A quanto pare, non è così. In questo articolo trovate una dettagliata spiegazione della sofisticata tecnica usata per bucare Gmail.

Ora, incuriosito da questi captcha, mi sono imbattuto in un progetto della Carnegie Mellon University dal nome reCATPCHA, dal sottotitolo interessante Stop Spam, Read Books. Che cosa c'entrano i captcha con i libri?

La connesione c'è, ed è geniale, ed ha a che fare con la digitalizzazione delle biblioteche. Digitalizzare i libri è un operazione maestosa, soprattutto per l'attuale (povera) qualità dei software di riconoscimento parole (gli OCR). Avete mai provato a far riconoscere il testo di un fax? Escono fuori cose davvero divertenti.

reCAPTCHA quindi utilizza come captcha proprio quelle parole che gli OCR non hanno saputo interpretare. Così, l'utilizzo di quelle parole ha un duplice vantaggio: proteggere un sito ed aiutare a digitalizzare un libro.

Se siete interessati ai testi digitalizzati date una occhiata qui. Altrimenti, continuate con il classico libro sul comodino :-)



 
Powered by Blogger