본문 바로가기

Book/eBook

캡챠코드에 담긴 집단지성

스팸도 막고, 좋은일도 하고…캡챠코드에 담긴 집단지성

[IT전문 미디어 블로그=딜라이트닷넷]

스팸 게시물이나 봇으로 의심되는 접근을 거부하기 위해 가입시 튜링 테스트(Turing test)를 하는 사이트에 가입해 본 기억이 있을 것이다.

튜링 테스트는 기계가 인간과 얼마나 비슷하게 대화할 수 있는지를 기준으로, 기계에 지능이 있는지를 판별하고자 하는 테스트다.

영국의 수학자 앨런 튜링이 1950년에 발표했다.

앨런 튜링이 발표한 튜링 테스트는 웹으로 넘어오면서 한 차원 진화됐고,‘캡챠(Completely Automated Public Turing test to tell Computers and Humans Apart, Captcha)’라는 이름으로 널리 활용되고 있다.

인터넷을 이용하다보면 보안을 위해 이미지로 이뤄진 '문자열'을 입력하라는 메시지를 보게되는 데 바로 그것이다.

(한편 앨런 튜링은 애플사의 CI ‘베어문 사과’의 주인공이기도 하다)

앞서 설명했던 튜링 테스트가 바로 캡챠코드에 해당된다.

이번 포스팅에서는 캡챠코드 입력을 활용한 새로운 형태의 사회환원 시스템으로 리캡챠(reCaptcha) 프로젝트를 이야기해보려고 한다.

리캡챠의 개념은 과테말라 출신으로 미국 카네기 멜론대학의 교수로 재직중인 루이스 폰 안 박사<좌측 사진>로부터 나왔다.

루이스 폰 안(Luis Von Ahn) 박사는 사람들이 온라인상에서 입력한 값들을 모아서 종이책을 디지털화하는데 사용될 수 있도록 캡챠의 목적을 재설정 한 사람이다.

이전까지 캡챠는 단순히 스팸 봇을 막기위한 수단으로만 사용됐다

루이스 폰 안 박사는 지난해 4월 미국 카네기멜론 대학에서 열린 TED 포럼에서 “매일 2억개의 캡챠가 입력되고 있으며 사람들이 캡챠를 입력할때마다 10초가 걸린다. 이걸 전체로 계산해보니 매일 50만의 시간을 낭비하고 있다는 결론이 나왔다”며 “그렇다고 (보안상의 위협을 감수하며) 캡챠를 버릴 수는 없었는데, 사람만 할 수 있고 컴퓨터는 못하는 ‘무엇’을 발견했다”고 설명했다.


루이스 폰 안 박사가 발견한 ‘무엇’이 리캡챠 프로젝트를 만들게 된 배경이 됐다.

◆리캡챠 프로젝트는 어떻게 나오게 됐을까

우선 리캡챠 프로젝트를 이해하기 위해서는 종이책(혹은 고서(古書))을 전자책으로 변환하는 과정에 대한 이해가 필요하다.

도서관에 있는 출간된지 오래된 책들은 텍스트 파일이 남아있지 않거나 애초에 텍스트로 존재하지 않기도 한다. 순수한 종이책이라는 것이다.

이를 텍스트 파일로 변환하기 위해서는 스캐너를 통해 종이책의 이미지를 읽어오고 읽어온 이미지를 광학 문자 인식(OCR) 솔루션을 사용해 변환해야한다. 아래 이미지 처럼 말이다.


여기서 문제는 아직까지 OCR의 품질이 그렇게 우수하지 않다는 것이며, 다음 무제로는 책이 낡았거나 오물로 인해 문자가 제대로 이미지로 변환되지 않았을 경우가 흔하다는 것이다.

실제 출판된지 50년이 넘은 책의 30%가 정상적으로 입력되지 않는다고 한다.

여기서 30%는  결국 사람이 일일이 수작업을 진행해야하는데 수천, 수만권의 책을 일일이 사람이 입력할 수는 없는 일이다.

여기서 리캡챠 프로젝트가 나오게 됐다.

OCR이 인지하지 못한 문자열을 인터넷을 사용하는 사람의 눈과 손으로 직접 입력하도록 하는 셈이다.

루이스 폰 안 박사는 “캡챠코드를 입력하기 위해 사람들이 쓰는 10초를 종이책을 전자책으로 변환시키는 것에 활용시키도록 한 것이 리캡챠 프로젝트”라며 “사람들이 인증을 받기 위해 입력하는 캡챠코드를 디지털화하는 것이 활용하고 있다”고 설명했다.

캡챠코드를 입력하는 사용자들은 자신도 모르는사이 종이책의 디지털화를 돕고 있는 셈이다.

◆리캡챠, 어떻게 동작하나

리캡챠 프로젝트는 두 개의 이미지가 뜬다. 왼쪽에는 문서를 디지털화 하는 과정에서 컴퓨터가 제대로 인식하지 못한 부분이고, 오른쪽에는 컴퓨터가 인식한 문자다.

인증을 받기 위해서는 두 개의 이미지 단어를 모두 입력해야하는데, 오른쪽의 이미지는 스팸을 걸러내는 역할을, 왼쪽의 이미지는 집단지성으로 활용된다.

왼쪽의 이미지를 보고 10명이 모두 ‘following’이라고 답했다면, 앞으로 그 이미지의 캐릭터는  ‘following’으로 확정되게 된다.

리캡챠 프로젝트는 2009년 구글에 인수됐는데 구글은 리캡챠 프로젝트를 자사 제품인 ‘구글 북스’ 프로젝트에 활용하고 있다.

구글 이외에도 리캡챠 프로젝트는 페이스북, 아마존, 트위터, 텀블러, 4chan, CNN, 뉴욕타임즈 등에서 활용하고 있다.

보안을 위해 활용되기 시작한 캡챠코드가 집단지성으로 승화돼 아날로그의 디지털화를 촉진시키고 있는 셈이다.

[이민형 기자 블로그=인터넷 일상다반사]  
 
2012년 02월 03일 14:34:31 / 이민형 기자 kiku@ddaily.co.kr
http://www.ddaily.co.kr/news/news_view.php?uid=87302
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지