분당아재의 솔직한 블로그

구글에서 개최한 이벤트에 당첨되다. 행운의 로또메일!!!

IT산책

구글에서 13주년 기념 이벤트에 당첨되었다는 메일을 받았다.

와우~~ 이게 무슨 조화냐!! 

살다보니 이런 행운이 올때도 있구나.

[구글의 행운메일]


메일의 내용은 보시면 알겠지만,

구글 CEO인 에릭슈미트가 보냈고 

구글의 13주년을 맞이해서 전세계에서 몇명을 뽑아 엄청난 행운을 준다는 내용입니다. 

구글사용자 특히, 애드센스를 운영하는 사람으로써 

처음에는 이런 행운이 있나? 싶을 정도로 헷갈리게 하는 내용입니다. 


하지만, 그런 행운이 나에게 올 리도 없지만,

이 메일이 gmail이 아닌 daum 메일로 왔으니 바로 사기 메일이라는 걸 알 수 있었습니다. 

그래도 몇 초간은 잠시 흔들렸어요. ㅎㅎ


어떻게 사기를 치나 궁금해서 답장을 보냈습니다.

메일에서 요청한 건 이름/전화번호/여권 이름과 ID 등 갖가지 개인정보를 모두 요구했는데

모르는 척하고 이름과 한국에서 산다는 내용만 보냈습니다.


하루 뒤에 바로 답장이 날라오네요.


이번에는 구글 CEO 사진까지 넣어가며

여권이나 신분증을 첨부하고 전화번호를 달라고 합니다. 

이거 갖고 글로벌로 뭔가 사기를 치겠죠? ㅋ

카드를 만들어서 쓸 수도 있겠구요.


살다보니 별 희한한 일을 다 경험하네요.

구글에서 위와 같은 메일을 받으신 분들,

저처럼 흥분하지 마시고 그냥 Delete 키를 바로 누르세요. ^^



검색엔진 이야기(1) - 검색은 구글, 네이버, Bing만 있는 것이 아니다.

IT산책

제목이 좀 거창한 것일지 모르겠지만 제가 알고 있는 검색엔진 이야기를 좀 해볼까 합니다.
일반적으로 우리는 "검색"이라는 단어를 떠 올릴 때 검색 = 구글, 검색 = 네이버를 생각합니다.

"검색하다 = 구글하다"라는 말이 이상하지 않을 정도로 구글은 검색의 대명사가 되었습니다.
하지만 냉정히 말하면 구글은 웹검색엔진입니다.
즉, 인터넷 상에 존재하는 수많은 공개된 웹사이트의 내용을 검색하는 엔진일 뿐 그 이상도 그 이하도 아닙니다.
네이버 또한, 검색에서 출발하였지만 지금은 검색이라기 보다는 데이터를 유통하는 포탈일 뿐입니다.

그럼 검색이 필요한 곳은 또 어디에 있을까요?
예를 들어, 내가 사는 동네의 동사무소, 구청, 시청의 홈페이지를 생각해 봅시다.
몇년 전부터 시청이나 구청의 홈페이지들도 앞다튀어 리뉴얼을 하고, 각종 게시판 및 컨텐츠를 보강하면서 데이터양이 급속도로 증가하게 되었습니다.

시민들이 시청 홈페이지의 특정 게시판에서 과거 게시물을 검색하고 싶을 때, 이때도 검색이 필요합니다.
이런 경우, 구글이나 네이버가 이 일을 해 줄까요? 그렇지 않습니다. (물론, 약간씩 검색이 되는 경우도 있습니다.)

시청이나 구청이 아닌 행정안전부, 노동부 등 민원이 자주 발생하는 곳의 게시판에서 검색을 하는 경우라면,
이 경우에 구글, 네이버를 이용할 수 있을까요? 역시 그렇지 않습니다.

다른 예를 들어보겠습니다.
일반적으로 회사나 공공기관은 전자결재, 지식관리시스템, 문서관리시스템 등을 도입하여 사용하고 있습니다.
이 역시 도입된지 몇년씩 되었기 때문에 회사, 공공기관 내부에 축척된 데이터는 굉장히 큽니다.

업무상 과거 자료를 검색해야 하는 경우, 어떻게 할 수 있을까요?
우리가 알고 있는 구글, 네이버, 야후, MS의 최신작 Bing 등등 익히 알려져 있는 검색엔진들은 이러한 데이터 들을 검색해서 사용자에게 제공하지 못합니다.

이런 경우에는 기업용 검색엔진 솔루션을 도입하여 해당 기관, 회사내에 존재하는 데이터만 검색하도록 시스템을 별도로 구축해야 합니다.

이런 일들을 전문적으로 하는 회사들이 우리나라에 있습니다.

가장 대표적인 회사가 와이즈넛(http://www.wisenut.com)입니다.
우리나라에서 검색을 가장 잘 하는 회사입니다.

그 외, 코난, 다이퀘스트, 오픈베이스 등의 회사들이 이런 일을 합니다.
아마도 자주 들어본 이름은 아닐 것으로 생각됩니다.

이들 회사들은 기업이나 공공기관에 각종 데이터베이스(오라클, MS-SQL, Sybase, Informix, MySQL 등)에 저장된
각종 정보를 수집하고 색인해서 검색할 수 있도록 구성합니다. (이 부분에 대해서는 별도로 포스트를 올리겠습니다.)

우리들이 구글이나 포탈을 이용하지 않고도
일반 인터넷 사이트에서 편하게 검색해서 정보를 찾는 경우는 이런 업체들이 해당 웹사이트에 검색솔루션을 구축한 경우입니다.

오늘은 여기까지 입니다.
검색관련되어 관련 포스트를 계속 올려보겠습니다.

관련 포스트 :구글의 수집로봇과 같은 웹로봇의 동작 원리

검색엔진 이야기(2) - 데스크탑 검색


MS의 검색엔진 Bing, 아직은 갈 길이 먼 것 같다.

IT산책


MS가 Google의 대항마로 야심차게 준비한 검색서비스 Bing!!
오픈을 하고 나서 아직은 그 검색품질에 대해서 지켜보고 있는 중이지만 개인적인 판단으로는 검색결과가 영 아닌 것 같습니다.

한창 이슈가 되는 시사용어들을 입력하면 검색결과에 많은 신경을 썼을 것이기 때문에 큰 차이가 날 것 같지 않아서 제 닉네임으로 검색을 해 보았습니다.

Google과 Bing에 각각 '쏠로울프"를 입력한 결과 입니다.

먼저 구글입니다.


제가 블로그에 쓴 포스트는 물론이고 다음 View에 송고한 포스트, 심지어 테크노라티의 글까지 다양하게 검색됩니다.
검색결과의 제목도 본문과 정확하게 매칭되어 나옵니다. 역시 구글입니다.


다음은 Bing입니다.
우선 첫 눈에 봐도 알 수 있듯이 검색결과 제목이 영 아닙니다.
포스트의 제목을 그대로 가져와야 하는데 그렇지 않은 경우가 많습니다.
또한 랭킹도 구글에 비해서 많은 차이를 보입니다.
중요한 것은 실제 검색결과를 클릭해도 해당 페이지가 아닌 엉뚱한 페이지가 열리는 경우가 있다는 것입니다.

MS가 Bing을 광고하기 위해 많은 돈을 쓴다고 들었는데 그 돈을 검색결과에 투자하는 것이 더 나을 듯 보입니다.
이상 개인적인 시각에서 두 검색엔진을 비교해 보았습니다.

구글 추천 종료 메일과 동시에 날아가버린 8달러

IT산책
오늘 오전에 아래와 같이 메일을 구글로 부터 받았다.

안녕하십니까

애드센스 제품 추천에 대한 몇 가지 중요한 정보를 알려 드립니다. Google 웹게시자의 수익 창출 기회를 극대화하기 위한 지속적인 노력의 일환으로 Google은 수익을 향상시킬 수 있는 새로운 기능을 끊임없이 모색하고 있을 뿐만 아니라 웹게시자가 이미 사용하고 계신 제품을 계속해서 개선해 나가고 있습니다. 방문자에게 애드센스에 가입하도록 유도하는 추천 단위가 바로 여기에 해당됩니다. 지난 1년간 이 프로그램에 대한 실험을 통해 귀하가 계신 지역 내 웹게시자에게는 이 프로그램보다 다른 제품에서 더 높은 수익을 제공할 수 있다는 것을 발견했습니다. 따라서 애드센스 프로그램에 대한 추천 단위는 몇 주 내로 종료될 것입니다. 그러나 다른 제품과 서비스에 대한 추천은 계속되며 아무 영향도 없습니다.

현재 귀하의 사이트에 애드센스에 가입하라고 사용자를 유도하는 추천 단위를 게재하고 있다면 아래에서 향후 몇 주간 일어날 변화에 대한 자세한 내용을 읽어 주시기 바랍니다.

애 드센스 제품으로 사용자를 유도하는 추천 단위를 추가하는 옵션은 1월초부터 귀하의 계정에 더 이상 나타나지 않을 것입니다. 하지만 프로그램이 완전히 종료되는 1월말까지는 모든 기존 추천에서 $100의 수입이 계속 발생됩니다. 기존 추천 단위도 페이지에 계속 게재될 것입니다.

1월말까지 애드센스로 사용자를 유도하는 모든 추천 단위를 귀하의 사이트에서 제거하셔야 합니다. 제거하지 않은 추천 단위는 페이지에 정상적으로 표시되지만 전환은 더 이상 기록되지 않습니다. 애드센스 추천을 다른 제품이나 서비스에 대한 추천 또는 다른 광고 단위로 바꿀 것을 권해 드립니다.

애드센스에 사용자를 추천해 주셔서 감사합니다. 불편을 끼쳐드려 죄송합니다.

감사합니다.

Google 애드센스 팀

즉, 추천을 통해서 더이상의 수입을 올릴 수 없다는 내용이다.
여러 블로그를 통해서 익히 내용을 알고 있어서 그런가 보다 생각하고 있었는데
이 메일을 받고 난 후 약 2시간 후에 애드센스 계정을 확인해 보니
허걱~~ 수입의 8달러가 사라져 어디론가 사라져 버렸다.

추천을 통해서 얻은 수입이 없어진 것이다. 이럴수가...
과거 것도 소급해서 없앤다는 내용은 아닌데 왜 갑자기 수입이 없어졌을까? 황당하기만 하다.

추천을 통해 애드센스가 가입한 사람이 이미 100달러를 돌파하여 추천 수입을 기대하고 있었는데
그것도 물건너 가는 것이 아닌가 의심스럽다. 이미 그 돈을 예상하고 질러버렸는데 ㅜ.ㅜ
요즘 구글이 하는 것들이 하나 둘씩 맘에 안들어가고 있다. 애드클릭스로 갈아타야 하나????

구글이 선물해 준 코드 두 벌

가족이야기
오래간만에 외투를 샀다.
그동안 겨울에 입고 다니던 롱코트, 반코트가 오래되어서 하나 구입하고 싶었는데 기회가 없었다.
물론 돈도 없었다. ^^;

구글에서 받은 수표를 꼬박꼬박 모아서 아내 가방을 하나 사줄려고 계획중이었는데 아내도 마땅한 외투가 없어서 삼성플라자로 쇼핑을 갔다. 아이들은 TV와 컴퓨터로 방치한 채... ㅡ.ㅡ

아이들이 없으니 그래도 쇼핑할만 했다. 연예할 때나 신혼초에는 피곤해서 쇼핑을 오래하지 못했는데 아이들 없이 쇼핑을 하니 하루종일 해도 안 피곤한 것 같다. ㅎㅎ

옷을 먼저 사려고 했더니 지하에 있는 주방용품 매장으로 간다. 프라이팬이 다 망가져서 좋은 놈으로 하나 사고 싶단다. 이것저것 고르다가 독일 수입품이라고 흠집이 잘 나기 않는다는 놈으로 두개 장만했다. 모양도 이쁘고 묵직한 것이 괜찮게 생겼다. 두개 합쳐서 5만원이다. 헉 ~~~
프라이팬 가격도 만만치 않다.

프라이팬을 산 후 옷을 보러 다녔다. 20만원짜리, 30만원짜리 코트를 이리저리 보더니 휙휙 지나간다. 아내에게 좋은 코트를 사라고 해도 도대체 말을 안 듣고 저렴한 옷을 고른다. 그래도 물건 잘 골랐다고 좋아라 한다. 이렇게 만든 것은 순전히 내 탓이다.. 올해는 돈을 팍팍 벌어서 아내에게도 좋은 옷, 물건을 많이 사줘야 겠다.

아내가 고른 코드이다. 사진을 잘 찍었어야 하는데 본래 모습보다 영 폼이 안 산다.
사용자 삽입 이미지
이것저것 보고 골랐는데 가격 대비 품질이나 디자인이 괜찮은 것 같다.
코드를 구입한 후  티셔츠 두장을 더 산 후, 내 옷을 보잖다.  앗싸~~~

아내 옷을 보러다니는 동안 안보는 척 하면서 진열된 상품 중 한두가지를 눈여겨 보았다.
바로 이 놈이다.
사용자 삽입 이미지
평소 입고 싶어하던 스타일의 옷이다. 입어보니 95사이즈가 딱 맞고 따뜻한 것이 좋았다.
문제는 가격 아내가 산 코트보다 두배 비싸다. 아내는 사라고 하지만 이거 잘못 샀다가는 나만 좋은 옷을 입는다고 한소리 들을 것 같아서 망설였다.

아내의 끈질긴 유혹에 넘어가서 결국은 샀다. 나중에 명품 가방으로 빚을 갚아야 할 것 같다. ㅜ.ㅜ
암튼 구글 덕분에 겨우내 입을 옷을 장만했다. 요즘 구글 수입이 전보다 떨어져서 고민인데 그래도 꾸준히 해서 가끔씩 이렇게 아내에게 그리고 나에게 선물을 해야 겠다.
그나저나 우리 딸내미들은 왜 이렇게 안오냐고...배 고프다고.. 난리치며 계속 전화가 온다. ^^;

드디어 도착한 구글 수표

IT산책
애드센스를 시작한 후 약 2달반만에 드디어 첫 수표를 받았다.
164달러짜리 구글 수표 ^^;
발송되었다는 메시지를 보고 언제오나 노심초사하고 있었는데 점심시간에 직원이 웃으며 살포시 가져다 주었다.

사실 요즘은 포스트도 뜸하고 애드센스 단가도 많이 떨어져서 하루 수입이 0일때가 많다.
스스로 약속한 블로그를 비빔밥으로 만들지 않기 위해서 이 블로그의 성격에 맞는 포스트만 올리려고 하기 때문에 포스트를 올리는 횟수가 전에 비해 많이 떨어졌다.
그러다보니, 애드센스에 대한 애정도 약간씩 식어가고 있었는데 오늘 수표를 받고 보니 애드센스를 처음 접하고 수익을 일으켰던 흥분이 잠시 느꼇다.

여튼, 꾸준히 한두가지 주제로 내 블로그를 꾸미고 노력하면 가끔씩 이런 부수입이 생길 것이다.
담달에는 약 200달러짜리 수표를 받을 것 같은데 잘 모아서 사고 싶은 것 하나 질러야겠다.
사용자 삽입 이미지

구글의 수집로봇과 같은 웹로봇의 동작 원리

IT산책
구글, 네이버, 다음, 야후, 네이트, 엠파스, 파란...
쟁쟁한 검색사이트, 포탈사이트들이 지금은 많이 있지만 과거에 포탈사이트가 그리 뜨지 않았을 때는 검색엔진을 가지고 문서나 정보를 찾는 일이 많았다.

사실 지금은 내가 검색엔진을 사용하고 있는지 안하고 있는지 의식하지 못할 정도로 생활 깊숙히 검색이 일반화 되어 있다. 각종 광고에서도 검색창에 OOO라고 치라고 하고 말이다.

요즘은 검색엔진하면 구글을 많이 떠올린다. 물론, 네이버나 다음같은 포탈에서도 많은 검색을 제공하긴 하지만 순수한 검색사이트로 보긴 어렵다. 과거에는 검색엔진별로 몇만개, 몇백만개의 웹문서를 수집했으나 하는 것이 그 검색엔진의 성능을 나타내는 척도였으나 하드웨어 가격이 많이 내려가고 수집기술, 저장기술이 굉장히 발달된 요즘은 그러한 부분을 일일이 언급하는 일은 거의 없다.


그럼 검색엔진에서는 어떠한 방식으로 웹문서를 수집할까?
흔히 웹로봇이라 불리는 것들은 어떻게 인터넷상의 웹문서(HTML문서)를 수집할까?
몇가지 방법이 있겠지만 가장 단순한 방법을 소개할까 한다.

일반적으로 웹로봇이 인터넷을 돌아다니면서 웹문서를 수집한다고 표현하지만 보통 생각하는 것처럼 웹로봇이 사이트를 일일이 돌아다니면서 즉, 웹로봇이 불리우는 프로그램이 각각의 사이트에 들어가서 데이터를 가져오는 것은 아니다.

사용자 삽입 이미지
                                    [그림 1  수집엔진 ]

그림에서 보는 것과 같이 수집엔진은 Seed(시드)라고 불리는 URL 목록을 가지고 있다. Seed는 수집엔진이 방문해야 할 웹사이트들의 주소를 저장해 놓은 것이다.

(1) 수집엔진이 먼저 Seed를 읽어 방문할 URL을 알아낸 다음
(2) 해당 URL에 접속 요청을 한다. 일반적으로 사용자가 브라우저 주소창에 URL을 입력하고 엔터를
     치는 것과 같다고 생각하면 된다.
(3) 접속이 되고 나면 해당 웹사이트는 수집엔진이 요청한 URL의 HTML 데이터를 수집엔진쪽으로
     보내준다. 사용자는 브라우저를 통해서 요청을 하므로 웹사이트가 보내주는 HTML 코드를
     브라우저가 다시 변환하여 사람이 보기 편한 형태로 변환하여 주지만 수집엔진은
     브라우저가 아니므로
    <html>
     <head>
      .....</head>
     <body>
      ..... </body>
     </html>
     이런 코드를 그대로 받아들인다.

수집엔진은 이 HTML 코드를 분석하여 웹페이지의 제목, 본문, 작성일자 등의 속성값을 뽑아낸다.

Seed에 등록되어 있는 URL을 대상으로 위와 같은 과정을 반복하여 수행한다. 그러면 수집엔진은 사용자가 Seed에 등록한 웹사이트의 데이터를 모두 수집할 수 있게 된다.

사용자 삽입 이미지

                        [ 그림 2 사이트 맵]

거의 모든 웹사이트는 Sitemap을 가지고 있다. 자기 사이트의 지도같은 것으로 그 사이트에 담고 있는 모든 페이지를 바로 접근할 수 있도록 모든 주소를 가지고 있고 또한 관련된 외부 사이트의 주소도 가지고 있다. 검색엔진에서 가장 중요하게 생각하는 것 중 하나가 바로 사이트맵이다. 일반적으로 검색엔진이 처음 방문하는 곳이기도 하다.
사이트맵을 분석하여 해당 사이트의 모든 주소를 알아내고 그 주소를 기초로 하여 데이터를 수집한다. 또한, 사이트맵에 걸려 있는 각종 외부 링크를 분석하여 새로 수집할 URL 정보를 알아낸다.
사이트맵의 HTML을 살펴보면 일반적으로 다음과 같다. 그림 2를 기초로 설명하면

<a href="aaa.html">회사안내</a>
<a href="bbb.html">제품소개</a>
<a href="ccc.html">자유게시판 </a>

<a href="http://naver.com">네이버이미지</a>
<a href="http://www.allblog.net">올블로그이미지/a>
<a href="http://www.eolin.com">이올린이미지</a>

>내부링크는 www.zzz.co.kr 사이트의 내부 웹페이지를 가리키는 것이고 외부링크는 여타 인터넷 상의 웹사이트를 말하는 것이다.

[그림1]에서 수집엔진이 일반적으로 사이트맵을 처음으로 방문하면 수집엔진은 사이트맵의 HTML 코드를 받아 다음에 방문(접속)할 내부 URL을 얻어낸다.
링크는 보통 <a href 로 시작하여 </a>로 끝나므로 HTML 코드에서 이러한 부분을 제거한 후 남은
aaa.html, bbb.html. ccc.html을 구한 후, 다음번에 방문할 URL로 저장한다.

그런 다음 aaa.html에 접속하여 같은 방식으로 HTML 코드를 얻어 제목, 본문, 작성일자 등 속성값을 구한다. 물론 aaa.html 에도 내부 또는 외부로의 링크가 걸려있으면 같은 방식으로 링크를 구한 후 저장한다.

naver.com 과 같은 외부 링크도 마찬가지다. 사이트맵에 걸려있는 모든 외부링크를 찾아서 다음에 방문할 URL로 저장한 후 앞의 모든 URL의 방문이 다 끝나면 꺼내서 방문한다. 이러한 과정이 반복된다.

이렇게 되면 초기에 몇개의 Seed를 등록하지 않더라도 상당히 많은 량의 웹사이트를 수집할 수 있다.
물론 처음에 naver와 같은 포탈을 seed로 줄 수도 있고 일반적인 회사 홈페이지를 seed로 줄 수 있다.
그것은 얼마나 많은 웹사이트를 수집할 것이냐 따라 차이가 있다.

물론, 일반적인 웹로봇의 경우는 제약사항이 몇가지 있다.
첫째, 사이트맵이 플래시로 되어 있는 경우는 HTML 코드를 뽑아내지 못하기 때문에 다음번에 방문할 URL을 구할 수가 없다.

둘째, 사이트맵이 자바스크립트 즉, <a href="javascript:goList(100)")> 와 같이 구성된 경우도 다음번에 방문할  URL을 구할 수 없으므로 수집엔진이 그 부분에서 종료된다.

셋째, 다음번에 방문할 URL을 얻었지만 그 웹사이트가 로그인을 해야 하는 경우는 수집엔진이 아이디와 비밀번호를 입력할 수 없므로 데이터를 수집하지 못한다.
이러한 제약사항을 풀기 위하여 전문적인 수집엔진들이 등장하고 있다.

간단하게나마 웹로봇의 동작원리에 대해서 나열하였다.
사실은 URL 중복처리, HTML 태그 제거 등 좀더 복잡한 단계가 있으나 우선 개념적으로만 알아보았다.
웹로봇에 대해서 궁금한 분들께 조금이라도 도움이 되었길 바란다.

구글 AdSense 사이트 다운

IT산책
구글도 가끔은 별 수 없이 사이트가 다운되나보다. ^^;

구글의 기술력이 대단하다고 해서 이런 일은 없을 줄 알았더니 점검도 아니고 에러다.

그런데 안내문구를 가만히 보니 좀 기분이 나쁘다.

영어, 일본어, 중국어 등이 먼저 나오고

16번째나 되어서야 한글 안내문이 나온다.

이것을 굳이 우리의 국력과 연결시켜서 생각하고 싶진 않지만

그래도 일본, 중국보다 뒤져서 나오는 것은 기분이 별로다.

세계 제일 IT 강국인데 ^^;

사용자 삽입 이미지