카테고리 없음

아이팟 터치용 사전 만들기 작업

행복한 수지아빠 2012. 1. 25. 19:13
반응형

아이팟 터치용 사전 만들기 작업

아이팟 터치에 사용하기 위해 Dictionary Universal을 구입해서 쓰고 있다.

사실 해킹된 아이팟을 사용하고 있어서 모 사이트를 통해서 최신 버전은 아니지만 Dictionary Universal을 공짜로 구해서 사용할 수도 있었지만, 좋은 프로그램이라고 생각했기 때문에 애플 앱스토어에서 구입을 했다.

몇 가지 사전이 필요해서 데이터를 수집하여 stardict 포맷의 사전 데이터를 작성하기 시작했는데, 일단 네이버 영어사전 데이터를 모아서 사전 파일을 만들었다. 그런데 네이버 영어사전 페이지는 모양만 XHTML를 따랐을 뿐, 데이터의 배치는 XML 스타일로 되어 있지 않았기 때문에 어려움이 많았다. (혹시 네이버 영어사전 담당하시는 분이 이 글을 보시더라도 기분나빠하지 않으셨으면 좋겠습니다. 저도 제 업무를 제대로 하는 편이 아니라서 위 내용은 누굴 비난하려고 쓴 것은 아닙니다.)

수많은 편집 작업 끝에 불필요한 HTML 태그를 정리하고 발음기호 이미지를 다운로드하여 21만 여개의 표제어에 대한 데이터를 얻을 수 있게 되었다. 웹서버에 부하를 주지 않고 다운로드받느라 다운로드에만 며칠이 걸렸고, 웹페이지를 가공하는데 한 2주 넘게 걸린 것 같다.

J.Nik님께서 만드셨다는 영한한영사전은 내용을 보아하니 두산동아의 사전 데이터인 것 같다. 내가 원본으로 삼은 네이버 영어사전과 데이터가 거의 유사하다.

앞으로 작업할 사전은 국어 사전과 라틴어 사전이다. 국어 사전은 1차 가공을 끝내놓은 상태라서 가공만 하면 될 것 같은데, 영어 사전 정리 작업에서 고생을 해서 흥미를 잃은 상태이고, 라틴어 사전은 여러 소스를 구해서 1차 가공을 끝내고 동일한 표제어에 대해 병합 작업을 하는 것을 남겨두었다.

여러 종류의 사전이 있지만, 개인적으로 이 3가지이면 충분할 것 같다. 영영 사전이라면 J.Nik님께서 Longman ComtemporaryOxford English 두 가지 사전을 공개하셨으니 쉽게 구해서 설치할 수 있다.

* 사전 데이터는 저작권 상의 문제로 인해서 공개하지 않습니다. 제가 NHN에 서 근무하는 터라 더 문제가 커질 수 있거든요. 게다가 사전 데이터는 NHN이 자체적으로 확보한 게 아니라 두산동아나 코빌드같은 전문 컨텐츠 업체와 계약을 통해 제공하는 거라서 사실상의 저작권은 컨텐츠 업체에 속해 있습니다.

Incoming search terms:

반응형