기본 콘텐츠로 건너뛰기

CentOS에서 검색서버 Solr와 한글 형태소 분석기 Arirang 설치하기



오픈소스 검색엔진인 Lucene(루씬)은 강력한 기능을 가지고 있지만 그 자체로 완성된 검색 서비스가 아니기 때문에 사용하려면 손이 많이 가는 편입니다. 루씬의 서브 프로젝트인 Solr(솔라)는 루씬을 기반으로 한 검색서버로서 루씬을 직접 다루는 것보다 좀더 쉽게 검색 서비스를 만들 수가 있습니다.

이 글에서는 CentOS 6에서 솔라 4.5.1과 루씬/솔라에서 사용할 수 있는 한글 형태소 분석기인 Arirang(아리랑)을 설치하는 방법에 대해 알아보도록 하겠습니다.

1. 솔라 설치하기

솔라 홈페이지(https://lucene.apache.org/solr/)에서 설치 파일을 다운받습니다. 현재 최신 버전은 4.7이나 아직까지 한글 형태소 분석기인 아리랑이 정상 작동하는 것은 4.5.1까지이기에 이 버전을 다운받습니다. 아리랑은 네이버 '루씬 한글분석기 오픈소스 프로젝트' 카페에서 다운받을 수 있습니다.

솔라 설치를 시작하기 전에 톰캣 설치를 미리 하셔야 합니다. 솔라 자체적으로 경량의 서블릿 컨테이너를 가지고 있지만 정식 서비스를 위해서는 별도 서블릿 컨테이너를 설치하는 것이 좋습니다.

다운받은 솔라 설치파일의 압축을 풀고 example 디렉토리의 multicore 디렉토리를 솔라를 설치할 디렉토리로 복사합니다. 여기서는 /var/www 밑에 설치하며 multicore 디렉토리를 solr라는 이름으로 바꾸어 복사합니다. 즉, 솔라 홈디렉토리는 /var/www/solr 가 되는 것이죠. 다른 디렉토리를 솔라 홈디렉토리로 하였다면 밑에 내용에도 그 부분을 생각하고 읽어주시면 됩니다.

example 디렉토리의 multicore는 여러 개의 웹사이트를 개별로 인덱싱하는 상황의 예제 디렉토리입니다. 하나의 웹사이트만 있다면 example 디렉토리의 solr 디렉토리를 복사하시면 됩니다.

솔라 홈디렉토리까지 만들었다면 dist 디렉토리의 solr-4.5.1.war 파일을 /var/www/solr 로 복사하고 /var/www/solr 디렉토리에 있는 solr.xml 파일의 내용 중 <solr persistent="false">로 되어 있는 것을 <solr persistent="true">로 수정합니다. 이것은 어드민 페이지나 API를 통한 코어 변경 사항을 다음 서비스 재시작에도 유지하기 위한 것입니다.

마지막으로 /var/www/solr 디렉토리 전체를 tomcat 유저 소유권으로 변경한 후 example/lib/ext 디렉토리 밑에 있는 jar 파일들 중 log4j-1.2.16.jar을 제외하고 /usr/share/tomcat6/lib 로 복사한 후 example/resources 디렉토리 안에 있는 log4j.properties 파일도 같은 디렉토리로 복사합니다. log4j-1.2.16.jar 파일을 제외한 것은 CentOS 6의 톰캣 6에는 기본으로 포함되어 있기 때문입니다.

2. 톰캣 설정

/etc/tomcat6/Catalina/localhost 디렉토리에 solr.xml 파일 생성하고 다음 내용을 입력합니다. 솔라 홈디렉토리를 /var/www/solr 가 아닌 다른 디렉토리로 하였다면 그 디렉토리로 수정해 입력합니다.

<?xml version="1.0" encoding="utf-8"?>
<Context docBase="/var/www/solr/solr.war" debug="0" crossContext="true">
    <Environment name="solr/home" type="java.lang.String" value="/var/www/solr" override="true"/>
</Context>

여기까지 하고 톰캣을 재시작한 후 솔라 어드민 페이지(http://서버주소:8080/solr/)로 접속하면 관리자 페이지를 볼 수 있습니다. 저의 경우는 관리자 페이지에서 에러가 났는데 기존 multicore 디렉토리에 기본으로 있던 코어들을 삭제하고 신규로 만드니 에러가 사라졌습니다.

3. 한글 형태소 분석기 설치

네이버 '루씬 한글분석기 오픈소스 프로젝트' 카페에서 다운받은 파일의 압축을 풀고 나온 파일들 중 arirang-1.1.2.jar 파일은 /var/lib/tomcat6/webapps/solr/WEB-INF/lib 에 복사합니다. 같은 압축파일에 들어 있는 schema.xml 파일의 내용은 /var/www/solr/사용할코어/conf 디렉토리의 schema.xml 파일의 <types> 태그 안에 복사해 넣습니다.

위 작업을 한 후 바로 톰캣에서 확인을 하면 무슨 파일이 없다라는 에러가 납니다. 'protwords.txt, stopwords.txt, synonyms.txt' 파일들인데 사전 데이터 파일로 생각됩니다. 사전 데이터가 없을 경우는 그냥 빈 파일들을 /var/www/solr/사용할코어/conf 디렉토리에 만들어주시면 됩니다. 사용하는데는 사전 데이터가 없어도 문제는 없습니다.

위 과정까지 되었다면 기본 설정은 끝난 것입니다. 아래 스크린샷처럼 솔라 관리자 페이지에 접속한 후 사용할 코어의 Analysis 메뉴를 통해 한글 형태소 분석을 테스트해볼 수 있습니다.




솔라는 인덱싱을 위해서는 데이터를 XML로 파싱하여야 합니다. 그러나, 일반적인 웹사이트들은 검색을 할 데이터들이 DB에 있으니 솔라가 직접 DB에 접속해 데이터를 가져와 인덱싱할 수 있으면 XML로 데이터를 입력하는 것보다 편하겠죠? 다음 포스팅에서는 DB에 접속해 데이터를 가져오는 방법에 대해 알아보겠습니다.


===


사진 포트폴리오 - City, City People (http://photo.just4fun.kr/)

사진 매거진 앱 - Viewzin (http://viewzin.just4fun.kr/)



댓글

이 블로그의 인기 게시물

플랜트로닉스 백비트 고 3 : 아쉬운 블루투스 연결 안정성

블루투스 이어폰을 새로 구입하려고 이것저것 알아보다가 기존에 사용하던 플랜트로닉스의 ‘백비트 고 2’에 만족을 하였기에 그 후속작인 ‘백비트 고 3’를 구입하였습니다. 구입 후 일주일정도 사용한 지금 기대보다는 만족도가 떨어지는 제품이라는 것이 제 결론인데 그 이유를 적어보겠습니다.

PHP에서 보안 문제를 해결하는 법

한빛미디어 홈페이지에 'PHP에서 보안 문제를 해결하는 법' 이라는 기사가 있습니다. PHP로 개발시 주의해야하는 3가지 보안 문제와 이를 막는 방법에 대한 외국 기사를 번역한 기사인데 관련 사항을 잘모르시는 분들에게 도움이 될 것 같아 기사에 소개된 내용들에 제 생각을 추가하여 정리해보겠습니다.


Android Studio 3.0에서 메소드 파라미터 힌트 기능 끄기

Android Studio를 3.0으로 업데이트하고 살펴보고 있었는데 에디터가 뭔가 지저분해(?) 보였습니다. 소스를 자세히 보니 아래와 같이 이전 버전에서는 없었던 텍스트가 보였습니다.