Saltlux SmartData

Saltlux SmartData

help help

제품 소개

Previous

지식 자산 수집 엔진 TORNADO

TORNADO 주요 기능

2-4-1-tornado%ec%a3%bc%ec%9a%94%ea%b8%b0%eb%8a%a5

 
Scenario Based Crawler

웹페이지 수집 사용자 시나리오 정의 기능, 수집 시뮬레이션 기능

Deep Web Crawler

로그인 사이트 수집, AJAX 기반 웹사이트 수집, JAVASCRIPT 링크 추적 기능

RSS Crawler

RSS 피드 등록을 통한 기사 및 게시글 수집

Social Media Crawler

트위터, 페이스북, 웨이보, 블로그, 커뮤니티, 뉴스 등 다양한 소셜미디어/문서수집, 이미지/PDF/바이너리 파일 수집

Metasearch Crawler

네이버, 다음, 구글 등 주요 검색 서비스로부터 검색 문서 수집

OpenAPI Crawler

국내외 공개데이터, 지자체 공공데이터 등 다양한 오픈데이터 문서 및 데이터 수집, Open API 기반 데이터 수집

TORNADO 아키텍처 구성

TORNADO 는 사용자 시나리오 기반 수집기, 웹 수집기, RSS 기반 수집기, 소셜 수집기 등 다양한 형태의 데이터 수집을 위한 서버로 구성되어 있으며, 윈도우 및 리눅스 기반 서버를 모두 지원합니다. 또한 분산 시스템을 기반으로 설계되어 매우 유연하게 시스템을 구성할 수 있습니다.

2-4-2-[TORNADO]아키텍쳐구성

TORNADO 수집 프로세스

사용자가 정의한 수집기의 업무는 시뮬레이터를 통해 수집이 의도한대로 동작하는지 테스트해 볼 수 있으며, 수집 시스템에서 수집이 실행되는 동안에는 실시간으로 수집 결과를 모니터링 할 수 있습니다.

2-4-3-[TORNADO]수집프로세스

TORNADO 특징

다양한 빅데이터 수집 엔진 내장

규칙 기반수집, 메타/포커스드 크롤러, 페이스북/트위터 등 SNS 데이터/프로파일 수집, RSS수집

강력한 워크벤치와 데이터 추출 성능

GUI 형태의 규칙 편집기를 통해 JS, AJAX가 포함된 동적 웹 사이트로부터 데이터 추출, 수집 가능

병렬 분산 수집 및 다양한 운영체계 지원

수집 설정된 데이터 소스들로부터 동시에 방대한 양의 데이터를 병렬 자동 수집, 추출 가능

유연한 수집 정책 및 스케줄 관리

수집 소스별 수집 정책과 스케줄 설정, 관리 가능

편리한 수집 시뮬레이션과 미리보기

데이터 수집의 사전 시뮬레이션과 데이터 미리보기

수집 데이터의 저장과 관리

XML, 엑셀, DBMS, File System, FTP와 같이 다양한 형태로 수집된 데이터를 저장, 전송 가능

TORNADO 사용자 인터페이스

2-4-4-[TORNADO]사용자인터페이스

TORNADO 도입 효과

수집영역 확장을 통한 지식데이터 증대

토네이도의 수집 기술을 통해 일반적 수집 로봇이 확보할 수 없는 콘텐츠와 확보하고 대용량의 데이터를 쉽게 수집할 수 있습니다.

전략적 데이터 수집/추출을 통한 인사이트 제공

수집된 다양한 문서로부터 고객이 필요로 하는 데이터를 추출하여 구조화할 수 있습니다.

빅데이터 수집 효율성 제고

고객 목소리(VOC), 트렌드, 연관 문서 등 다양한 니즈에 대응 가능한 특성화된 기능을 제공함으로써 빅데이터를 효과적으로 수집하고 비용을 절감할 수 있습니다.

TORNADO 활용 사례 및 분야

지식 베이스 구축

비정형 데이터를 반정형 데이터(HTML/XML)에서 표 형식으로 변환하여 지식 베이스로 쉽게 변환할 수 있습니다.

소셜 미디어 분석

다양한 소셜 미디어 소스(트위터, 페이스북, 블로그, 뉴스 등)에서 특정 주제, 사람, 국가에 대한 데이터를 수집합니다. 이 데이터는 소셜 미디어 분석에 있어 매우 유용한 소스입니다.

비즈니스 인텔리전스

토네이도는 비즈니스 인텔리전스를 위해 데이터를 수집할 수 있습니다. 예를 들어, 취업 웹사이트에 대한 데이터 수집을 통해 경쟁 기업들이 어떤 능력을 가진 인재를 어느 곳에서 채용하는지 알 수 있습니다. 토네이도는 또한 전자 게시판과 포럼에서 제품 리뷰를 추출하여 새로 출시한 제품의 결함을 발견할 수 있습니다.

가격 비교

경쟁사들이 판매하는 유사제품의 제품과 가격 정보를 수집하고, 유통 경로 내에서 가격 책정과 제품 정보에 대해 모니터링 합니다.

TORNADO 운영 환경

운영체제
  • 제품서버: CentOS v6.x (64bit)
  • DB 서버: CentOS v6.x (64bit)
  • 파일서버: CentOS v6.x (64bit)
  • 클라이언트: MS Windows Vista or higher (.Net framework 4.0 or higher, IE 9.0 or higher)
하드웨어 사양
  • 제품서버: Intel 3GHz, 4 Cores 64bit/ Mem 32GB/ HDD 500GB 이상
  • DB 서버: Intel 1GHz / Mem 4GB / HDD 1TB 이상
  • 파일서버: Intel 1GHz / Mem 2GB / HDD 1TB 이상
  • Client: Intel Core i3 / Mem 4GB/ HDD 100GB 이상
권장사항
  • 제품서버: Intel 3GHz, 4 Cores 64bit/ Mem 32 GB/ HDD 500GB 이상
  • DB 서버: Intel 2GHz / Mem 8GB / HDD 4TB 이상
  • 파일서버: Intel 2GHz / Mem 4GB / HDD 4TB 이상
  • 클라이언트: Intel Core I5 / Mem 4GB/ HDD 100GB 이상