자동 크롤러 – 동적 웹 응용 프로그램 크롤링 및 심층적 인 웹 홍보

웹 크롤러 (웹 크롤러라고도 함)는 월드 와이드 웹이 출시 된 이후로 광범위하게 연구되었습니다. 보다 최근에는 연구원들이 웹의 일부를 크롤링하려고하는 웹 크롤러 에 관심을 가졌습니다. 웹 크롤러 는 딥 웹의 일부를 나타내는 양식 완성을 필요로합니다.

최근 연구 결과와 2012 년에 발표 된 BrightPlanet의 통계에 따르면, Deep Web에 포함 된 데이터의 양은 Surface Web을 통해 찾을 수있는 것보다 400-500 배 더 큽니다. 딥 웹 (Deep Web)의 자동 데이터 수집은 웹 크롤러 분야의 뜨거운 연구 주제 중 하나가되었습니다.
동안 최근의 연구 조사 자동 동적 웹 크롤러를 포함, 두 피할 수없는 상황이 기존의 도구를 사용하여 제대로 연구되지 않은 발견되었다. 하나는 일부 웹 사이트에서 클릭 가능한 요소를 식별하기 위해 CSS 가상 클래스를 사용하여 현재 기술이 사용자 작업을 시뮬레이션하지 못하게하는 것입니다. 다른 하나는 현재 사용중인 웹 크롤러의 절차가 종료되는 요소의 자동 클릭 중에 팝업 창이 트리거 될 수 있다는 것입니다.  연구진은 CSS 의사 클래스 문제를 해결하기 위해 Google 시스템의 프록시 서버를 사용하여 대상 웹 사이트의 JavaScript 코드를 정적으로뿐만 아니라 동적으로 분석했습니다.  그들의 연구를 통해, 그들은 팝업 창을 다루는 체크 메커니즘을 제안했다. 그들은 배치했다.프록시 서버의 도움으로 “AutoCrawler”라는 이름 의 자동 웹 크롤러 입니다.

평가 결과에 따르면 AutoCrawler는보다 동적 인 상호 작용을 다루고 실제 웹 응용 프로그램에서 더 중요한 데이터를 가져 와서 딥 웹에서 많은 양의 데이터 를 크롤링하는 새로운 방법을 제공합니다 .

AutoCrawlers ‘응용 및 연구 연구의 공헌 :

현대의 AJAX 기반 웹 시스템을 크롤링하려면 웹 페이지에서 하이퍼 텍스트 링크를 추출하고 서버에 요청을 보내는 전통적인 방법과는 다른 접근 방식이 필요합니다. 이 연구에서는 AJAX 기반 웹 응용 프로그램에 대한 자동 크롤링 기법을 제안했습니다. AutoCrawler는 내장 브라우저에서 클라이언트 측 웹 사용자 인터페이스의 동적 분석을 기반으로합니다.

본 연구의 주요 공헌 내용은 다음과 같습니다.
– 팝업 창 및 클릭 가능한 요소를 포함하여 AJAX 기반 응용 프로그램 크롤링과 관련된 주요 문제를 분석합니다.
– AJAX 응용 프로그램을 구동하고 감지 된 상태 변경 및 전환에서 상태 시스템을 추론하는 체계적인 프로세스 및 알고리즘입니다. 해결할 수있는 요소에는 클릭 가능한 요소 식별, DOM 변경 감지 및 상태 시스템 구축이 포함됩니다.
– 자동 크롤러를 통해 도입 된 동시 멀티 브라우저 크롤링 알고리즘으로 런타임 성능을 향상시키고 딥 웹에서 크롤링 된 자료의 수율을 높입니다.
– AutoCrawler를 통해 구현 된 크롤링 알고리즘을 구현하는 CRAWLJAX라는 오픈 소스 도구.
– 제안 된 크롤링 접근법의 효율성, 성능, 정확성 및 확장 성을 평가하기 위해 7 개의 AJAX 애플리케이션을 포함한 2 개의 연구가 활용되었습니다.

이 연구는 AJAX 및 관련 웹 응용 프로그램에 초점을 맞추었지만이 논문의 저자에 따르면 DOM 기반 웹 응용 프로그램 및 관련 웹 사이트에 동일한 접근 방식을 적용 할 수 있다고합니다. 이 도구가 곧 공개적으로 다운로드 할 수있게 될 것이므로 가까운 장래에 무수히 많은 흥미로운 사례 연구를 파악하는 데 도움이 될 것입니다. 또한 기능의 집합을 확장하고 정확성, 성능 및 상태 폭발 알고리즘을 개선하여 도구를 더욱 강화하면 AJAX 기반 웹 응용 프로그램의 크롤링 수율을 의미하는 저자의 향후 작업에 대한 지침이됩니다. 가까운 장래에 크게 증가 할 것이고, 딥 웹의 현재의 정의를 완전히 재구성 할 것입니다.

제어 된 실험은 가까운 미래에 체계적으로 추적 알고리즘 및 구현 최적화를위한 새로운 수단을 분석하고 식별하기 위해 수행되어야한다. 많은 AJAX 응용 프로그램은 요즘 다양한 도메인의 URL에서 해시 조각을 사용합니다. 이러한 해시 조각을 동적 웹 애플리케이션을 크롤링하는 동안 어떻게 활용할 수 있는지 조사하는 것이 또 다른 흥미로운 방향입니다. CRAWLJAX 및 AutoCrawler를 사용하여 클라이언트 사이트 JAVASCRIPT에 의해 유도 된 숨겨진 웹을 탐색하고 자동화 된 웹 분석 및 테스트를 계속하는 것은 가까운 장래에이 문서의 저자가 작업 할 다른 응용 프로그램 도메인입니다.

자동 크롤러 – 동적 웹 응용 프로그램 크롤링 및 심층적 인 웹 홍보”의 152개의 생각

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다