1. Jsoup 라이브러리 다운


  • https://jsoup.org/download 에서 최신버전 다운로드



2. 이클립스 라이브러리 추가




  • Eclipse Java project에서 Java Build Path - Add External JARs로 Jsoup.jar 라이브러리를 추가해준다.

  • 라이브러리 추가 하면 Package Explorer Referenced Libraries 폴더가 생성되면서 Jsoup 라이브러리가 import 된다.


3. 간단한 예제로 다나와 사이트의 오늘의 특가정보를 가져와보자.




  • 간단한 파싱을 위해 다나와에서 오늘의 특가를 파싱해본다.

  • 구글 크롬 개발자 도구를 통해 해당 뉴스 부분의 제목이나 class id를 확인 할 수 있다.

  • 개발자 도구를 통해 파싱하고 싶은 부분의 class id, tag 등을 먼저 찾는다.

  • Jsoup.connect() : 파싱할 웹 사이트 URL을 입력해 파싱 데이터가 Document 형태로 반환된다.





  • text()로 해당 li 태그의 title 값을 얻어올 수 있다.

  • getElementsByAttribute("href").attr("href")로 href 태그 값을 얻어와 해당 URL을 얻어올 수 있다.

  • URL을 다시 Jsoup.connect()해 링크를 들어간다면, 본문을 크롤링 할 수 있을 것이다.

  • element.toString()은 파싱한 태그 값 전체를 출력하고, element.text()는 파싱한 태그의 title 값만 출력할 수 있다.





+ Recent posts