1. Jsoup 라이브러리 다운
- https://jsoup.org/download 에서 최신버전 다운로드
2. 이클립스 라이브러리 추가
Eclipse Java project에서 Java Build Path - Add External JARs로 Jsoup.jar 라이브러리를 추가해준다.
라이브러리 추가 하면
Package Explorer
에Referenced Libraries
폴더가 생성되면서Jsoup
라이브러리가 import 된다.
3. 간단한 예제로 다나와 사이트의 오늘의 특가정보를 가져와보자.
간단한 파싱을 위해 다나와에서 오늘의 특가를 파싱해본다.
구글 크롬 개발자 도구를 통해 해당 뉴스 부분의 제목이나 class id를 확인 할 수 있다.
개발자 도구를 통해 파싱하고 싶은 부분의 class id, tag 등을 먼저 찾는다.
Jsoup.connect() : 파싱할 웹 사이트 URL을 입력해 파싱 데이터가 Document 형태로 반환된다.
text()
로 해당li
태그의title
값을 얻어올 수 있다.getElementsByAttribute("href").attr("href")
로 href 태그 값을 얻어와 해당 URL을 얻어올 수 있다.URL을 다시
Jsoup.connect()
해 링크를 들어간다면, 본문을 크롤링 할 수 있을 것이다.element.toString()
은 파싱한 태그 값 전체를 출력하고,element.text()
는 파싱한 태그의 title 값만 출력할 수 있다.
'웹개발 > JAVA' 카테고리의 다른 글
Jsoup으로 페이지 로딩, ajax 통신 데이터 스크레이핑(크롤링) (0) | 2017.12.11 |
---|---|
[JAVA] SMTP와 Mail 발송하기 (구글) (0) | 2017.12.06 |