웹사이트에서 특정 내용을 가져오고 싶을 때에는 다음과 같이 작업해보세요.
웹사이트를 접속하지 않더라도 해당 내용을 가져올 수 있습니다.
1
url_load 를 사용하여 사이트에 접속하지 않고도 전체 소스를 저장할 수 있습니다.
2.
filter 를 사용하여 일치하는 모든 내용을 가져옵니다.
(<h1 으로 시작해서 h1> 으로 끝나는 모든 소스 가져오기)
filter 를 사용하여 일치하는 모든 내용을 가져옵니다.
(<h1 으로 시작해서 h1> 으로 끝나는 모든 소스 가져오기)
3.
다시 한 번 filter 를 사용하여 불필요한 부분을 제거합니다.
다시 한 번 filter 를 사용하여 불필요한 부분을 제거합니다.
4.
log 를 사용해서 정상적으로 가져왔는지 출력합니다.
log 를 사용해서 정상적으로 가져왔는지 출력합니다.
이렇게 가져온 내용을 내가 원하는 값과 비교하거나,
데이터베이스에 저장해서 활용할 수 있습니다.
일반적으로 전체 소스를 가져올 때에는 url_move 와 get_html 을 사용합니다.
url_load 를 사용하면 이 과정을 하나로 합쳐서 전체 동작 시간을 줄일 수 있습니다.