웹 크롤링 & 검색 엔진 (웹 크롤링과 검색 엔진의 차이)

카테고리 없음

웹 크롤링 & 검색 엔진 (웹 크롤링과 검색 엔진의 차이)

ekdnjs510 2024. 5. 14. 00:22

728x90

앞서 웹크롤링에 대해 설명한 적이 있다.

간략히 말하면

웹 크롤링은 웹상의 정보들을 탐색하고 수집하는 작업을 의미한다.

자세한 내용 : https://jdawoni.tistory.com/11

웹 크롤링

https://wikidocs.net/135794 3-8. 웹크롤링# 1. 웹 (Web) **Web은** **World Wide Web의 줄임말**입니다. 우리가 인터넷 웹사이트의 주소를 칠 때 'www.google.com' 이런 식으로 입…wikidocs.net 1. 웹 크롤링 정의웹 (Web) :

jdawoni.tistory.com

표면적으로만 봤을 때 평소에 우리가 네이버나 구글 등과 같은 검색 엔진에서 검색하는 것과 차이가 없다고 느껴지며 크롤링을 통해 오히려 왜 더 복잡하고 귀찮게 검색하는 것인지 이해하지 못할 것이다.

이 차이를 알기 위해서 우리는 검색 엔진 동작 원리에 대해 알아갈 것이다.

검색엔진 동작 원리

검색 엔진은 사용자가 검색 엔진을 사용하기 전에 미리 웹 상에서 정보를 수집하여 색인을 만들어 놓는다.

그리고나서 사용자가 찾고자 하는 정보의 키워드를 입력하면, 미리 만들어 놓은 색인 중에서 입력된 키워드에 해당하는 정보들을 찾아서 보여주는 것이다.

여기서 웹 크롤링을 통해 웹상의 방대한 정보들을 검색, 색인화하는 과정을 거친다.

이러한 크롤러가 주기적으로 웹에 접속된 사이트들을 방문하여

해당 웹 사이트가 가지고 있는 정보에 대해 색인을 작성한 후

그것을 데이터베이스에 저장하여 검색 시 활용하게 된다.

*색인(index) : 알아보기 쉽도록 표시해둔 목록

<결론>

검색 엔진은 웹 크롤링을 통해 정보 분류를 거쳐 사용되는 것이며 웹 크롤링은 검색 엔진 이전에 거쳐지는 방대한 양의 정보를 탐색하는 과정이라고 생각하면 된다.

웹 크롤링과 웹 스크래핑의 차이

웹 크롤링 : 검색창에 키워드를 입력하면 해당 포털의 URL을 지닌 페이지뿐만 아니라 외부 사이트 링크도 본문의 요약본과 함께 노출되는 것을 확인할 수 있음.

웹 스크래핑 : 특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것을 의미함.

크롤링관련 기사

1. '여기어때' 사건으로 살펴본 '크롤링'의 적법성 [긱스]

https://www.hankyung.com/article/202404242738i

'여기어때' 사건으로 살펴본 '크롤링'의 적법성 [긱스]

'여기어때' 사건으로 살펴본 '크롤링'의 적법성 [긱스], 경제

www.hankyung.com

내용 : 숙박 플랫폼인 여기어때가 야놀자 앱의 숙박 정보를 무단으로 '크롤링' 하였다.

야놀자 API 서버에 약 1600만회 침입 => 2.246회나 DB를 복제 => 복제하는 동안 이용자들이 서버에 접속하지 못함.

결론 : 상대방 웹과 앱의 API 접근에 제한이 전혀 없고 크롤링할 정보도 누구나 어디서든 쉽게 구할 수 있는 정도의 정보라면 그 일부분만 크롤링할 경우 형사처벌 가능성은 상당히 낮지만 타회사가 노력으로 구축한 DB를 무임승차해영리적으로 이용한 것은 손해배상이 된다.

2. “중소기업 보안 AI가 지킨다” KT대구경북광역본부, AI기반 메일 보안솔루션 공급 속도낸다

https://news.zum.com/articles/90584655

“중소기업 보안 AI가 지킨다” KT대구경북광역본부, AI기반 메일 보안솔루션 공급 속도낸다

최근 중소기업을 대상으로 한 사이버공격이 기업 직원들의 이메일을 통한 악성 코드 전파 등 점차 지능화되면서 메일보안서비스에 대한 관심이 크게 높아졌다.

news.zum.com

내용 : KT에서 AI기반 메일 보안솔루션인 AI보안 상품을 출시하였다. 여기서 메일 본문에 삽입된 악성 URL을 탐지하는 데 사용하는 기술로 크롤링을 사용할 수 있지만 이는 AI 비전 기능을 활용해 실제 사람이 눈으로 보고 판별한 것처럼 정교한 구조로 변종 피싱 사이트도 판별할 수 있다.

결론 : KT의 AI메일보안서비스와 기업은행의 기업 인터넷·스마트뱅킹을 연계해 중소기업 이메일 해킹 피해를 예방하겠다는 취지이다.

3. 침해사고 대응부터 클라우드·AI까지…금융보안 전문교육 개설

https://n.news.naver.com/article/081/0003445737?sid=102

K이슈플랫폼은 사단법인 싱크탱크인 K정책플랫폼(이사장 전광우, 공동원장 정태용·박진)이 개최하는 월례 토론회이다. 다툼만 있고 해결이 없는 우리 사회에 합의를 통한 정책 방향을 제시한다

n.news.naver.com

수백만개의 기사를 허락 없이 AI 모델 학습에 사용해 NYT에 손해를 끼쳤다는 내용이다.

웹 크롤링(web crawling)을 통한 텍스트·데이터 마이닝(TDM) 학습을 어디까지 허용해야하나?

출처

https://www.tcpschool.com/webbasic/searchengine#:~:text=%EA%B2%80%EC%83%89%20%EC%97%94%EC%A7%84%EC%9D%98%20%EB%8F%99%EC%9E%91%20%EC%9B%90%EB%A6%AC&text=%EA%B2%80%EC%83%89%20%EC%97%94%EC%A7%84%EC%9D%80%20%EC%82%AC%EC%9A%A9%EC%9E%90%EA%B0%80%20%EA%B2%80%EC%83%89%20%EC%97%94%EC%A7%84%EC%9D%84%20%EC%82%AC%EC%9A%A9%ED%95%98%EA%B8%B0,%EB%93%A4%EC%9D%84%20%EC%B0%BE%EC%95%84%EC%84%9C%20%EB%B3%B4%EC%97%AC%EC%A3%BC%EB%8A%94%20%EA%B2%83%EC%9E%85%EB%8B%88%EB%8B%A4.

https://crear.kr/%EC%9B%B9%EC%97%90-%EB%8C%80%ED%95%9C-%EC%A7%80%EC%8B%9D-%EC%83%89%EC%9D%B8-index-%EC%9D%B8%EB%8D%B1%EC%8A%A4/

728x90