카테고리 없음

웹 크롤링 & 검색 엔진 (웹 크롤링과 검색 엔진의 차이)

ekdnjs510 2024. 5. 14. 00:22
728x90


앞서 웹크롤링에 대해 설명한 적이 있다.

 

간략히 말하면

웹 크롤링 웹상의 정보들을 탐색하고 수집하는 작업을 의미한다.

 

자세한 내용 :  https://jdawoni.tistory.com/11

 

웹 크롤링

https://wikidocs.net/135794 3-8. 웹크롤링# 1. 웹 (Web) **Web은** **World Wide Web의 줄임말**입니다. 우리가 인터넷 웹사이트의 주소를 칠 때 'www.google.com' 이런 식으로 입…wikidocs.net 1. 웹 크롤링 정의웹 (Web) :

jdawoni.tistory.com

 

 

 

표면적으로만 봤을 때 평소에 우리가 네이버나 구글 등과 같은 검색 엔진에서 검색하는 것과 차이가 없다고 느껴지며 크롤링을 통해 오히려 왜 더 복잡하고 귀찮게 검색하는 것인지 이해하지 못할 것이다.

이 차이를 알기 위해서 우리는 검색 엔진 동작 원리에 대해 알아갈 것이다.

 

검색엔진 동작 원리

검색 엔진은 사용자가 검색 엔진을 사용하기 전 미리 웹 상에서 정보를 수집하여 색인을 만들어 놓는다.

그리고나서 사용자가 찾고자 하는 정보의 키워드를 입력하면, 미리 만들어 놓은 색인 중에서 입력된 키워드에 해당하는 정보들을 찾아서 보여주는 것이다.

 

여기서 웹 크롤링을 통해 웹상의 방대한 정보들을 검색, 색인화하는 과정을 거친다. 

이러한 크롤러가 주기적으로 웹에 접속된 사이트들을 방문하여

해당 웹 사이트가 가지고 있는 정보에 대해 색인을 작성한 후

그것을 데이터베이스에 저장하여 검색 시 활용하게 된다.

 

*색인(index) : 알아보기 쉽도록 표시해둔 목록

 

출처 : TCP School

 

<결론>

검색 엔진은 웹 크롤링을 통해 정보 분류를 거쳐 사용되는 것이며 웹 크롤링은 검색 엔진 이전에 거쳐지는 방대한 양의 정보를 탐색하는 과정이라고 생각하면 된다.

 


웹 크롤링 웹 스크래핑의 차이

웹 크롤링 : 검색창에 키워드를 입력하면 해당 포털의 URL을 지닌 페이지뿐만 아니라 외부 사이트 링크도 본문의 요약본과 함께 노출되는 것을 확인할 수 있음.

 

웹 스크래핑 : 특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것을 의미함.

 


크롤링관련 기사

 

1. '여기어때' 사건으로 살펴본 '크롤링'의 적법성 [긱스]

 

https://www.hankyung.com/article/202404242738i

 

'여기어때' 사건으로 살펴본 '크롤링'의 적법성 [긱스]

'여기어때' 사건으로 살펴본 '크롤링'의 적법성 [긱스], 경제

www.hankyung.com

 

 

내용 : 숙박 플랫폼인 여기어때가 야놀자 앱의 숙박 정보를 무단으로 '크롤링' 하였다.

야놀자 API 서버에 약 1600만회 침입 => 2.246회나 DB를 복제 => 복제하는 동안 이용자들이 서버에 접속하지 못함.

결론 : 상대방 웹과 앱의 API 접근에 제한이 전혀 없고 크롤링할 정보도 누구나 어디서든 쉽게 구할 수 있는 정도의 정보라면 그 일부분만 크롤링할 경우 형사처벌 가능성은 상당히 낮지만 타회사가 노력으로 구축한 DB를 무임승차해영리적으로 이용한 것은 손해배상이 된다.

 

 

2. “중소기업 보안 AI가 지킨다” KT대구경북광역본부, AI기반 메일 보안솔루션 공급 속도낸다

https://news.zum.com/articles/90584655

 

“중소기업 보안 AI가 지킨다” KT대구경북광역본부, AI기반 메일 보안솔루션 공급 속도낸다

최근 중소기업을 대상으로 한 사이버공격이 기업 직원들의 이메일을 통한 악성 코드 전파 등 점차 지능화되면서 메일보안서비스에 대한 관심이 크게 높아졌다.

news.zum.com

 

 

내용 : KT에서 AI기반 메일 보안솔루션인 AI보안 상품을 출시하였다. 여기서 메일 본문에 삽입된 악성 URL을 탐지하는 데 사용하는 기술로 크롤링을 사용할 수 있지만 이는 AI 비전 기능을 활용해 실제 사람이 눈으로 보고 판별한 것처럼 정교한 구조로 변종 피싱 사이트도 판별할 수 있다.

결론 :  KT의 AI메일보안서비스와 기업은행의 기업 인터넷·스마트뱅킹을 연계해 중소기업 이메일 해킹 피해를 예방하겠다는 취지이다.

 

 

3. 침해사고 대응부터 클라우드·AI까지…금융보안 전문교육 개설

https://n.news.naver.com/article/081/0003445737?sid=102

 

“데이터 뱅크로 저작권자 보호… 딥페이크 등 AI 범죄는 가중처벌”[K이슈 플랫폼]

K이슈플랫폼은 사단법인 싱크탱크인 K정책플랫폼(이사장 전광우, 공동원장 정태용·박진)이 개최하는 월례 토론회이다. 다툼만 있고 해결이 없는 우리 사회에 합의를 통한 정책 방향을 제시한다

n.news.naver.com

 

 

 

내용 : 지난해 12월 오픈AI사와 마이크로소프트(MS)는 미국의 뉴욕타임스(NYT)로부터 저작권 침해 소송을 당했다.

수백만개의 기사를 허락 없이 AI 모델 학습에 사용해 NYT에 손해를 끼쳤다는 내용이다.

 웹 크롤링(web crawling)을 통한 텍스트·데이터 마이닝(TDM) 학습을 어디까지 허용해야하나?

결론 : 공개 데이터에 대해서는 저작권 주체의 데이터를 보관하는 데이터 뱅크를 설립하고 이 뱅크들이 저작권자를 대신해 AI사와 계약을 맺는 방식은 어떠한가라는 이야기가 나왔다.

 

 


 

 

출처

 

 

https://www.tcpschool.com/webbasic/searchengine#:~:text=%EA%B2%80%EC%83%89%20%EC%97%94%EC%A7%84%EC%9D%98%20%EB%8F%99%EC%9E%91%20%EC%9B%90%EB%A6%AC&text=%EA%B2%80%EC%83%89%20%EC%97%94%EC%A7%84%EC%9D%80%20%EC%82%AC%EC%9A%A9%EC%9E%90%EA%B0%80%20%EA%B2%80%EC%83%89%20%EC%97%94%EC%A7%84%EC%9D%84%20%EC%82%AC%EC%9A%A9%ED%95%98%EA%B8%B0,%EB%93%A4%EC%9D%84%20%EC%B0%BE%EC%95%84%EC%84%9C%20%EB%B3%B4%EC%97%AC%EC%A3%BC%EB%8A%94%20%EA%B2%83%EC%9E%85%EB%8B%88%EB%8B%A4.

https://crear.kr/%EC%9B%B9%EC%97%90-%EB%8C%80%ED%95%9C-%EC%A7%80%EC%8B%9D-%EC%83%89%EC%9D%B8-index-%EC%9D%B8%EB%8D%B1%EC%8A%A4/

728x90