웹 크롤링 & 검색 엔진 (웹 크롤링과 검색 엔진의 차이)
앞서 웹크롤링에 대해 설명한 적이 있다.
간략히 말하면
웹 크롤링은 웹상의 정보들을 탐색하고 수집하는 작업을 의미한다.
자세한 내용 : https://jdawoni.tistory.com/11
웹 크롤링
https://wikidocs.net/135794 3-8. 웹크롤링# 1. 웹 (Web) **Web은** **World Wide Web의 줄임말**입니다. 우리가 인터넷 웹사이트의 주소를 칠 때 'www.google.com' 이런 식으로 입…wikidocs.net 1. 웹 크롤링 정의웹 (Web) :
jdawoni.tistory.com
표면적으로만 봤을 때 평소에 우리가 네이버나 구글 등과 같은 검색 엔진에서 검색하는 것과 차이가 없다고 느껴지며 크롤링을 통해 오히려 왜 더 복잡하고 귀찮게 검색하는 것인지 이해하지 못할 것이다.
이 차이를 알기 위해서 우리는 검색 엔진 동작 원리에 대해 알아갈 것이다.
검색엔진 동작 원리
검색 엔진은 사용자가 검색 엔진을 사용하기 전에 미리 웹 상에서 정보를 수집하여 색인을 만들어 놓는다.
그리고나서 사용자가 찾고자 하는 정보의 키워드를 입력하면, 미리 만들어 놓은 색인 중에서 입력된 키워드에 해당하는 정보들을 찾아서 보여주는 것이다.
여기서 웹 크롤링을 통해 웹상의 방대한 정보들을 검색, 색인화하는 과정을 거친다.
이러한 크롤러가 주기적으로 웹에 접속된 사이트들을 방문하여
해당 웹 사이트가 가지고 있는 정보에 대해 색인을 작성한 후
그것을 데이터베이스에 저장하여 검색 시 활용하게 된다.
*색인(index) : 알아보기 쉽도록 표시해둔 목록
<결론>
검색 엔진은 웹 크롤링을 통해 정보 분류를 거쳐 사용되는 것이며 웹 크롤링은 검색 엔진 이전에 거쳐지는 방대한 양의 정보를 탐색하는 과정이라고 생각하면 된다.
웹 크롤링과 웹 스크래핑의 차이
웹 크롤링 : 검색창에 키워드를 입력하면 해당 포털의 URL을 지닌 페이지뿐만 아니라 외부 사이트 링크도 본문의 요약본과 함께 노출되는 것을 확인할 수 있음.
웹 스크래핑 : 특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것을 의미함.
크롤링관련 기사
1. '여기어때' 사건으로 살펴본 '크롤링'의 적법성 [긱스]
https://www.hankyung.com/article/202404242738i
'여기어때' 사건으로 살펴본 '크롤링'의 적법성 [긱스]
'여기어때' 사건으로 살펴본 '크롤링'의 적법성 [긱스], 경제
www.hankyung.com
내용 : 숙박 플랫폼인 여기어때가 야놀자 앱의 숙박 정보를 무단으로 '크롤링' 하였다.
야놀자 API 서버에 약 1600만회 침입 => 2.246회나 DB를 복제 => 복제하는 동안 이용자들이 서버에 접속하지 못함.
결론 : 상대방 웹과 앱의 API 접근에 제한이 전혀 없고 크롤링할 정보도 누구나 어디서든 쉽게 구할 수 있는 정도의 정보라면 그 일부분만 크롤링할 경우 형사처벌 가능성은 상당히 낮지만 타회사가 노력으로 구축한 DB를 무임승차해영리적으로 이용한 것은 손해배상이 된다.
2. “중소기업 보안 AI가 지킨다” KT대구경북광역본부, AI기반 메일 보안솔루션 공급 속도낸다
https://news.zum.com/articles/90584655
“중소기업 보안 AI가 지킨다” KT대구경북광역본부, AI기반 메일 보안솔루션 공급 속도낸다
최근 중소기업을 대상으로 한 사이버공격이 기업 직원들의 이메일을 통한 악성 코드 전파 등 점차 지능화되면서 메일보안서비스에 대한 관심이 크게 높아졌다.
news.zum.com
내용 : KT에서 AI기반 메일 보안솔루션인 AI보안 상품을 출시하였다. 여기서 메일 본문에 삽입된 악성 URL을 탐지하는 데 사용하는 기술로 크롤링을 사용할 수 있지만 이는 AI 비전 기능을 활용해 실제 사람이 눈으로 보고 판별한 것처럼 정교한 구조로 변종 피싱 사이트도 판별할 수 있다.
결론 : KT의 AI메일보안서비스와 기업은행의 기업 인터넷·스마트뱅킹을 연계해 중소기업 이메일 해킹 피해를 예방하겠다는 취지이다.
3. 침해사고 대응부터 클라우드·AI까지…금융보안 전문교육 개설
https://n.news.naver.com/article/081/0003445737?sid=102
“데이터 뱅크로 저작권자 보호… 딥페이크 등 AI 범죄는 가중처벌”[K이슈 플랫폼]
K이슈플랫폼은 사단법인 싱크탱크인 K정책플랫폼(이사장 전광우, 공동원장 정태용·박진)이 개최하는 월례 토론회이다. 다툼만 있고 해결이 없는 우리 사회에 합의를 통한 정책 방향을 제시한다
n.news.naver.com
내용 : 지난해 12월 오픈AI사와 마이크로소프트(MS)는 미국의 뉴욕타임스(NYT)로부터 저작권 침해 소송을 당했다.
수백만개의 기사를 허락 없이 AI 모델 학습에 사용해 NYT에 손해를 끼쳤다는 내용이다.
웹 크롤링(web crawling)을 통한 텍스트·데이터 마이닝(TDM) 학습을 어디까지 허용해야하나?
결론 : 공개 데이터에 대해서는 저작권 주체의 데이터를 보관하는 데이터 뱅크를 설립하고 이 뱅크들이 저작권자를 대신해 AI사와 계약을 맺는 방식은 어떠한가라는 이야기가 나왔다.
출처