본문 바로가기
Data Analysis/Data Analysis & Image Processing

17. 웹 크롤링

by SeleniumBindingProtein 2022. 4. 16.
728x90
반응형
#Web Crawler

#웹 크롤러란 자동화된 방법으로 웹(Web)에서 다양한 정보를 수집하는 소프트웨어입니다.
#원하는 서비스에서 원하는 정보를 편하게 얻어올 수 있습니다.
#언어를 막론하고 구현할 수 있지만, 주로 Python을 이용합니다.
#특정 웹 사이트 HTML 코드 추출 ①

import requests

# 특정 URL에 접속하는 요청(Request) 객체를 생성합니다.
request = requests.get('http://www.dowellcomputer.com/main.jsp')

# 접속한 이후의 웹 사이트 소스코드를 추출합니다
html = request.text.strip()

print(html)

<!DOCTYPE html>
 
<html>
	<head>
		<link rel="stylesheet" type="text/css" href="./css/mainStyle.css">	
		<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
		<title>컴잘알</title>
	</head>
	<body>
		<div id="mainBox">
			<div id="titleBox">
				<a href="./main.jsp">컴잘알</a>
			</div>
			<div id="navigationBox">
				
						<a href="./member/memberLoginForm.jsp" class="basicButton">로그인</a>
						<a href="./member/memberJoinForm.jsp" class="basicButton">회원가입</a>
				
					<a href="./study/study.jsp" class="basicButton">공부방</a>
					<a href="./talk/talkListForm.jsp" class="basicButton">대화방</a>
					<a href="./notice/noticeListForm.jsp" class="basicButton">공지사항</a>
			</div>
			<hr style="border: 2px solid black;">
			<div class="slideshow-container"><br>
			  <div class="mySlides fade">
			    <img src="./image/mainOne.jpg" style="width:100%">
			  </div>
			  <div class="mySlides fade">
			    <img src="./image/mainTwo.jpg" style="width:100%">
			  </div>
			  <div class="mySlides fade">
			    <img src="./image/mainThree.jpg" style="width:100%">
			  </div>
			  <a class="prev" onclick="plusSlides(-1)">&#10094;</a>
			  <a class="next" onclick="plusSlides(1)">&#10095;</a>
			</div>
			<br>
			<div style="text-align:center">
			  <span class="dot" onclick="currentSlide(1)"></span> 
			  <span class="dot" onclick="currentSlide(2)"></span> 
			  <span class="dot" onclick="currentSlide(3)"></span> 
			</div>
			<script>
				var slideIndex = 1;
				showSlides(slideIndex);
				
				function plusSlides(n) {
				  showSlides(slideIndex += n);
				}
				
				function currentSlide(n) {
				  showSlides(slideIndex = n);
				}
				
				function showSlides(n) {
				  var i;
				  var slides = document.getElementsByClassName("mySlides");
				  var dots = document.getElementsByClassName("dot");
				  if (n > slides.length) {slideIndex = 1} 
				  if (n < 1) {slideIndex = slides.length}
				  for (i = 0; i < slides.length; i++) {
				      slides[i].style.display = "none"; 
				  }
				  for (i = 0; i < dots.length; i++) {
				      dots[i].className = dots[i].className.replace(" active", "");
				  }
				  slides[slideIndex-1].style.display = "block"; 
				  dots[slideIndex-1].className += " active";
				}
			</script>
			<br>
			<div id="viewBox">
				<table>
		        	<tr>
		        		<td class="head" colspan="4">
		        			최근 공지사항
		        		</td>
		        	</tr>				
				    <tr>
				        <td class="middle">
				        	아이디
				        </td>
				        <td class="middle" style="width: 320px;">
				        	제목
				        </td>
				        <td class="middle" style="width: 180px;">
				        	게시글 등록일
				        </td>		 		        	        		        		        
				    </tr>
				     
				    <tr> 
				    	<td class="tail" style="text-align: center;">나동빈</td>
				    	<td class="tail"><a href="./notice/noticeViewForm.jsp?noticeID=4"><b>자바 기초 프로그래밍 강좌를 완강했습니다.</b></a></td>
				    	<td class="tail" style="text-align: center;">2017-05-02
				    </tr>
				 
				    <tr> 
				    	<td class="tail" style="text-align: center;">나동빈</td>
				    	<td class="tail"><a href="./notice/noticeViewForm.jsp?noticeID=1"><b>컴잘알에 오신 것을 환영합니다.</b></a></td>
				    	<td class="tail" style="text-align: center;">2016-11-28
				    </tr>
				 
				</table>			
			</div>	
			<div class="studyViewBox">
				<table>
		        	<tr>
		        		<td class="head" colspan="3">
		        			최근 강의
		        		</td>
		        	</tr>				
				    <tr>
				        <td class="middle">
				        	선생님
				        </td>
				        <td class="middle" style="width: 560px;">
				        	제목
				        </td>
				        <td class="middle" style="width: 180px;">
				        	게시글 등록일
				        </td>		 		        	        		        		        
				    </tr>
				     
				    <tr> 
				    	<td class="tail" style="text-align: center;">나동빈</td>
				    	<td class="tail"><a href="./study/study.jsp?studyID=85"><b>C언어 기초 프로그래밍 강좌 20강 - 동적 메모리의 활용 (C Programming Tutorial For Beginners 2017 #20) </b></a></td>
				    	<td class="tail" style="text-align: center;">2017-05-15
				    </tr>
				 
				    <tr> 
				    	<td class="tail" style="text-align: center;">나동빈</td>
				    	<td class="tail"><a href="./study/study.jsp?studyID=84"><b>C언어 기초 프로그래밍 강좌 19강 - 동적 메모리 (C Programming Tutorial For Beginners 2017 #19) </b></a></td>
				    	<td class="tail" style="text-align: center;">2017-05-15
				    </tr>
				 
				    <tr> 
				    	<td class="tail" style="text-align: center;">나동빈</td>
				    	<td class="tail"><a href="./study/study.jsp?studyID=83"><b>C언어 기초 프로그래밍 강좌 18강 - 파일 입출력 (C Programming Tutorial For Beginners 2017 #18) </b></a></td>
				    	<td class="tail" style="text-align: center;">2017-05-15
				    </tr>
				 
				    <tr> 
				    	<td class="tail" style="text-align: center;">나동빈</td>
				    	<td class="tail"><a href="./study/study.jsp?studyID=82"><b>C언어 기초 프로그래밍 강좌 17강 - 구조체의 활용 ② (C Programming Tutorial For Beginners 2017 #17) </b></a></td>
				    	<td class="tail" style="text-align: center;">2017-05-15
				    </tr>
				 
				    <tr> 
				    	<td class="tail" style="text-align: center;">나동빈</td>
				    	<td class="tail"><a href="./study/study.jsp?studyID=81"><b>C언어 기초 프로그래밍 강좌 16강 - 구조체의 활용 ① (C Programming Tutorial For Beginners 2017 #16) </b></a></td>
				    	<td class="tail" style="text-align: center;">2017-05-15
				    </tr>
				 
				</table>
			</div>	
		</div>	
	</body>
</html>

 
# 특정 웹 사이트 HTML 코드 추출 ②

import requests
from bs4 import BeautifulSoup

# 특정 URL에 접속하는 요청(Request) 객체를 생성합니다.
request = requests.get('http://www.dowellcomputer.com/main.jsp')
# 접속한 이후의 웹 사이트 소스코드를 추출합니다.
html = request.text
# HTML 소스코드를 파이썬 BeatifulSoup 객체로 변환합니다.
soup = BeautifulSoup(html, 'html.parser')

# <a> 태그를 포함하는 요소를 추출합니다.
links = soup.select('td > a')

# 모든 링크에 하나씩 접근합니다.
for link in links:
  # 링크가 href 속성을 가지고 있다면
  if link.has_attr('href'):
    # href 속성의 값으로 notice라는 문자가 포함되어 있다면
    if link.get('href').find('notice') != -1:
      print(link.text)

자바 기초 프로그래밍 강좌를 완강했습니다.
컴잘알에 오신 것을 환영합니다.

# 특정 웹 사이트 HTML 코드 추출 ②

import requests
from bs4 import BeautifulSoup

# 특정 URL에 접속하는 요청(Request) 객체를 생성합니다.
request = requests.get('http://www.dowellcomputer.com/main.jsp')
# 접속한 이후의 웹 사이트 소스코드를 추출합니다.
html = request.text
# HTML 소스코드를 파이썬 BeatifulSoup 객체로 변환합니다.
soup = BeautifulSoup(html, 'html.parser')

# <td> 태그를 포함하는 요소를 추출합니다.
links = soup.select('tr > td')

# 모든 링크에 하나씩 접근합니다.
for link in links:
      print(link.text)

		        			최근 공지사항
		        		

				        	아이디
				        

				        	제목
				        

				        	게시글 등록일
				        
나동빈
자바 기초 프로그래밍 강좌를 완강했습니다.
2017-05-02
				    
나동빈
컴잘알에 오신 것을 환영합니다.
2016-11-28
				    

		        			최근 강의
		        		

				        	선생님
				        

				        	제목
				        

				        	게시글 등록일
				        
나동빈
C언어 기초 프로그래밍 강좌 20강 - 동적 메모리의 활용 (C Programming Tutorial For Beginners 2017 #20) 
2017-05-15
				    
나동빈
C언어 기초 프로그래밍 강좌 19강 - 동적 메모리 (C Programming Tutorial For Beginners 2017 #19) 
2017-05-15
				    
나동빈
C언어 기초 프로그래밍 강좌 18강 - 파일 입출력 (C Programming Tutorial For Beginners 2017 #18) 
2017-05-15
				    
나동빈
C언어 기초 프로그래밍 강좌 17강 - 구조체의 활용 ② (C Programming Tutorial For Beginners 2017 #17) 
2017-05-15
				    
나동빈
C언어 기초 프로그래밍 강좌 16강 - 구조체의 활용 ① (C Programming Tutorial For Beginners 2017 #16) 
2017-05-15
				    
728x90
반응형

댓글