#뉴스 #API #최신 #크롤링 #파이썬 #스크래핑 #NAVER #사용 #추출 #삼성전자 #삼성전자 뉴스정리 #삼성전자 뉴스요약 #삼성전자 네이버 뉴스
블로그를 본격적으로 다시 시작하는 겸...
오랜만에 글을 업로드 해보려고합니다.
파이썬으로 NAVER 뉴스를 크롤링하는 코드입니다.
여러 방식이 많겠지만, 초간단 ASAP로 활용 가능하게 방법을 공유드리는 것이 목적입니다.
(사실 원리는 저도 잘 몰라요 ~)
#뉴스 #API #최신 #크롤링 #파이썬 #스크래핑 #NAVER #사용 #추출 #삼성전자 #삼성전자 뉴스정리 #삼성전자 뉴스요약 #삼성전자 네이버 뉴스
목적
이번 게시글의 목적은 google colab, 네이버 개발자 센터를 활용하여
관심있는 주식과 관련된 최신 뉴스 기사를 스크래핑 하는 것입니다.
직접 네이버에 검색해도 되지만, 원하는 기업의 제목,링크,요약내용,업로드 날짜 등을
추출하여 직접 엑셀에 저장하여 관리 할 수 있는 용도입니다.
특히 기업분석에 용이할 것이라고 생각합니다.
결과물
과정
1. 네이버 개발자 센터 API 등록 및 가입
https://developers.naver.com/main/
NAVER Developers
네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음
developers.naver.com
네이버 아이디로 로그인 한 뒤에 서비스 API 버튼을 누르시고 애플리케이션 등록으로 이동합니다.
↓
https://developers.naver.com/apps/#/register
애플리케이션 - NAVER Developers
developers.naver.com
위에 작성한 것처럼 그대로 작성하여 등록하기를 눌러줍니다.
그후 내 애플리케이션의 개요에 들어가서 Client ID와 Secret key 복사하여 저장해둡니다.
* 해당 ID와 key를 통해서 파이썬 코드에 기입해주어야 네이버 검색 API가 정상 작동합니다.
#뉴스 #API #최신 #크롤링 #파이썬 #스크래핑 #NAVER #사용 #추출 #삼성전자 #삼성전자 뉴스정리 #삼성전자 뉴스요약 #삼성전자 네이버 뉴스
2. Google Colabe 가입
https://colab.research.google.com/
Google Colab
colab.research.google.com
google colab 에서 파이선 환경으로 코드를 작동시킬 것입니다.
따로 코드를 위해 파일을 설치하거나 할 필요 없이 가상환경으로 작동가능합니다.
#뉴스 #API #최신 #크롤링 #파이썬 #스크래핑 #NAVER #사용 #추출 #삼성전자 #삼성전자 뉴스정리 #삼성전자 뉴스요약 #삼성전자 네이버 뉴스
3. Google Colabe 실행
google colab을 실행했다면 빨간색 테두리에 있는 부분에 코드를 입력해주고
왼쪽에 있는 실행 버튼을 누르면 코드가 실행됩니다.
#뉴스 #API #최신 #크롤링 #파이썬 #스크래핑 #NAVER #사용 #추출 #삼성전자 #삼성전자 뉴스정리 #삼성전자 뉴스요약 #삼성전자 네이버 뉴스
4. 파이선 코드 (NAVER 뉴스 검색 크롤링)
# 네이버 API 인증 정보
client_id = "저장해두었던_id"
client_secret = "저장해두었던_키"
import urllib.request
import json
# 검색할 키워드 설정 (UTF-8 인코딩)
encText = urllib.parse.quote("삼성전자")
# 뉴스 검색 API URL 설정 (날짜순 정렬, 10개의 기사 요청)
url = "https://openapi.naver.com/v1/search/news?query=" + encText + "&display=10&sort=sim" # 정확도순, 10개의 기사
# API 요청 설정
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id", client_id)
request.add_header("X-Naver-Client-Secret", client_secret)
# API 호출 및 응답 처리
response = urllib.request.urlopen(request)
rescode = response.getcode()
if rescode == 200:
response_body = response.read().decode('utf-8')
# JSON 데이터를 파싱
news_data = json.loads(response_body)
# 각 뉴스 아이템에서 필요한 정보를 추출하고 출력
for item in news_data['items']:
title = item['title'].replace('<b>', '').replace('</b>', '') # HTML 태그 제거
link = item['link']
description = item['description'].replace('<b>', '').replace('</b>', '')
pubDate = item['pubDate']
print(f"Title: {title}")
print(f"Link: {link}")
print(f"Description: {description}")
print(f"Published Date: {pubDate}")
print("\n")
else:
print("Error Code:" + str(rescode))
#뉴스 #API #최신 #크롤링 #파이썬 #스크래핑 #NAVER #사용 #추출 #삼성전자 #삼성전자 뉴스정리 #삼성전자 뉴스요약 #삼성전자 네이버 뉴스
실행결과
궁금하신 내용 있다면 댓글 부탁드립니다.
초간단 네이버 API, google colab 을 활용한
뉴스 스크래핑이었습니다.
궁금하신 내용 있다면 댓글 부탁드립니다.
#뉴스 #API #최신 #크롤링 #파이썬 #스크래핑 #NAVER #사용 #추출 #삼성전자 #삼성전자 뉴스정리 #삼성전자 뉴스요약 #삼성전자 네이버 뉴스