공부 기록장

데이터의 중요성과 활용 : 정형, 비정형, 반정형 데이터 및 데이터 인사이트의 가치 (데이터 수집 방법과 크롤링, 스크래핑 도구 소개) 본문

카카오테크 부트캠프/강의

데이터의 중요성과 활용 : 정형, 비정형, 반정형 데이터 및 데이터 인사이트의 가치 (데이터 수집 방법과 크롤링, 스크래핑 도구 소개)

빛나무 2024. 7. 17. 22:56

데이터

의사결정 및 분석을 위한 원자재

 

데이터의 중요성

빅데이터 시대에 AI를 사용해 의사결정 도구로 활용될 수 있고, 데이터 중심 사고를 도와준다

 

정형 데이터와 비정형 데이터 (+ 반정형 데이터)

정형 데이터

- 구조화된 형식과 고정된 스키마

- 무결성

- 효율적인 저장과 관리

- 데이터 분석에 용이

- 유연성 부족

- RDBMS

 

비정형 데이터

- 텍스트, 이미지, 동영상 등 다양한 데이터 유형

- 고정된 스키마나 구조 X

- 대용량 (풍부한 정보량)

- 저장 및 분석 어려움

- 일관성 없는 품질

- NoSQL

 

반정형 데이터

- 일정한 구조 O, 고정된 형식 X

- 자기 설명적

- 정형 비정형 데이터의 장단점 공유

- JSON, XML

 

데이터 인사이트란?

데이터 분석을 통해 도출된 유용한 통찰이나 정보, 단순한 해석값 이상의 의미를 값는 정보

 

데이터 인사이트가 왜 중요한가?

  • 데이터 분석가 → 데이터 기반의 의사결정
  • AI 개발자 → 모델 성능 및 데이터 품질 개선

⇒ 데이터 분석과 AI의 궁극적인 목표는 유의미한 인사이트 도출

⇒ 다양한 이해관계자가 인사이트를 활용해 의사결정과 혁신을 이끌어내는 것이 중요

 

내부 데이터  vs  외부 데이터

내부 데이터

- 내부 시스템에서 수집

- 영업, 고객, 트랜잭션 데이터

- 소스코드, 사원 정보

 

외부 데이터

- 외부 시스템의 데이터

- 공공 데이터

- 시장, 조사 데이터

 

데이터 수집 방법

OpenAPI

- 누구나 접근 가능한 개방된 API

- 구조화된 데이터 제공

- API 키로 인증 필요

 

Open Data

- 누구나 접근할 수 있도록 공개된 데이터

- 정부, 기관, 단체 등에서 제공

 

크롤링

- 자동화된 스크립트를 사용해 웹 페이지를 탐색 및 데이터 수집

- 전체 사이트 또는 다수의 페이지 탐색

- 검색 엔진의 크롤러와 유사

 

스크래핑

- 특정 웹 페이지에서 필요한 데이터 추출

- 웹 크롤링의 하위 집합으로서, 특정 데이터만 추출

 

크롤링과 스크래핑에 사용되는 `개발 툴`

  • request : HTTP 요청을 보내고 응답을 받는 라이브러리
  • BeautifulSoup : HTML 및 XML 문서를 파싱해 원하는 데이터를 추출하는 라이브러리
  • Scrapy : 크롤링 및 스크래핑을 위한 프레임워크 (정적 웹 크롤링에 강점)
  • Selenium : 웹 브라우저 자동화를 위한 라이브러리 (동적 웹 스크래핑 강점)