공부 기록장
데이터의 중요성과 활용 : 정형, 비정형, 반정형 데이터 및 데이터 인사이트의 가치 (데이터 수집 방법과 크롤링, 스크래핑 도구 소개) 본문
데이터의 중요성과 활용 : 정형, 비정형, 반정형 데이터 및 데이터 인사이트의 가치 (데이터 수집 방법과 크롤링, 스크래핑 도구 소개)
빛나무 2024. 7. 17. 22:56데이터
의사결정 및 분석을 위한 원자재
데이터의 중요성
빅데이터 시대에 AI를 사용해 의사결정 도구로 활용될 수 있고, 데이터 중심 사고를 도와준다
정형 데이터와 비정형 데이터 (+ 반정형 데이터)
정형 데이터
- 구조화된 형식과 고정된 스키마
- 무결성
- 효율적인 저장과 관리
- 데이터 분석에 용이
- 유연성 부족
- RDBMS
비정형 데이터
- 텍스트, 이미지, 동영상 등 다양한 데이터 유형
- 고정된 스키마나 구조 X
- 대용량 (풍부한 정보량)
- 저장 및 분석 어려움
- 일관성 없는 품질
- NoSQL
반정형 데이터
- 일정한 구조 O, 고정된 형식 X
- 자기 설명적
- 정형 비정형 데이터의 장단점 공유
- JSON, XML
데이터 인사이트란?
데이터 분석을 통해 도출된 유용한 통찰이나 정보, 단순한 해석값 이상의 의미를 값는 정보
데이터 인사이트가 왜 중요한가?
- 데이터 분석가 → 데이터 기반의 의사결정
- AI 개발자 → 모델 성능 및 데이터 품질 개선
⇒ 데이터 분석과 AI의 궁극적인 목표는 유의미한 인사이트 도출
⇒ 다양한 이해관계자가 인사이트를 활용해 의사결정과 혁신을 이끌어내는 것이 중요
내부 데이터 vs 외부 데이터
내부 데이터
- 내부 시스템에서 수집
- 영업, 고객, 트랜잭션 데이터
- 소스코드, 사원 정보
외부 데이터
- 외부 시스템의 데이터
- 공공 데이터
- 시장, 조사 데이터
데이터 수집 방법
OpenAPI
- 누구나 접근 가능한 개방된 API
- 구조화된 데이터 제공
- API 키로 인증 필요
Open Data
- 누구나 접근할 수 있도록 공개된 데이터
- 정부, 기관, 단체 등에서 제공
크롤링
- 자동화된 스크립트를 사용해 웹 페이지를 탐색 및 데이터 수집
- 전체 사이트 또는 다수의 페이지 탐색
- 검색 엔진의 크롤러와 유사
스크래핑
- 특정 웹 페이지에서 필요한 데이터 추출
- 웹 크롤링의 하위 집합으로서, 특정 데이터만 추출
크롤링과 스크래핑에 사용되는 `개발 툴`
- request : HTTP 요청을 보내고 응답을 받는 라이브러리
- BeautifulSoup : HTML 및 XML 문서를 파싱해 원하는 데이터를 추출하는 라이브러리
- Scrapy : 크롤링 및 스크래핑을 위한 프레임워크 (정적 웹 크롤링에 강점)
- Selenium : 웹 브라우저 자동화를 위한 라이브러리 (동적 웹 스크래핑 강점)
'카카오테크 부트캠프 > 강의' 카테고리의 다른 글
언어 모델의 종류와 평가, RAG 아키텍처 (0) | 2024.07.30 |
---|---|
LLM과 프롬프트 엔지니어링(Prompt Engineering) (0) | 2024.07.26 |
PyTorch, Seq2Seq, 오토인코더, GAN, 하이퍼 파라미터 튜닝의 이해 (2) | 2024.07.24 |
자연어 처리 이해하기 : NLP, RNN, LSTM, GRU의 원리와 활용 (3) | 2024.07.23 |
딥러닝의 기초 개념과 최적화 방법 : 경사하강법의 종류와 선택 기준 (0) | 2024.07.18 |