데이터의 중요성과 활용 : 정형, 비정형, 반정형 데이터 및 데이터 인사이트의 가치 (데이터 수집 방법과 크롤링, 스크래핑 도구 소개)

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

공부 기록장

데이터의 중요성과 활용 : 정형, 비정형, 반정형 데이터 및 데이터 인사이트의 가치 (데이터 수집 방법과 크롤링, 스크래핑 도구 소개) 본문

카카오테크 부트캠프/강의

데이터의 중요성과 활용 : 정형, 비정형, 반정형 데이터 및 데이터 인사이트의 가치 (데이터 수집 방법과 크롤링, 스크래핑 도구 소개)

빛나무 2024. 7. 17. 22:56

데이터

의사결정 및 분석을 위한 원자재

데이터의 중요성

빅데이터 시대에 AI를 사용해 의사결정 도구로 활용될 수 있고, 데이터 중심 사고를 도와준다

정형 데이터와 비정형 데이터 (+ 반정형 데이터)

정형 데이터

- 구조화된 형식과 고정된 스키마

- 무결성

- 효율적인 저장과 관리

- 데이터 분석에 용이

- 유연성 부족

- RDBMS

비정형 데이터

- 텍스트, 이미지, 동영상 등 다양한 데이터 유형

- 고정된 스키마나 구조 X

- 대용량 (풍부한 정보량)

- 저장 및 분석 어려움

- 일관성 없는 품질

- NoSQL

반정형 데이터

- 일정한 구조 O, 고정된 형식 X

- 자기 설명적

- 정형 비정형 데이터의 장단점 공유

- JSON, XML

데이터 인사이트란?

데이터 분석을 통해 도출된 유용한 통찰이나 정보, 단순한 해석값 이상의 의미를 값는 정보

데이터 인사이트가 왜 중요한가?

데이터 분석가 → 데이터 기반의 의사결정
AI 개발자 → 모델 성능 및 데이터 품질 개선

⇒ 데이터 분석과 AI의 궁극적인 목표는 유의미한 인사이트 도출

⇒ 다양한 이해관계자가 인사이트를 활용해 의사결정과 혁신을 이끌어내는 것이 중요

내부 데이터 vs 외부 데이터

내부 데이터

- 내부 시스템에서 수집

- 영업, 고객, 트랜잭션 데이터

- 소스코드, 사원 정보

외부 데이터

- 외부 시스템의 데이터

- 공공 데이터

- 시장, 조사 데이터

데이터 수집 방법

OpenAPI

- 누구나 접근 가능한 개방된 API

- 구조화된 데이터 제공

- API 키로 인증 필요

Open Data

- 누구나 접근할 수 있도록 공개된 데이터

- 정부, 기관, 단체 등에서 제공

크롤링

- 자동화된 스크립트를 사용해 웹 페이지를 탐색 및 데이터 수집

- 전체 사이트 또는 다수의 페이지 탐색

- 검색 엔진의 크롤러와 유사

스크래핑

- 특정 웹 페이지에서 필요한 데이터 추출

- 웹 크롤링의 하위 집합으로서, 특정 데이터만 추출

크롤링과 스크래핑에 사용되는 `개발 툴`

request : HTTP 요청을 보내고 응답을 받는 라이브러리
BeautifulSoup : HTML 및 XML 문서를 파싱해 원하는 데이터를 추출하는 라이브러리
Scrapy : 크롤링 및 스크래핑을 위한 프레임워크 (정적 웹 크롤링에 강점)
Selenium : 웹 브라우저 자동화를 위한 라이브러리 (동적 웹 스크래핑 강점)

'카카오테크 부트캠프 > 강의' 카테고리의 다른 글

언어 모델의 종류와 평가, RAG 아키텍처 (0)	2024.07.30
LLM과 프롬프트 엔지니어링(Prompt Engineering) (0)	2024.07.26
PyTorch, Seq2Seq, 오토인코더, GAN, 하이퍼 파라미터 튜닝의 이해 (2)	2024.07.24
자연어 처리 이해하기 : NLP, RNN, LSTM, GRU의 원리와 활용 (3)	2024.07.23
딥러닝의 기초 개념과 최적화 방법 : 경사하강법의 종류와 선택 기준 (0)	2024.07.18

'카카오테크 부트캠프/강의' Related Articles

공부 기록장

데이터의 중요성과 활용 : 정형, 비정형, 반정형 데이터 및 데이터 인사이트의 가치 (데이터 수집 방법과 크롤링, 스크래핑 도구 소개) 본문

데이터의 중요성과 활용 : 정형, 비정형, 반정형 데이터 및 데이터 인사이트의 가치 (데이터 수집 방법과 크롤링, 스크래핑 도구 소개)

데이터

데이터의 중요성

정형 데이터와 비정형 데이터 (+ 반정형 데이터)

데이터 인사이트란?

데이터 인사이트가 왜 중요한가?

내부 데이터 vs 외부 데이터

데이터 수집 방법

크롤링과 스크래핑에 사용되는 `개발 툴`

'카카오테크 부트캠프 > 강의' 카테고리의 다른 글

티스토리툴바