데이터
데이터의 정의
- 관찰을 통해 수집되는 특성 또는 정보이며 현재의 팩트가 정량적으로 기록된 정보
- 데이터는 측정, 수집 및 보고, 분석되며 그래프나 이미지, 기타 분석 도구를 통해 시각화가 가능함
DIKW Pyramid
- Wisdom: 지식에 상황이나 의미 부여
- Knowlege: 정보 기반으로 찾은 패턴이나 규칙
- Information: Process Data, 처리 및 가공된 데이터
- Data: Raw Data, 관찰 또는 측정된 객관적 사실
피라미드를 올라갈수록 데이터가 많이 정제되고 그 가치가 올라감
빅데이터 vs 공공데이터 vs 연구데이터
- 빅데이터: 기존 DB 관리 능력을 넘어서는 대량의 정형/비정형 데이터를 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술
- 공공데이터: DB, 전자화된 파일 등 공공기관이 법령 등에서 정하는 목적을 위해 생성/취득하여 관리하는 광光/전자적 방식으로 처리된 자료나 정보
- 연구데이터: 국가 연구개발사업의 각종 실험, 관찰, 조사, 분석 등을 통해 산출된 자료로 연구 성과의 재현에 필수적이고 객관적인 사실 데이터
빅데이터가 '대량의 데이터'라면, 데이터 크기가 중요한가?
빅데이터는 데이터 과학이 필요하지만, 데이터 과학 자체에서 빅데이터가 꼭 있어야 하는 것은 아님. 대량의 데이터로서 패턴이나 규칙을 추출해 내는 것이 용이하긴 하지만 데이터의 사이즈보다 그 질이 훨씬 중요하다고 함
데이터 자본의 등장과 데이터 자본의 3원칙
데이터 자본: 금전적 자본인 산업 경제에서 데이터 기반 산업 혁신으로 변화하며 데이터 자본 주의라는 개념이 생겨남. 생산의 3요소인 토지, 노동, 자본에 데이터가 추가된 것.
- 활동 데이터 활용: 활동 데이터를 수집 및 활용하여 가치를 창출
- 더 많은 데이터 재생성: 데이터 자본의 플라이휠 효과 극대화를 위해 조사 및 투자를 수행
- 플랫폼 기반 가치 창출: 데이터 기반 플랫폼을 구축하여 가치 극대화
데이터 3법
- 데이터 3법은 개인정보보호법, 정보통신망법, 신용정보법 등 3개 법률을 총칭
- 개인 정보를 보호할 수 있느냐 없느냐가 핵심
- 익명 정보에서 가명 정보로 수준을 낮춤
- 데이터 시장과 산업을 더욱 발전시킬 수 있는 계기가 될 것
디지털 뉴딜 정책
- 2020년 7월 14일, 한국판 뉴딜 국민보고대회를 통해 '한국판 뉴딜 종합 계획'이 발표됨
- 코로나 19 이후 수출 침체가 심해지며 경제 전반이 위기를 맞게 되고, 디지털 산업의 육성을 통해 기술 혁신을 이어나가는 것의 중요성이 커짐
- D.N.A(Data, Network, A.I) 기술에 기본을 둚
www.korea.kr/special/policyCurationView.do?newsId=148874860
[정책위키] 한눈에 보는 정책 - 한국판 뉴딜
1. 한국판 뉴딜이란?2.디지털 뉴딜, 그린뉴딜, 안전망 강화3.한국판 뉴딜 주요 추진과제4.참고자료 1. 한국판 뉴딜이란?코로나19로 인해 최악의 경기침체와 일자리 충격 등에 직면한 상황에서, 위
www.korea.kr
데이터 과학
데이터 과학의 정의
- 데이터에서 어떤 의미나 통찰을 발견하려고 과학적 방법을 이용하는 데이터 탐색과, 발견한 의미나 통찰을 비즈니스 맥락에서 활용하는 SW 시스템의 구축 등을 포함하는 개념
- 큰 데이터셋에서 유용한 패턴을 추출하기 위한 일련의 규칙, 문제의 정의, 알고리즘, 처리 과정 등을 아우르는 개념
데이터 과학의 발견 과정
데이터 과학 프로세스
- 데이터 준비: 수치의 정규와와 정리를 통해 분석에 대비
- 데이터 탐색: 데이터에서 의미 있는 패턴이나 유용한 특징을 추출
- 데이터 표현: 특정 자료구조를 할당하거나 한 데이터 형식에서 다른 형식으로 바꾸는 것
- 데이터 발견: 가용 데이터 집합이 가진 패턴을 발견하여 데이터의 의미와 유용한 측면을 발견
- 데이터로부터 학습: 통계, 기계학습 기법으로 발견한 패턴을 지능적으로 분석하여 유용한 것을 생산하는 것
- 데이터 산출물 생성: 데이터로부터 유용한 정보를 만들고 다른 사람과 공유
- 데이터 시각화: 최종 사용자에게 처리된 데이터에서 찾은 것을 시각화한 산출물을 전달
데이터 사이언티스트의 기술과 역량
데이터 과학 수명 주기의 전체 스펙트럼을 숙달해야 하고 각 단계에 대한 이해가 필요함
- 소통능력
- 도메인 전문성
- 데이터 윤리와 규정
- 데이터 변환과 데이터베이스
- 컴퓨터 과학과 고성능 컴퓨팅 역량
- 데이터 시각화
- 통계, 확률
- 기계 학습
기계학습
- 비지도 학습: 레이블 없이 학습하는 것. 여러 문제를 학습함으로써 데이터의 패턴이나 특성, 구조를 파악하여 데이터의 규칙성을 찾음
- 지도 학습: 레이블 된 데이터를 학습하는 것
- 강화 학습: 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식해 선택 가능한 행동 중 보상을 최대화하는 행동을 선택하는 방법
딥러닝
다량의 데이터나 복잡한 자료 속 핵심 기능을 요약하는 작업을 시도하는 기계학습 알고리즘의 집합
Perceptron 퍼셉트론
- 각 노드의 입력치와 가중치를 서로 곱하여 모두 합함
- 합한 값을 활성화 함수가 가진 임계치와 서로 비교함
- 만약 그 값이 임계치보다 크면 활성화되고 작으면 비활성화됨
데이터 과학 도구
SAS(새스)
통계 작업을 위해 특별히 설계된 데이터 과학 도구, 비용이 많이 들어 대규모 산업에서 사용하는 독점 SW.
SAS 코리아
SAS is the leader in analytics. Through innovative Analytics, Artificial Intelligence and Data Management software and services, SAS helps turn your data into better decisions.
www.sas.com
University Edition: www.sas.com/ko_kr/software/university-edition.html
무료 통계 소프트웨어, SAS 유니버시티 에디션
SAS 유니버시티 에디션을 통해 무료 통계소프트웨어, 온라인커뮤니티, 교육 및 문서 등 SAS 교육 및 학습에 필요한 모든 것을 경험하십시오 .
www.sas.com
Apache Spark
배치, 스트림 처리를 처리하도록 설계된 도구로 MapReduce보다 약 100배 빠른 속도 제공
Apache Spark™ - Unified Analytics Engine for Big Data
Ease of Use Write applications quickly in Java, Scala, Python, R, and SQL. Spark offers over 80 high-level operators that make it easy to build parallel apps. And you can use it interactively from the Scala, Python, R, and SQL shells.
spark.apache.org
BigML
클라우트 컴퓨팅을 사용하는 표준화된 SW 제공
BigML.com
Machine Learning made beautifully simple for everyone. Take your business to the next level with the leading Machine Learning platform.
bigml.com
D3.js
JS 라이브러리로 웹브라우저에서 대화형 시각화를 만들 수 있음
D3.js - Data-Driven Documents
D3 is a JavaScript library for visualizing data with HTML, SVG, and CSS.
d3js.org
Matlab
수학적 정보를 처리하기 위한 대중 패러다임 수치 컴퓨팅 환경 제공
MathWorks - Makers of MATLAB and Simulink
MathWorks develops, sells, and supports MATLAB and Simulink products.
www.mathworks.com
ggplot2
R을 위한 고급 데이터 시각화 패키지로 분석된 데이터를 시각화할 때 널리 사용되는 라이브러리
Create Elegant Data Visualisations Using the Grammar of Graphics
A system for declaratively creating graphics, based on "The Grammar of Graphics". You provide the data, tell ggplot2 how to map variables to aesthetics, what graphical primitives to use, and it takes care of the details.
ggplot2.tidyverse.org
그 외
- 하둡Hadoop: 대용량 자료를 처리할 수 있는 응용 프로그램을 지원하는 오픈소스
- R Studio: 통계 컴퓨팅, 그래픽스를 위한 프로그래밍 언어 R을 위한 IDE
- Python, Jupyter
- Excel: 강력한 데이터 시각 화 및 스프레드시트를 만드는 것에 용이함
- TensorFlow: 구글에서 제공하는 딥 러닝 프로그램을 쉽게 구현할 수 있도록 하는 오픈소스
데이터 과학 공부 레퍼런스
Kaggle 캐글
기업과 단체에서 데이터와 해결과제를 등록하면 이를 해결할 수 있는 모델을 개발하고 경쟁함
Kaggle: Your Machine Learning and Data Science Community
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.
www.kaggle.com
모두를 위한 머신러닝/딥러닝 강의
모두를 위한 머신러닝/딥러닝 강의
hunkim.github.io
edwith.org
에듀케이션위드 : edwith
에드위드(edwith)는 네이버(NAVER)와 네이버 커넥트재단(NAVER Connect)이 제공하는 온라인 강좌(MOOC : Massive Online Open Course) 교육 플랫폼입니다. 에듀케이션위드(education with) 에드위드(edwith)로 분야별 명
www.edwith.org