Data Mavericks

(ADsP 정리) [1과목] (2장) 데이터의 가치와 미래 본문

자격증/ADsP

(ADsP 정리) [1과목] (2장) 데이터의 가치와 미래

권동동 2023. 7. 17. 15:40

1️⃣ 빅데이터의 이해

🔷  빅데이터 정의

   관점에 따른 정의

  1. 3V 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의
  2. 데이터 자체뿐 아니라 처리, 분석 기술적 변화까지 포함되는 중간 범위의 정의
  3. 인재, 조직 변화까지 포함한 넓은 범위의 정의
3V
양(Volume)

데이터의 규모 측면
다양성(Variety)

데이터의 유형과 소스 측면
속도(Velocity)

데이터의 수집과 처리 측면
센싱데이터, 비정형데이터 정형, 비정형 데이터 원하는 데이터의 추출 및 분석 속도

💡 3V : 규모 (Volume), 다양성(Variety), 속도(Velocity)

💡 7V : 규모 (Volume), 다양성(Variety), 속도(Velocity)

             +  가치(Value), 진실성(Veracity), 정확성(Validity), 휘발성(Volatility)

빅데이터의 정의의 범주 및 효과

데이터 변화 (3V 변화) ⇨ 기술 변화 (data의 처리, 저장, 분석 변화) ⇨ 인재, 조직 변화(DS같은 새로운 인재 필요)


🔷  출현 배경

1. 3가지 출현 배경

출현 배경 내용
산업계 고객 데이터 축적 고객 데이터를 축적하여 데이터에 숨어있는 가치를 발굴
학계 거대 데이터 활용, 과학 확산 학문 분야 증가로 필요한 기술 아키텍처 및 통계 도구들이 발전
기술발전 관련기술의 발달 디지털화, 저장 기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅

2. ICT의 발전과 빅데이터의 출현  (  ICT란 IT+통신(Communication)  )

출처 : NIA(한국지능정보사회진흥원) - 새로운 미래를 여는 빅데이터 시대(2011)


🔷  빅데이터에 거는 기대를 표현한 비유

산업혁명의 석탄, 철 ⇨ 제조업 뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대됨

21세기의 원유 ⇨ 기존에 없던 새로운 범주의 산업 을 만들어 낼 것으로 전망

렌즈 ⇨ Ngram Viewer 현미경이 생물학 발전에 미쳤던 영향만큼 데이터도 기대됨

플랫폼 ⇨ kakaotalk facebook 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망됨


🔷  과거에서 현재로의 변화

과거 -> 미래 ex
사전처리 -> 사후처리 필요한 정보만 수집X => 수집한 데이터에서 필요한 정보 적출
표본조사 -> 전수조사 샘플링이 주지 못한 패턴, 정보를 발견하는 방식
-> 많으면 오류정보를 처리하기 수월
인과관계 -> 상관관계 인과관계(누적 data)
상관관계(2개의 변수)

2️⃣  빅데이터의 가치와 영향

🔷  빅데이터 가치 산정이 어려운 이유

   💡 데이터 활용 방식 : 특정 데이터를 언제·어디서·누가 활용할지 알 수 없음 => 가치 산정 어려움

   💡 새로운 가치 창출 : '기존에 없던 가치' 창출함 => 그 가치 측정이 어려움

   💡 분석 기술 발전 : 현재는 가치X 데이터 => 추후 가치가 있을 수도 있음


3️⃣  비즈니스 모델

 · 기업
   -  구글은 사용자의 로그 데이터를 활용한 검색엔진 개발, 기존 페이지랭크 알고리즘
   -  월마트는 고객의 구매패턴을 분석해 상품진열에 활용       
 · 정부
   -  정부는 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방 서비스 등 다양한 국가 안전 확보 활동을 위해       실시간 모니터링을 활용. 이 밖에도 미래 의제인 의료와 교육개선을 위해 빅데이터를 활용해 해결책을 모색
 · 개인
   -  정치인은 선거 승리를 위해 사회 관계망 분석을 통해 유세 지역을 선정하고, 해당 지역의 유권자에게 영향을         줄 수 있는 내용을 선정해 효과적인 선거 활동
   -  가수는 팬들의 음악 청취 기록 분석을 통해 실제 공연에서 부를 노래 순서를 짜는데 활용


🔷 빅데이터를 활요한 기본 테크닉

테크닉 내용 예시
연관규칙학습 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 커피를 구매하는 사람이
탄산음료를 더 많이 사가는가?
유형분석 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 이 사용자는 어떤 특성을 가진
집단에 속하는가?
유전자 알고리즘 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
기계학습 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법 기존의 시청 기록을 바탕으로
시청자가 현재 보유한 영화 중에서
어떤 것을 가장 보고 싶어할까?
회귀분석 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
감정분석 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 새로운 환불 정책에 대한 고객의 평가는 어떤가?
소셜네트워크분석
(=사회관계망분석)
특정인과 다름 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용 고객들 간 관계망은 어떻게 구성되어 있나?

4️⃣  위기 요인과 통제 방안

1. 사생활 침해 (위기요인)

 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어가 사회,경제적 위협으로 변형될 수 있다.

1-💡. 동의에서 책임으로 (통제방안)

 빅데이터에 의한 사생활침해 문제를 해결하기에는 부족한 측면이 많고 매번 개인정보 제공 동의를 하는 비효율적인 단계를 줄이고자 개인정보를 사용하는 사용자의 책임으로 해결하는 방안을 제시하였다.


2. 책임 원칙 훼손 (위기요인)

 빅데이터 기본분석과 예측기술이 발전하면서 정확도가 증가한 만큼, 분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다. 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성이 있다.

2-💡. 결과 기반 책임 원칙 고수 (통제방안)

 책임원칙 훼손 위기요인에 대한 통제 방안으로 기존의 원칙을 좀 더 보강하고 강화할 필요가 있으며, 예측 자료에 의한 불이익을 당할 가능성을 최소화 하는 장치를 마련하는 것이 필요하다.


3.  데이터 오용 (위기요인)

 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다.

3-💡. 결과 기반 책임 원칙 고수 (통제방안)

 데이터 오용의 위기요소에 대한 대응책으로 '알고리즘에 대한 접근권'을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다.


5️⃣  미래의 빅데이터

🔷 기본 3요소

1 ) 데이터 => 모든 것의 데이터화

모든 것을 데이터화 하는 현 추세로 특정 목적없이 축적된 데이터를 통한 창의적인 분석이 가능해져, 새로운 가치로 부상하고 있다.

2 ) 기술 => 진화하는 알고리즘, 인공지능

데이터를 빠르게 처리하기 위한 알고리즘의 진화와 함께 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술이 출현하였다.

2 ) 인력 => 데이터 사이언티스트, 알고리즈미스트

데이터 사이언티스트와 알고리즈미스트의 역할을 통해 빅데이터의 다각적 분석을 통한 인사이트 도출이 중요해지고 있다.


📢  이 글은 ADsP 데이터 분석 준전문가 (저자 윤종식) (속칭 민트책)를 바탕으로 정리한 내용입니다.

 

📢  해당 글은 교육적인 목적으로 작성되었으며 영리 목적이 없음을 밝힙니다. 법률적인 문제가 있을 경우 메일을 보내주시면 수정하도록 하겠습니다.

 

📢 이메일 : do5431@naver.com