본문 바로가기
대학원 라이프/Step2.1 : 데이터공부

데이터공부#1 데이터과학, 인공지능, 머신러닝, 딥러닝 용어 구분

by 더함 2022. 9. 10.
반응형

1학기에도 공부한 걸 좀 정리하면서 들었어야 하는데, 어느덧 열심히 들었던 내용들이 꽤나 휘발된 것 같다.

차차 복습하면서 정리하는 걸로 하고.. 이번 학기 시작하면서 나온 첫 수업 과제 일부 중 데이터과학, 인공지능, 머신러닝, 딥러닝에 대해 용어를 구분하라는 과제가 나왔다. 요즘 그야말로 인공지능이 호황인 시대이다보니 서점에 가면 정말 매주 갈 때마다 인공지능과 빅데이터에 관한 책이 쏟아져 나오는 모습을 볼 수 있다. 아무래도 관련 공부를 하고 있기는 한데 그렇다고 전문가는 아닌 입장이다보니 이런 책들을 주구장창 사들이며 읽고는 했는데, 사실 읽다보면 내용이 다 그게 그거라서 최근에는 자제하는 중이다. (그러다 또 북카페 등에 가면 무료니까 뒤적뒤적거리지만..)

 

인공지능 머신러닝 딥러닝은 그나마 1학기 수업 중에 여기저기서 들었던 것 같은데 데이터 과학은 잠시 멈칫했지만 여하튼 첫 수업을 들으며 간단하게 정리하고 넘어갔기에 이번 기회에 관련 내용을 정리해본다.

야심차게 그림판으로 그림을 그려보니 인터넷에 돌아다니는 이미지들이 얼마나 잘만들어진 것들인지 단박에 깨달음..

 

그런데 써놓고 보니 용어가 굉장히 혼재되서 쓰이고 있다는게 느껴지는게, 한글과 영어 단어의 조합으로 이루어져 있다보니 한글 + 영어, 영어 + 영어, 영어 + 한글 등 여기저기 맘대로 조합해서 쓰이는 것 같다. 데이터 과학, 데이터 사이언스, 인공지능, AI, 기계학습, 머신러닝.. 딥러닝은 뭐 깊은 학습이라고 할 수는 없으니 딥러닝만 쓰이는 것 같은데..

 

#1 데이터 과학 (= 데이터 사이언스)

 

데이터 과학의 정의를 찾아보면 아래와 같다.

 

데이터를 수집/분석/처리하여 유의미한 정보를 추출하고 활용하는 과학적 방법론, 프로세스, 시스템 등을 포함하는 학제 간 연구 분야. 데이터 과학이라는 용어는 1974년 덴마크의 컴퓨터 과학자 페테르 나우르(Peter Naur)가 쓴 『Concise Survey of Computer Methods』에서 처음으로 언급하였다.  (출처 : 네이버 지식백과)

 

사실 데이터 과학이라는 용어가 요즘 이쪽 분야가 핫해지면서 갖다 붙인 용어가 아닌가란 의심을 했었는데.. 페테르 나우르님 죄송합니다..

 

여하튼 데이터 과학은 가장 상위의 개념으로 데이터로부터 지식이나 인사이트를 추출하는 분야를 의미한다. 그래서 데이터 과학 혹은 데이터 사이언스라는 타이틀을 달고 있는 책들을 보면 굉장히 포괄적인 내용을 다루고 있음을 알 수 있다.

 

검색해보면 정형, 비정형 데이터라는 말이 꼭 등장하는데 당연히 '데이터'라고 지칭했으므로 모든 유형의 데이터를 의미하며, 정형은 형태가 있는 데이터로 보통 텍스트라고 보면 되고, 비정형은 형태가 없으므로 사진, 영상, 소리같은 것들을 의미한다고 보면 될 것 같다.

 

#2 인공지능 (= Artificial Intelligence)

 

인공지능의 정의를 찾아보면 아래와 같다.

 

인간의 지능으로 할 수 있는 사고, 학습, 자기 개발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로서, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 인공지능이라고 말하고 있다. (출처 : 네이버 지식백과)

 

정의가 굉장히 심플하다. 사실 인공지능이라는 용어는 옛날 옛적부터 각종 영화나 소설 등을 통해 많이 접해봤기에 용어 자체가 굉장히 친숙하고 딱 들었을 때 왠지 모르게 인간처럼 생각하고 말하는 로봇이 떠오르는 느낌이다.

 

인공지능은 1950년대에 영화 이미테이션 게임의 실제 모델인 앨런 튜링이 처음 제시한 개념이다.

(적고나니 뭔가 현실감각이 없어지는게.. 1950년에 우리나라에 6.25 발생한 해인데..? 인공지능이요..?)

 

앨런 튜링은 기계가 인공지능을 가지고 있는지에 대한 판별 기준으로 튜링테스트를 제시했는데, 사실 이론적인 공부를 할게 아니라면 최근의 핫한 이슈와는 직접적으로 상관이 없으므로 아래의 내용을 참고만 하면 될 것 같다.

 

튜링테스트 (naver.com)

 

튜링테스트

”인공지능(AI) 분야에 역사적인 일이 일어났다. 인공지능을 가늠하는 기준인 튜링테스트를 컴퓨터 프로그램 ‘유진 구스트만(이하 유진)’이 65년 만에 처음 통과했다.” 영국 레딩대는 지난 6

terms.naver.com

 

그럼 최근 핫한 이슈는 뭐냐라고 하면 일반적으로 자연어처리나 컴퓨터비전, 음성인식과 같은 분야가 아닐까 싶다. 전문가 시스템 등의 영역도 있지만 이쪽은 과거부터 발전해온 분야로 최근의 핫함과는 살짝 거리가 있다.

 

자연어처리나 음성인식이 인간의 귀와 입을, 컴퓨터비전은 인간의 눈을 구현하기 위한 이론이라고 생각하면 될 것 같다.

아래 구글링을 통해 찾아본 이미지를 통해 인공지능의 대략적인 분야에 대해 참조해볼 수 있다.

 

[출처 : iaasb.org]

 

그런데 찾고보니 출처가 IAASB [international auditing and assurance standards board] 다. 이거 회계팀인 내가 어디선가 많이 들어보던 곳인데 이게 왜 여기서 나오는지 의아하여 관심도 없던 이미지 하단의 영문 기사를 번역해보니 기업의 감사에 자연어처리를 활용하려는 시도들을 확인할 수 있었다. 의도치 않게 내가 시도해볼만한 영역을 하나 추가한 느낌.

 

IAASB Digital Technology Market Scan: Natural Language Processing | IFAC

 

IAASB Digital Technology Market Scan: Natural Language Processing

Welcome to the fourth market scan from the IAASB's Disruptive Technology team. Building on our previous work, we will issue a Market Scan on topics from the report approximately every two to three months. Market Scans will consist of exciting trends, inclu

www.iaasb.org

 

#3 기계학습 (= 머신러닝)

 

기계학습의 정의를 찾아보면 아래와 같다.

 

컴퓨터 프로그램이 데이터와 처리 경험을 이용한 학습을 통해 정보 처리 능력을 향상시키는 것 또는 이와 관련된 연구 분야. 기계 학습은 자율 주행 자동차, 필기체 문자 인식 등과 같이 알고리즘 개발이 어려운 문제의 해결에 유용하다. 대부분의 기계 학습은 다수의 파라미터로 구성된 모델을 이용하며, 주어진 데이터로 파라미터를 최적화하는 것을 학습이라고 한다. 기계 학습은 학습 문제의 형태에 따라 지도 학습, 비지도 학습 및 강화 학습으로 구분한다.
(출처: 네이버 지식백과)

 

첫 줄에 명시되어 있듯 기계가 경험을 통해 학습하고 이를 통해 처리 능력을 향상시키는 분야로 보면 된다.

여기서 학습을 어떤 방식으로 할 것인지에 따라 지도, 비지도, 강화 학습으로 나눠진다고 볼 수 있다.

 

지도 학습의 경우 'A는 B고, C는 D다'라는 답을 주고 이를 학습시키는 경우로 볼 수 있으며, 비지도 학습의 경우는 답을 주지 않고 A와 C를 잔뜩 주면 이를 특징에 따라 A는 A끼리 C는 C끼리 모아놓는 군집화를 하도록 학습시키는 경우로 볼 수 있다. 강화학습의 경우는 A를 B라고 했을 때 보상을 주고, A를 D라고 하면 보상을 주지 않는 방식으로 A를 B라고 하는 방향으로 학습시키는 경우로 볼 수 있다.

 

#4 딥러닝

 

딥러닝의 정의를 찾아보면 아래와 같다.

 

머신 러닝의 한 분야로 데이터를 컴퓨터가 처리 가능한 형태인 벡터나 그래프 등으로 표현하고 이를 학습하는 모델을 구축하는 연구를 포함한다. 얼굴이나 표정을 인식하는 등의 특정 학습 목표에 대해, 딥 러닝은 학습을 위한 더 나은 표현 방법과 효율적인 모델 구축에 초점을 맞춘다. 딥 러닝의 표현방법들 중 다수는 신경과학에서 영감을 얻었으며, 신경 시스템의 정보 처리나 통신 패턴에 기반을 두고 있다. (출처 : 네이버 지식백과)

 

딥러닝을 활용한 예시 중 하나로 이세돌을 이긴 알파고를 꼽을 수 있다.

결국 딥러닝의 상위 개념들은 딥러닝의 떡상으로 인해 조명받았다고 할 수 있다.

 

딥러닝의 모델은 아래와 같이 분류된다.

 

신경망을 여러 층 쌓아 올려 모델을 구축하는 머신 러닝 방법이라면 어떠한 접근 방법이든 딥 러닝이라고 할 수 있지만, 유명한 모델로는 입력층과 출력층 사이에 다중의 은닉층(hidden layer)이 존재하는 '심층(deep) 신경망', 동물의 시각 피질의 구조와 유사하게 뉴런 사이의 연결 패턴을 형성하는 '컨볼루셔널(convolutional) 신경망', 시간에 따라 매순간 신경망을 쌓아올리는 '재귀(recurrent) 신경망', 입력 집합에 대한 확률 분포를 학습할 수 있는 '제한 볼츠만 머신(restricted Boltzmann machine)' 등이 있다. (출처 : 네이버 지식백과)

 

신경망이라는 용어를 통해 유추할 수 있듯, 딥러닝은 인간의 '뇌'를 모티브로 하여 개발되었다고 한다. 뇌에서 뉴런을 통해 정보가 오고가면서 인간이 생각을 하는 것처럼 딥러닝 역시 입력에 대한 출력이 맞고 틀림에 따라 출력값을 결정했던 중간 로직이 조금씩 수정되면서 학습하는 것이다.

 

수업을 듣다가 보고 '와.. 쩐다..'라고 감탄했던 영상을 첨부했는데, 해당 내용은 알파고를 만든 Deepmind에서 개발했던 벽돌깨기 영상이다. 해당 알고리즘은 처음 시작점에서 게임의 룰을 알지 못한 채로 게임을 플레이하기 시작했으며, 상위 개념인 기계학습의 구분에서 살펴봤듯 벽돌이 깨지면 점수가 올라가는 현상을 통해 벽돌을 깨는 행위를 통한 보상을 인지하고 해당 방향으로 학습되는 것으로 보인다.

 

https://youtu.be/TmPfTpjtdgg

 

#

 

이래저래 검색해보다보니 초중등학생 소프트웨어 교육을 위한 사이트인데, 교사용 영상도 제공하고 있어서 가볍게 보고 익숙해지기 나쁘지 않을 것 같다.

 

소프트웨어야 놀자 (playsw.or.kr)

 

소프트웨어야 놀자

Play with AI, Play with DATA

www.playsw.or.kr

 

그나저나 이러려고 시작한게 아닌데 작성하는데 생각보다 긴 시간이 소요됐고 글도 길어졌다.. 역시 공부를 하기 싫은 티가 팍팍 나지만.. 그래도 블로그 내용을 정리해서 과제를 제출 할 수 있다며 합리화를 시전해본다.

반응형

댓글