본문 바로가기

TABA/AI

TABA Sep 13th

728x90
반응형

* 본 내용은 Tmax AI & Big Data Academy 최상일 교수님의 수업을 바탕으로 작성하였습니다.

 

인공지능과 딥러닝 입문

 

1-1. What is 4th Industrial Revolution

 

6대 기술 분야 : 인공지능 / 빅데이터 / 사물 인터넷 (<= key technologies) / 무인 운송수단 / 3D 프린팅 / 나노기술

1~3차 산업혁명은 무엇에 대한 산업혁명이었다면, 4차산업혁명은 '어떻게'에 대한 변화이다.

3차  산업혁명을 기반으로 한 디지털, 바이오산업, 물리학 등의 경계를 융합하는 기술 혁명.

 

4차산업혁명 특징? 

범위 : 전방위적 기존의 틀을 파괴.

속도 : 기하급수적으로 정말 빠르다.

 

전통적 일자리의 감소 / 디지털 기술 발전 및 글로벌 차원의 정보 사회 인프라 구축에 힘입어 컴퓨팅, 반도체, 인터넷, 인공지능, 모바일, 뉴미디어, 전자상거래의 긍정적 역할 /양극화 - Winner Takes All / 새로운 제도, 법, 윤리의 필요성 대두

 


5차 산업혁명이 존재한다면, 어떤 모습일까.

 

이미 4차 산업혁명에서 무인 운송수단, 사물을 인터넷으로 모두 연결하는 기술, 나노 사이즈 단위로 생명을 다루고, 컴퓨터는 빅데이터를 수집하여 새로운 아이디어를 내고 되려 무언가를 창조하는 지경에 이르렀다. 감히 말하기 어렵겠지만, 무엇을 상상하든 이루어지는 세상이라고는 하지만, 지구에서 더 무언가를 이룰 수 있을까.

 

만약에 5차 산업혁명이 있다면, 그것은 훨씬 더 거대하고 더 섬세한 단위일 것이다. 우주산업도 그것의 일부가 될 수도 있고, 기계와 인간의 구분을 모호해지게 만드는, 그런 기계공학이 신기술로 부상할 수도 있다. 


 

패턴인식

 

- 통계적 접근법

- 신경망 접근법

- 구조적/구문적 접근법

- 퍼지 로직 접근법

- 결정 트리 접근법

- 템플릿 접근법

- 결정 분류 접근법

 

 

랜덤포레스트

 

 

1-5. 머신러닝 기초

 

머신러닝이란 : 어떤 작업 T에 대한 컴퓨터 프로그램의 성능을 P로 측정했을 때 경험 E로 인해 그 성능이 향상되었다면, 이 컴퓨터 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것이다. (Tom Mitchell 1997)

인공지능의 한 분야로서, 경험을 통해 자동으로 성능을 개선할 수 있는 컴퓨터 알고리즘의 연구 (위키피디아)

명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구분야 (Arthur Samuel 1959)

 

머신러닝의 과정 :

데이터 수집 ➔ 데이터 전처리 ➔ ( 가설 정의 (hypothesis) / 특징 정의 (feature) / 목적함수 정의 )

 

예측 단계 :

데이터 (unknown) ➔ 데이터 전처리 ➔ 특징 추출 ➔ 예측 ➔ 평가

* 평가할떄는 반드시 unkonwn 데이터를 사용해야한다.

 

다양한 종류의 패턴들이 존재한다. 종류는 같지만, 다양한 모양의 데이터들이 있다. 가령 얼굴 데이터를 가지고 있다고 하더라도, 같은 얼굴은 표정 변화, 조명 변화, 악세사리 착용 여부, 심지어 의상이나 화장같은 스타일의 변화에 따라서도 데이터가 다양하게 존재할 수 있다. 얼굴의 각도에 따라서도 다른 사람으로 인식을 할 수 있다. 이러한 주어진 데이터들을 일반적인 규칙을 자동으로 추출을 하여 학습을 시키기 위해서 머신러닝이 필요하다.

.

머신러닝 구분 :

지도 학습 (supervised learning) / 비지도 학습(unsupervised learning) / 강화 학습(reinforcement learning) / 준지도 학습(semi-supervised learning)

 

1) 지도 학습

 

 

2) 비지도 학습

- 군집화 (clustering) : 주어진 데이터 샘플들을 몇 개의 클러스터로 그룹핑

   -- 계층적 군집

   -- 포인트 할당 군집 : K-means 군집화

   -- 샘플간의 거리 함수에 대한 공리

   -- 유클리디안 거리 : 두 좌표간의 직선거리를 의미

   -- 맨하탄 거리 : 두 좌표간의 수직과 수평 거리의 합을 의미

- 차원 축소 (dimensionality reduction) : 데이터의 특성을 유지하면서도 데이터를 표현하는 차원의 수를 줄임

   -- 투영(projection) 이나 매니폴드(manifold) 학습 을 사용한다. 직선 벡터에 각각의 데이터를 일차원 직선으로 투영하는 방식을 사용하는데, 정확한 데이터를 직접적으로 사용하는 것이 아니기 때문에 비지도 학습이라고 할 수 있다. 매니폴드 역시 비선형 변환이다.

 

3) 강화 학습 : 보상을 최대화하기 위해 환경과 상호작용을 하는 에이전트를 학습.

- 에이전트 / 행위 / 환경 / 상태 / 보상 / 정책

 

 

데이터 집합 구성

- 학습 데이터 : 모델을 학습하는데 사용 (파라미터 값을 결정한다)

- 검증 데이터 : 학습이 완료된 모델을 검증하는데 사용

- 테스트 데이터 : 최종 모델에 대한 바이어스 없는 평가에 사용 (지금까지 노출된 적이 없는 테이터를 테스트 데이터로 사용해야한다)

* 테스트 데이터는 학습에 관여를 해서도 안된다

 

배치학습 & 온라인 학습

 

배치 학습 (batch learning)

모든 학습 데이터를 한꺼번에 학습하기 떄문에 간단함 

일반적으로 오프라인에서 수행

추가로 확보된 데이터를 학습에 활용하려면 전체 데이터로 다시 학습

시간과자원이 많이 소요된다

 

온라인 학습

데이터를 미니 배치 단위로 나눠 순차적으로 학습

학습단계가 빠르고 비용이 적음 

학습이 끝난 데이터는 제거 가능 -> 메모리 절약

학습률 설정이 중요

 


 

728x90
반응형

'TABA > AI' 카테고리의 다른 글

Kaggle COVID 19 Classification  (0) 2022.12.12
TABA Sep 16th  (0) 2022.09.16
TABA Sep 15th  (0) 2022.09.16
TABA Sep 14th  (0) 2022.09.15