AIDE 2급에 이어 1급 이론정리를 합니다. 2급 준비 때보다 조금 더 심화되는 내용으로 평소 인공지능이나 관련 언어에 대한 지식이 있으신 분들은 가볍게 넘기실 수도 있겠지만 생소한 단어로 조금은 골치가 아프기도 할 것 같습니다. 50문제에 100점 만점으로 보고 60점 이상만 획득하면 1급 취득은 할 수 있다고 하지만 생각보다 만만치가 않네요. 1급 이론 지금부터 정리해 보겠습니다.
목차
- 검수기초이론
- 인공지능방법론
- 인공지능과 빅데이터
- 인공지능알고리즘 1,2
- AI윤리
검수기초이론
데이터 검수란?
인공 지는 AI가 학습할 수 있는 좋은 품질의 데이터의 획득, 정체, 라벨링이 인공지능 모델의 목적과 특성에 맞게 수집 가공되었는지를 검수하는 것을 말합니다. 좋은 품질의 데이터가 인공지능의 품질과 성능을 좌우하기 때문입니다. 작업결과의 기준에 맞게 잘 되었는지 적합성과 일관성이 중요한 역할을 합니다.
크고 작은 오류와 실수는 발생이 가능하고, 가이드를 사람마다 다르게 해석하거나 오기, 누락등이 발생되어 크라우드소싱일 경우 비대면이기 때문에 데이터 품질이 안 좋을 수 있게 됩니다. 직접 가이드 교육이 힘들고 업무 태도나 모니터링의 어려움이 존재하여 검수자의 역할이 필요하게 됩니다. 검수자는 학습용 데이터, 데이터 특성이해가 중요합니다.
데이터 검수 임무정의
데이터 획득 : 원시데이터를 획득함을 의미합니다. 즉 , 기계학습을 목적으로 획득단계에서 수집 또는 생성한 음성, 이미지, 영상, 텍스트등의 데이터등을 말합니다.
데이터 정제 : 원천데이터는 원시데이터를 라벨링 공정에 투입하기 위해 필요한 형식이나 크기에 맞게 변형하여 데이터중 중복제거, 개인정보 비식별화처리등 필요한 전처리등의 정제작업을 수행한 데이터를 말합니다. 예를 들어 수집된 자동차의 번호판 가리기 등의 작업을 의미합니다.
데이터 라벨링 : 라벨링데이터로 인공지능이 학습에 활용하도록 라벨을 달아주는 것을 말합니다.
검수 : 인공지능학습에 이용됨 안정망과 같은 역할로 검수자 역할 책임과 역할이 막중합니다. 검수자는 데이터 라벨링에 대한 이해와 경험 검수자의 역할과 책임을 인식하는 걸 중요시해야 합니다.
검수순서
-작업대상과 방법 작업가이드숙지
-검수가이드 검수기준과 방법, 라벨러의 입장에서 오해 없게 살피기
-집중할 수 있는 환경 만들기 : 효율을 높이고, 온라인 장시간 작업이기 때문에 작업가이드 검수가이드 바로 확인할 수 있도록 집중환경을 만들어야 함
-검수 진행
작업된 데이터를 꼼꼼히 살펴보기
기준에 맞게 진행되었는지 세심히 살피기
반려사유를 구체적이고 명확하게 작성하기
제작업이 원활하게 이루어지게 해야 함
수정보완 재검수
반려된 작업이 제대로 수정이 안되면 검수 가이드 확인 진행
반려사유작성 시 작업자의 입장에서 쉽게 인식할 수 있도록 세심히 작성
문제발생 시 DATA PM과 소통하기 : 검수자 데이터 피엠 작업자와의 원활한 소통이 중요
검수자가 하지 말아야 할 일
가이드의 미숙지하면 절대 안 됨
동일한 유형의 프로젝트라도 작업기준 상이할 수 있으므로 작업 검수가이드 꼼꼼히
무성의하거나 메크로등의 컴퓨터프로그램이용 절대 안 됨
표본검사 평균 검수시간 전문 검사
주관적 자의적 판단에 의한 검수 절대 안 됨 독단적 안됨 정해진 기준을 준수 일관된 검수 진행
작업자와의 갈등 유발 : 작업자 하대 무시 비난 행위의 검수자 안됨 모두가 존중받아야 함
불이익 자격박탈 법적인 처벌도 가능하니 신중하고 올바르게 진행
온라인상이라 의도치 않게 오해를 불러일으킬 수 있음
검수방법
기본적으로 획득된 데이터가 편향성이 있다면 오류!!
원시데이터 검수 : 이미지 영상 음성 텍스트등 데이터 유형에 따른 각각의 작업 기준과 조건에 맞게 수집되었음을 검수
중복데이터 제거, 개인식별제거
이미지 영상데이터 : 수량 대상 해상도 파일포맷등 가이드 명시 정한 대로 하기
정해진수량, 정해진 대상, 정해진 해상도나 파일포맷수집 시
음성데이터 : 내용 분량 음질 환경이 가이드 명시
발음의 정확도 발화의 속도 문장과 문장 사이 쉬는 시간 명시된 대로 하기
시작점에서 3초 공백 후 음성을 녹음해야 하는데 잘못된 경우 반려 정확히 사유 작성 전달
텍스트 데이터 : 내용, 수량, 출처기준 정해짐 작업기준 조건 추가 가능
데이터 유형에 따른 각각의 작업 기준과 조건에 맞게 수집되었음을 검수
중복데이터 제거 개인식별 제거
라벨링 데이터검수
이미지 데이터 바운딩이미지 작업대상이 아닌 것 태킹속성 일부 잘린 경우 오른쪽 왼쪽 가려진 부분 예측 안됨 해당하지 안 되는 것 반려사유
키포인트 라벨링 가려짐 처리등 자세히
OCR 책 제목 단어의 띄어쓰기 단위등
종료시점은 행동이 완료된 시점에서 완료
표준전사 발음전사 성별등장순서 화자구분
인공지능 방법론
2급에 나오는 내용 중 4차 산업혁명과 인공지능, 방법론 중 중요한 부분만 합쳐진 부분이라 간단하게 정리하겠습니다.
-산업혁명
2차 : 전기에너지 대량생산혁명
3차 : 컴퓨터, 인터넷, 지식정보혁명
4차 : 인공지능, 빅데이터, Iot, 3D프린팅, 로봇, 공유경제, 드론등. 핵심은 인공지능과 빅데이터
-인공지능서비스구성
데이터획득(Iot, 모바일, M2M을 통해 데이터획득)-이미지 영상 텍스트
데이터가공(전처리)(데이터라벨링, 구분, 선별, 포맷변경등)
모델생성(모델개발-데이터입력-데이터학습-모델수정의 반복) 데이터입력 및 학습이 데이터라벨링 부분
실시간서비스(API) 다양성확보. 보유한 데이터 허가받아 각자 인증키로 사용하는 방식
- AI 인공지능 : 사람의 뇌를 흉내 내는 인공신경망과 다양한 머신러닝 알고리즘을 통해 구현됨
- 페셉트론(Perceptron):딥러닝(신경망)의 기원이 되는 알고리즘 프랑크 로젠블라트가 1957년에 고안한 알고리즘
딥러닝을 배우기 위해서는 퍼셉트론의 구조를 배우는 것이 매우 중요함
-인공신경망(Artificial Neural Network) : 생물학의 신경망에서 영감을 얻은 학습 알고리즘
* 신경망(인공신경망)의 구조 *
입력층(input layer) 학습하고 하는 데이터를 입력하는 층
은닉층(hidden layer) 입력된 데이터를 여러 단계로 처리하는 층
출력층(output layer) 처리된 결과를 출력하는 층
- 머신러닝 : 스스로 학습하여 인공지능의 성능을 향상하는 기술. 인공신경망, 결정트리, 베이즈네트워크등
- 딥러닝 : 인간의 뉴런과 비슷한 인공신경망으로 학습하는 방법. CNN RNN LSTM GRU 등
- 머신러닝학습
지도학습 : 분류와 회귀(이미 학습된 데이터를 바탕으로 예측하는 것)에 사용됨
비지도학습 : 답을 가르쳐 주지 않고 학습. 연관규칙 군집 유사성검증
강화학습 : 보상을 통해 학습하는 방식. 게임포인트
인공지능과 빅데이터
2급에서 정리된 부분과 중복된 것 있습니다.
간략히 정리하고 심화에서 자세히 정리하겠습니다.
-빅데이터 : 대량의 정형(수치화), 비정형 데이터(텍스트, 영상, 음성등)로부터 가치를 추출하는 기술
-빅데이터의 특징
3V - 규모(VOLUME) -데이터양의 증가 대량의 레코드 트랜잭션
다양성(VARIETY)-데이터의 다양성 정형데이터 비정형데이터 반정형 데이터
정형(structured) 데이터 : 구조화된 데이터, 고정된 필드에 저장된 데이터(데이터베이스, 엑셀, csv)
반정형(semi-structured) 데이터 : 고정된 필드는 아니지만 스키마 포함 연산불가(xml, html, json 등) 웹서비스
비정형(unstructured) 데이터 : 고정되지 않은 데이터, 연산불가, 형태 없음(소셜데이터, 영상, 음성, 이미지)
속도(VELOCITY) -실시간처리 실시간 분석 스트림
정확성(4V) VERACITY 신뢰할 수 있는 데이터
가치(5V) VALUE 저장할 가치가 있는지
-데이터셋 : 인공지능학습을 위해 필요한 데이터를 모아놓은 자료의 집합. 원천데이터 + 라벨링 데이터
-저작권 : 사람의 생각이나 감정을 통하여 만들어진 창작적인 표현의 결과물로 저작인견권 저작 재산권등으로 분류.
-개인정보 취급 시 주의사항
개인정보 익명화 일반정보 신체적 정보, 정신적 정보, 재산적 정보, 사회적 정보, 기타 가명(익명) 정보화를 통해 구분할 수 없도록 처리
-초상권 : 얼굴 기타 사회통념상 특정인임을 식별할 수 있는 신체적 특징에 관하여 촬영 또는 그림묘사 되거나 공표되지 않으며 영리적으로 사용이 불가하다.
심화 부분
라벨링의 종류
라벨링의 종류에 따라
-PASCAL VOC : PASCAL VOC는 XML형식으로 라벨링이 저장된다.
-YOLO : TEXT 형식으로 라벨링이 저장된다.
-CreateML : CreateML은 json형식으로 라벨링이 저장된다.
빅데이터 처리과정
데이터소스(내부데이터, 외부데이터, 미디어) 흔히 보이는 데이터
수집(수집, 자동-크롤링) 데이터소스에서 부족할 때
저장(정형, 비정형, 데이터등급, 장치)
처리(일괄처리, 실시간&배치, 분산병렬처리) 인공지능이나 빅데이터가 처리하도록
분석(전처리, 분석방법) 인공지능이나 빅데이터가 분석하도록
표현(표현, 서비스) 사용자들이 볼 수 있도록
크롤링(Crawling) : 인터넷의 방대한 데이터를 우리가 분석하고 활용하기 쉽게 데이터를 수집하는 행위 (수집단계에서 자동)
크롤러(Crawler) : 크롤링하는 프로그램
크롤링(Crawling)의 원리 : 크롤링 프로그램을 통해 웹정보 분석 및 수집을 진행한다.
크롤링 프로그램(소스) 파이썬 크롤링 실행(데이터 취합) 웹 정보 분석 및 수집
API (Application Programming Interface) : 누군가 만든 프로그램을 쉽게 사용하도록 구성한 프로그램
보유한 데이터 프로그램을 허가를 받아 각자의 인증키를 사용할 수 있도록 하는 것으로 인공지능과 빅데이터에서 보편적으로 사용하는 방식
API의 동장원리 : 사용자가 빅데이터의 정보를 검색하기 위해 사용
즉 클라이언트가 API를 통한 검색 빅데이터의 데이터베이스가 검색됨
인공지능 알고리즘 1,2
2급 내용과 중복되는 부분 일부 있고, 조금 더 내용이 심화된 부분이 있어 공부를 많이 해야 하는 부분입니다.
인공지능객체검출
싱글오브젝트(Single object) : 1개의 객체검출
1단계 분류(classification) : 데이터셋을 함께 학습한 인공지능이 이를 토대로 새로운 이미지 식별
2단계 영역표시(localization) : 분류를 통해 검출된 객체를 바운딩박스형태지정
멀티오브젝트(multi object): 여러 개의 객체검출
객체검출(object detection) : 학습을 통해 여러 개 객체를 인식
instance segmentation (의미 있는 단위 분할) : 정교하고 복잡한 인공지능 구현을 위해 영역별 의미부여
딥러닝의 동작원리
많은 양의 전처리 된 학습데이터 필요. 훈련데이터(train) 86%, 평가데이터(test) 14%
훈련데이터 : 훈련, 반복(에포크 epochs)으로 로스줄이고 정확도 높임
평가데이터 : 학습이 잘되었는지 결과 예측 평가
인공지능 프로그램 개발절차
라이브러리 읽어 들이기 데이터 읽어 들이고 전처리신경망 만들기 모델 만들기(학습하기) 모델적용하기(예측)
딥러닝 알고리즘
CNN(합성곱신경망) 영상처리에 많이 활용 합성곱을 사용함
Convolustional Neural Network) 영상처리에 많이 활용되는 합성곱을 이용한 인공신경망 합성곱을 이용해 가중치 수를 줄여 이미지 처리에 효과적 이미지의 특장점을 효과적으로 찾을 수 있는 신경망
데이터의 특징을 분석하여 패턴을 파악하는 구조로 Convolution과정과 Pooling과정을 통해 진행함
RNN(순환신경망) 음성처리에 많이 사용 계층의 출력이 순환하는 신경망
Recurrent Neural Network
계층의 출력이 순환하는 인공신경망
시계열 정보처리처럼 앞뒤 신호의 상관도가 있을 경우
음성, 웨이브폼, 텍스트의 앞뒤를 분석하는 등의 언어처리
GAN(생성적 적대 신경망) 이미지생성, 복원 등 신경망끼리 경쟁하여 최적화하는 신경망
Generative Adversarial Network 신경망끼리 경쟁하여 최적화를 수행하는 생성형 신경망
GAN내부의 두 신경망이 상호 경쟁하면서 학습 하나는 생성망 하나는 판별망 이미지생성, 이미지 복원, 동작흉내, 신약개발, 음성생성, 편집, 변환, 복원 등 활용
심화학습
심층신경망(DNN DEEP NEURAL NETWORK) : 입력레이어, 중간레이어, 출력레이어로 구분
퍼셉트론세부구조
입력값, 가중치, 입력총합, 활성화함수, 출력값으로 구성
노드와 가중치의 합을 출력하기 위하여 출력을 활성화함수를 이용하여 출력신호로 변경한다.
노드 1 가중치 1 + 노드 2 가중치 2
노드단위에서 발생하는 함수
활성화함수 : 입력된 데이터의 가중치의 합을 출력 신호로 변환하는 함수
종류
시그모이드함수(sigmoid) : S자와 유사한 완만한 시그모이드 커브형태를 보이는 함수이며 대표적인 Logistic함수
모든 실수 입력값을 0보다 크고 1보다 작은 미분 가능한 수로 변환하는 특징
미분가능한 0~1 사이의 값을 변환하기에 Logistic
Classification과 같은 분류 문제의 가설과 비용함수(Cost Function)에 많이 사용한다.
쌍곡선함수(Tanh) : Tanh함수는 함숫값을 -1과 1 사이의 실수로 제한시킨다.
하이퍼블릭 탄젠트(Hyperbolic Tangent) 라도고 불린다.
경사하강법 사용 시 시그모이드 함수에서 발생하는 평양 이동이 발생하지 않는다.
기울기가 양수 음수 모두 나올 수 있기 때문에 시그모이드 함수보다 효율성이 뛰어나다.
렐루함수(ReLU) - 기술기 소실이 발생하지 않아 은닉층에서 많이 사용되는 함수
선형함수라고 하며, +/-가 반복되는 신호에서 -흐름을 차단하는 의미가 있다.
많이 사용하는 이유는 기울기소실(Vanishing Gradient) 문제가 발생하지 않는다.
손실함수(loss function) : 신경망이 학습할 수 있도록 해주는 지표. 머신러닝 모델의 출력값과 사용자가 원하는 출력값의 차이 즉 오차. 손실 함숫값이 최소화되도록 하는 가중치와 편향을 찾는 것이 학습
평균 제곱오차(회귀, Regression)
교차 엔트로피 오차(분류 Classification)
경사하강법(Gradient descent) : 최적화(Optimization) 방법중하나임. 기울기의 가장 낮은 값을 구하기 위한 함수
함수의 기울기를 구하고 경사의 절댓값이 낮은 쪽으로 계속 이동시켜 극값에 이를 때까지 반복시키는 것
미분계수 계산 과정을 컴퓨터로 구현하는 것보다 경사하강법을 구현하는 것이 훨씬 쉽다.
옵티마이저(Optimizer) : 함수의 가장 낮은 값을 찾는 방법
Momentum, AdaGrad, RMSPop, AdaDelta, Adam 등이 있다.
현재 가장 많이 사용하는 옵티마이저는 Adam이다.
딥러닝알고리즘심화
CNN(Convolutional Neural Network)은 입력값을 RGG채널로 분리하고, 분리된 데이터를 특성지도를 이용하여 특징점을 찾아낸다. 특징점을 찾아내는 과정을 컨볼루션이라고 하고 컨볼루션을 통과한 데이터는 다시 크기를 줄이기 위한 풀링 과정을 거쳐서 크기는 줄어들게 된다. 이 과정을 반복하여 이미지의 특징 정보만 가지고 있는 형태가 된다. 이 데이터를 이미 학습된 인공지능 분류에서 유사한 것을 찾아 결과를 예측하는 모델이다.
GAN(생성적적대신경망) Generative adversarial networks
2014년 구글 브레인에서 머신러닝 연구 중 발표하였으며 이안 굿펠로우가 고안한 알고리즘으로 핵심내용은 노이즈로부터 이미지를 생성하는 것이다.
GAN의 실제 활용도는 다양하며 최근 지도 학습 중심의 딥러닝의 패러다임을 비지도학습으로 전환
GAN의 특징은 진짜 같은 가짜 데이터를 무한대로 만들 수 있는 특징을 가지고 있어서 최근 응용분야가 늘어나고 있다.
응용분야는 자연어처리(NLP), 이미지생성등 다양한 분야에서 널리 사용됨
생성자(Generator)와 구분자(Discriminator)가 서로 경쟁하며(Adversarial) 데이터를 생성하는 모델
생성자는 인물사진을 가짜로 만들어내 구분자는 만들어진 인물사진을 진짜 사진과 확인하여 평가하는 방법
여러 번의 반복으로 구분자가 판별에 실패하면 구분자 알고리즘을 학습시키는 방식으로 반복학습시킴
시간이 지나면 생성자와 구분자는 반반의 평균적 판별능력을 가지게 됨
생성자와 구분자가 서로 대립하며 서로의 성능을 점차 개선해 나가는 쪽으로 학습하는 알고리즘이다.
실제이미지를 생성자에게 보여주고 가짜 이미지를 만들게 된다. 이것을 discriminator가 진짜 가짜를 판별하는 과정을 통해 고도의 성능 좋은 인공지능 개발한다,
한계점은 생성자와 구분자가 경쟁하지 않으면 실제 데이터로 결과를 내기 어렵다. 하나가 너무 우수하면 알고리즘이 더 이상 존재 불가
GAN의 활용범위
장점 : 가짜 데이터를 대량으로 생산하여 데이터의 부족함을 보완할 수 있고 화질이 낮은 이미지를 고해상도로 복원하는 등 다양한 분야에 활용이 가능함. 없는 것도 만들어냄. 예를 들면 흑백사진을 컬러사진으로 복원하거나 틀만 있는 건물의 조감도등을 만드는 것으로 지도학습과 비지도학습이 섞여있는 모델임.
AI윤리
윤리 : 사람으로서 마땅히 지키거나 행해야 할 도리나 규범
인공지능의 윤리 :어떠한 윤리를 가르쳐야 할까 가 고민되는 부분
알고리즘 편향성 이해
챗봇 : ms 테이 인종차별, 욕설등 학습 16시간 만에 운영정지
채용 : 아마존 여성적 어휘 차등적 사용 과거데이터 그대로 사용 문제
신용/대출 : 골드만삭스 신용카드 신용한도 차별
의료서비스 : 흑인환자 차별
인간의 고정관념을 토대로 판단하게 되며 발생되는 문제
AI기술연구 윤리적 학습 최적화 윤리에 대한 연구도 병행
개선될 수 있을까?
인터넷플랫폼 인공지능 검색 시스템-편향적 검색이 심각 자동추천검색 정보에 선택적 노출 편식 불균형
확증평향에 대한 뚜렷한 대책은 없다. 감시할 독립기구 필요
사람으로서의 책임 법제화 논란 평행성
법인격인정
긍정론 포스트휴먼으로서의 지위
권리능력의 확장
법인이론의 차용 전자인격을 입법적 방식으로 부여
법적 책임의 구별 필요성
부정론 법적 편의성에 대한 의문
전자인격의 부당성
책임법 수정의 부당성
법인격부여 실익의 부재 문제점이 크다.
법체계에 많은 혼란
인공지능 윤리기준
인간성을 위한 인공지능을 위해 모든 사회구성원이 지켜야 할 3대 원칙 인간존엄성, 사회 공공선, 기술의 합목적성
목표
적법성 : 모든 관련 법률 및 규정을 준수한다는 것
윤리성 : 윤리적 원칙과 가치를 존중한다는 것
견고성 : 사회적 환경을 고려하여 기술적 접근이 완성되어야 한다.
인공지능 지식재산권
인간의 사상 또는 감정을 표현한 창작물
인공지능 : 인간의 학습능력과 추론능력 지각능력 언어의 이해능력등을 컴퓨터 실현 컴퓨터가 학습하도록 연구하는 것
인공지능이 창작한 창작물은 저작권이 인정될까에 대해서는 지속적 논의 중
국외에 간혹 인정한 사례등장
수정 보완이 필요 기술의 발전을 현실법이 못 따라가고 있음
개인정보보호법-프라이버시 보호를 위해 이용자가 차별받지 않도록 공정함 고려
대규모 데이터의 처리 복잡성, 불투명성-이용자참여, 자동화 불확실성
개인정보보호 6대 원칙 적법성, 안정성, 투명성, 참여성, 책임성, 공정성
위반사례 : '이루다'쳇봇 자연스러운 대화로 인기 벗 성희롱 혐오논란 개인정보유출논란 어떤 편향이 반영됨 대화데이터가 위법절차로 수집됨 출시 3주 만에 중단
시사점 : 데이터 의존성의 문제는 학습데이터와 개인정보보호가 상충하게 되는 문제이며 ai와 공존해야 하는가에 대한 논의가 필요
이상 AIDE 이론정리였습니다. 방대한 양의 데이터를 학습해야 하는 인공지능이 된 마음으로 열심히 준비하여 꼭! 자격증 취득에 성공하시길 기원합니다.
*함께보면 좋은 글-AIDE2급정리
'자격증준비' 카테고리의 다른 글
[전산회계2급] 거래자료의 입력,조회 (0) | 2023.05.04 |
---|---|
[전산회계2급] 기초정보의 등록 및 수정(실무) (0) | 2023.04.12 |
[전산회계]일반계산기 사용법 (0) | 2023.04.08 |
AIDE 2급 이론 이것만 알면 무조건 합격!! (0) | 2023.03.30 |
데이터라벨러 제대로 알고 일하자!! (0) | 2023.03.18 |
댓글