인공지능 데이터 쉽게 이야기하기

인공지능은 교육을 통해서 학습합니다.

그렇다면 인공지능이 학습할 수 있는 데이터가 필요하겠죠?

그 데이터에 대해서 이야기해보고자 합니다.

Q. 인공지능 데이터를 준비하는 데도 과정 같은 게 있나요?

우리 사람도 학습을 하려면 우선 무엇을 공부할지 정하고 관련 자료의 정보를 찾은 뒤 정말 필요한 정보만 따로 저장해 둡니다. 그리고 그중에서도 정말 중요한 내용은 별도 메모 혹은 기록해두죠.

인공지능도 이러한 일련의 과정이 필요합니다.

이 과정의 순서를 [임무 정의] -> [데이터 획득] -> [데이터 정제] -> [데이터 라벨링] -> [데이터 학습]이라고 이야기하기로 했습니다.

이미지 출처: NIA &lt;인공지능 학습용 데이터 품질관리 가이드라인 1권&gt;

Q. 각 단계에 대해서 쉽게 설명해줄 수 있을까요?

임무 정의 단계: 무엇을 공부할 것인가?입니다. 인공지능을 학습시키는 이유는 무언가 도출해내고 싶은 결과가 있기 때문일 것입니다. 그래서 우리가 뭐할까? 이 단계가 임무 정의 단계입니다.

데이터 획득 단계: 이제 우리가 무엇을 공부할지 결정했습니다. 그러면 학습에 필요한 데이터를 구해야겠죠? 그 데이터는 이미 보유하고 있을 수도 있고 새로 구해야 할 수도 있습니다. 기존 보유 데이터면 괜찮지만 새롭게 데이터를 구할 경우 개인정보나 저작권을 신경 쓰면서 수집합니다. 이렇게 데이터를 확보하는 단계 이 단계를 데이터 획득 단계라고 합니다. 그리고 여기서 만들어진 데이터를 원시 데이터라고 합니다.

데이터 정제 단계: 데이터를 수집을 하고 나서 이제 인공지능이 볼 수 있도록 책을 만들어주고자 합니다. 이제 책을 만들었는 데 내용이 중복되기도 하고 종이의 크기도 제각각입니다. 이 책에서 중복된 내용을 빼고 종이의 크기를 다 똑같이 만드는 것 이 과정을 데이터 정제 단계라고 합니다. 데이터 정제가 완료된 데이터를 원천 데이터라고 합니다.

데이터 라벨링 단계: 공부할 수 있는 책을 만들었으나 인공지능 입장에서는 무엇을 공부해야 할지 잘 모릅니다. 그래서 '이걸 공부해야 해~!'라고 인공지능이 알아볼 수 있도록 별도로 표시해주는 데 이 단계를 라벨링 단계라고 합니다.

즉, 기능이나 목적에 부합하는 데이터를 만들어주는 것이죠. 이 데이터를 라벨링 데이터라고 하고 원천 데이터와 함께 사용됩니다.

데이터 학습 단계: 이제 인공지능을 학습시키는 단계입니다. 자 이제 원천 데이터랑 무엇을 공부해야 하는지 표시해둔 라벨링 데이터를 함께 주면서 공부를 하면서 성능을 향상해주는 것이죠.

Q. 이 단계를 거치고 나면 이제 스스로 학습하는 일만 남은가요?

안타깝게도 그렇지는 않습니다.

만약 수정하거나 새로운 작업이 필요할 경우 라벨링 데이터를 작업해야 할 경우도 생기고 과적합 같은 문제가 발생할 수도 있습니다. 개발하고 평가하고 수정하는 작업은 동일하게 시행된다고 생각하시면 됩니다.

참고:

https://www.nia.or.kr/site/nia_kor/ex/bbs/View.do?cbIdx=26537&bcIdx=23863&parentSeq=23863

[NIA 한국지능정보사회진흥원]인공지능 학습용 데이터 품질관리 가이드라인 및 데이터셋 구축 안

정보화로 사회현안을 해결하고 국가미래를 열어가는 세계 최고의 ICT 전문기관 NIA한국지능정보사회진흥원입니다.

www.nia.or.kr

'소년의 IT 쉽게 이해하기 > 인공지능 쉽게 이해하기' 카테고리의 다른 글

과적합(Overfitting) 쉽게 이야기하기 (0)	2021.12.12
인공지능 학습용 데이터의 특징 쉽게 이야기하기 (0)	2021.12.11
DL(Deep Learning) 쉽게 이야기하기 (0)	2021.12.05
ML(Machine Learning) 쉽게 이야기하기 (0)	2021.12.04
AI 쉽게 이야기하기 (0)	2021.12.03