[전채남의 AI Story] AI의 단어 익히기, 레이블링

  • 전채남 (주) 더아이엠씨 대표
  • |
  • 입력 2023-08-01  |  수정 2023-08-01 07:00  |  발행일 2023-08-01 제22면

[전채남의 AI Story] AI의 단어 익히기, 레이블링
전채남 (주) 더아이엠씨 대표

인간이 새로운 단어를 기억하는 대표적인 방식은 반복, 복습, 연결, 연상 등이 있다. 새로운 단어를 여러 번 말하고 쓰면서 기억하거나 이미 기억된 단어와 연결해 기억한다. 연상은 단어를 기존 단어 체계에 연관 지어 기억을 강화하고 복습은 단어를 오래 기억하고 사라지는 것을 막아 준다.

인공지능(AI)은 어떻게 기본 단어를 쌓고 기억할까? AI의 초기는 백지상태이다. 갓 태어난 아이의 뇌와 같다. 유아에게 부모가 엄마, 아빠부터 시작하는 말과 글을 가르치듯이 AI에게도 기본 단어들을 기억시켜 줘야 한다. 아이들은 주변 대상들과 학습 카드로 단어를 배우듯이 AI는 데이터로 기본 단어를 익힌다. AI의 기본 단어는 데이터 레이블링(Labeling) 과정을 거쳐 저장된다.

AI의 데이터 레이블링은 데이터에 이름표를 붙이는 과정으로 정보를 명시적으로 표시하는 과정이다. 학습을 위한 기본 정보를 만드는 것이다. 자동차 단어와 객체를 '자동차'로 명명하고 인간 단어와 객체를 '인간'으로 명명하는 것이다. 데이터 레이블링은 학습 데이터 만들기이며 AI의 세상 배우기이다. 레이블링된 데이터가 없으면 기본 정보가 없어 AI는 새로운 데이터를 제대로 인식할 수 없다.

데이터 레이블링은 단순하고 반복적이지만 동시에 필수불가결한 작업이다. 데이터 레이블러가 AI 시대의 신생 직업으로 생겨났다. 초기 작업은 수백, 수천, 수만 개의 데이터를 일일이 사람이 직접 확인하고 입력하는 수작업으로 이루어졌다. 수작업은 비교적 정확한 결과를 만들어내지만, 시간과 인력이 너무 많이 든다는 단점이 있다.

레이블링을 조금 더 효율적으로 하기 위해 기계학습 알고리즘을 레이블링에 활용하기 시작했다. 오토레이블링(Auto-Labeling)은 레이블링 하고자 하는 데이터에 대해 미리 학습된 AI가 데이터를 자동으로 레이블링한다. 속도는 매우 빠르지만, 기존 모델에 사용된 데이터의 오류로 잘못된 레이블링을 하게 될 수도 있다.

액티브러닝(Active Learning)은 AI가 스스로 학습에 필요한 데이터를 선별하고 레이블링을 요청한다. 레이블링이 가장 필요한 데이터에 집중함으로써 효율성을 높일 수 있다. 이 기법도 결국 사람이 직접 레이블링 해야 한다는 단점이 있다. 그럼에도 레이블링 작업의 부담을 줄이고 학습 데이터의 정확성을 유지할 수 있는 장점이 있다.

전이학습(Transfer Learning)도 레이블링에 있어서 중요한 기술이다. 전이학습은 이미 학습된 모델이 새로운 문제를 해결하는 데 필요한 지식을 전이하는 방법이다. AI는 레이블링 된 데이터를 이용하여 한 가지 작업을 학습한 뒤, 그 지식을 다른 작업에 적용한다. 기존에 학습된 지식을 활용하여 더욱 빠르게 학습할 수 있게 된다.

챗GPT에 사용되어 널리 알려진 인간 피드백에 의한 강화학습(RLHF, Reinforcement Learning-based Human Feedback)은 세미-오토 및 오토레이블링의 정확성을 한 단계 더 높였다. RLHF는 기계가 스스로 학습하는 과정에서 사람의 피드백을 받아 성능을 개선하는 방식이다. 피드백을 통해 기계는 잘못된 레이블링을 수정하고 향후 유사한 데이터에서 정확한 레이블링을 하도록 학습한다. 초기에는 리소스가 많이 필요하지만 점차 인간의 개입이 줄어들게 된다.

AI의 데이터 레이블링 기술은 초기의 수작업에서 자동화를 거쳐 자기학습(Self Learning)으로 발전하고 있지만 품질 검증은 부족한 편이다. 레이블링 품질은 AI의 신뢰성과 공정성에 큰 영향을 미친다. 레이블링 품질을 위해 라벨 불균형 해소와 평가가 중요하다.

AI는 배운 대로 세상을 인식하고 판단하고 작동한다.

〈주〉더아이엠씨 대표

※외부 필진의 글은 본지의 편집방향과 다를 수도 있습니다.

영남일보(www.yeongnam.com), 무단전재 및 수집, 재배포금지

오피니언인기뉴스

영남일보TV



많이 본 뉴스

  • 최신
  • 주간
  • 월간

영남일보TV

더보기