[전채남의 AI Story] AI의 양식, 빅데이터

  • 전채남 (주)더아이엠씨 대표
  • |
  • 입력 2022-04-05   |  발행일 2022-04-05 제22면   |  수정 2022-04-05 07:11

2022040401000098500003641

우리가 음성인식 서비스를 이용하다 보면 "제가 잘 이해한 건지 모르겠네요"라는 답변을 자주 듣게 된다. 일상화되고 있는 AI 서비스가 음성인식 서비스임에도 불구하고 아직 만족스러운 성능을 제공하지 못하고 있다. 많은 기업에서 2016년 알파고 이후 꾸준히 질 높은 서비스를 제공하기 위해 많은 노력을 하고 있지만 AI의 성능이 월등히 좋아지고 있지는 못하다. 실제로 가트너(Gartner)의 리포트에 의하면, 2018년도부터 80~87% 이상의 AI 프로젝트가 실패로 끝나고 있다고 한다.

왜 AI 서비스의 성능이 생각만큼 빨리 높아지질 않는 것일까. 결론부터 말하자면 질 높은 데이터가 부족하기 때문이다. AI 연구의 세계 3대 권위자 중 한 명으로 꼽히는 앤드류 응(Andrew Ng)은 '데이터는 AI를 위한 양식(Data is food for AI)'이라고 하며 AI 개발에 있어 데이터의 중요성을 강조했다. 그는 AI 개발자들의 초점을 모델 및 알고리즘 개발에서 모델을 훈련시키기 위해 사용하는 데이터 품질(Quality)로 전환하기 위한 캠페인도 현재 펼치고 있다.

AI 개발의 핵심이 딥러닝(Deep Learning)과 데이터이기 때문이다. 딥러닝은 사람의 뇌가 사물을 구분하는 것처럼 컴퓨터가 사물을 구분하기 위해 데이터를 분류하거나 군집하는 기계학습(Machind Learning)의 한 형태이다. 사람의 뇌가 수많은 데이터 속에서 비슷한 유형을 발견하여 사물을 구분하는 인지방식을 딥러닝은 모방하고 있다. 딥러닝은 사람의 뉴런 구조를 본떠 만든 인공신경망을 기반으로 데이터를 이용하여 컴퓨터가 사물을 인식하도록 학습시킨다. AI는 딥러닝과 데이터가 동전의 양면과 같이 융합되어 구현된다.

정확한 결과를 얻기 위해서 AI는 데이터의 양과 품질이 중요하다. AI는 방대한 양의 데이터, 즉 빅데이터를 필요로 한다. 빅데이터에서 딥러닝은 가치 있는 패턴을 찾아내 유용한 결과를 제시한다. 데이터 품질은 데이터 속에서 패턴을 발견할 수 있는 일관성이 좌우한다. 데이터 기반의 AI는 모델을 먼저 선정하고 코드를 확정한 다음에 데이터의 품질을 반복적으로 향상시키며 정확률을 높인다.

데이터의 양만 많다고 해서 AI가 제대로 만들어지는 것은 아니다. 데이터 분야의 '쓰레기를 넣으면 쓰레기가 나온다(Garbage in, garbage out)'는 격언과 같이 질 낮은 데이터는 AI의 성능을 떨어뜨린다. 실제로 제조 공장 설비에서 주어진 원데이터로 학습한 불량품 분류 AI는 53%의 정확도를 보였으나, 데이터 정제를 통해 품질을 제고한 데이터로 재학습한 AI는 결과 정확도를 71%로 개선하였다.

결국 우수한 AI를 개발하고 싶은 도시와 기업은 양질의 데이터를 우선적으로 확보해야 한다. 도시는 어떻게 AI를 위한 양질의 데이터를 가질 수 있을까. 첫째, 데이터에 대한 이해관계자들의 인식을 바꾸어야 한다. 데이터는 AI의 양식으로 매우 가치 있고 원자재와 같다는 인식을 AI 연구자, 정책 담당자, 소비자 등이 뼛속 깊이 해야 한다. 둘째, 도시의 데이터 맵을 이해관계자들이 함께 그려야 한다. 도시의 어디에서 데이터가 생성되고 있고 어디에 산재해 있으며 데이터들 간의 관계가 어떻게 되는지를 파악해야 한다. 셋째, 데이터 인프라를 구축하기 위해 정부의 데이터 사업을 지역에 많이 유치해야 한다. 데이터 거점도시 만들기는 자원과 시간이 많이 든다. 정부의 정책과 사업은 양질의 데이터를 확보할 수 있는 토대가 된다.

방사광가속기가 있는 곳으로 연구자들이 몰리듯이 앞으로는 품질 좋은 데이터가 있는 곳으로 기업과 인재들이 몰려올 것이다.

<주>더아이엠씨 대표

영남일보(www.yeongnam.com), 무단전재 및 수집, 재배포금지

오피니언인기뉴스

영남일보TV





영남일보TV

더보기




많이 본 뉴스

  • 최신
  • 주간
  • 월간