포스텍 한욱신 교수팀, 머신러닝을 위한 데이터 샘플링 방법 개발

전준혁
|
입력 2023-06-27 09:45 | 수정 2023-06-27 09:52 | 발행일 2023-06-27

세계적인 데이터베이스 학회서 발표된 최초의 한국 연구진 논문

포스텍 인공지능대학원 한욱신 교수. 포스텍 제공

세계적인 데이터베이스 학회인 'ACM PODS'에서 42년 학회 역사상 처음으로 한국 연구진의 논문이 발표됐다.

27일 포스텍(포항공과대학교)은 인공지능대학원 한욱신 교수·IT융합공학과 통합과정 김경민 씨 연구팀이 여러 테이블로 저장된 데이터에 대한 최적의 샘플링 기법을 제안해 빠르게 결과를 도출하는 데 성공했다고 밝혔다.

데이터는 '테이블(table)'이라는 그룹으로 분산되어 저장돼 있고, 인공지능이 테이블로 저장된 데이터를 학습하려면 '조인(join)'이라는 과정을 통해 하나의 거대한 테이블을 만들어야 하는데, 그 크기가 매우 커 저장이 어려울 뿐 아니라 조인하는 과정에서 오랜 시간이 걸린다.

연구팀은 이번 연구에서 메타 샘플링의 일종인 DRS(degree-based rejection sampling) 기법을 이용했다.

기존에는 샘플 공간에서 바로 값을 추출하기 전에 샘플 공간의 모든 값에 대한 확률을 미리 계산해야 했다. 반면, 연구팀이 제안한 기법은 특정 값의 빈도(degree)에 기반한 단순한 확률 분포를 가진 샘플 공간을 먼저 추출하고, 그 샘플 공간에서 값을 뽑아낸다. 이렇게 하면, 샘플 공간을 추출하는 확률이 상숫값으로써 곱해질 뿐, 복잡한 확률을 계산하지 않고 빠르게 데이터를 샘플링할 수 있다.

또, 테이블을 합치는 '조인' 과정에서 쿼리를 트리 형태로 분석하는 '일반적 하이퍼트리 분해(generalized hypertree decomposition, 이하 GHD)'를 통해 기법을 더 확장시켰다. GHD를 사용하면 전체 쿼리가 아닌 작은 쿼리에 대해 조인을 진행하고 이 결과들을 합쳐 시간 복잡도를 낮출 수 있다. 연구팀은 GHD를 DRS에 적용해 DRS를 확장시켰으며, 특정 경우에 대해 DRS보다 낮은 복잡도를 보장했다.

한욱신 교수는 "이 기법은 데이터들의 계층적인 구조를 보여주는 트리 형태나 순환되는 관계를 보여주는 사이클 형태에 상관없이 모든 쿼리에 적용할 수 있으며, 머신러닝을 위한 데이터 샘플링 과정에서 속도와 정확도를 향상시키는 데 기여할 것"이라고 전했다.

전준혁기자 jjh@yeongnam.com

교육/과학인기뉴스

영남일보TV

박용진 “대구, 로봇 메가특구 됐으면…국힘 의원들 적극 요구해야”

직설 TK 곳간은 비고, 수출은 반도체 도시만 웃었다

칼럼 [이재윤 칼럼] 애국론 vs 세대론

포스텍 한욱신 교수팀, 머신러닝을 위한 데이터 샘플링 방법 개발

영남일보TV

박용진 “대구, 로봇 메가특구 됐으면…국힘 의원들 적극 요구해야”