[디지털투데이 황치규 기자] 많은 사람들 사이에서 딥러닝 AI는 데이터가 많을 수록 효과도 좋아진다고 알려져 있다.
하지만 빅데이터가 딥러닝 효과를 좌우하는 절대적인 기준은 아니다. 요즘에는 빅데이터가 아니라 소규모 데이터, 이른바 스몰데이터에 딥러닝을 적용하는 것에 베팅하는 회사들도 속속 등장하고 나오고 있다.
딥러닝 분야 대표적인 구루(Guru) 중 한명으로 꼽히는 앤드류 응도 스몰 데이터 기반 딥러닝을 승부로 던진 케이스다.
구글 AI 조직인 구글 브레인을 설립했고 중국 대형 인터넷 회사인 바이두에서도 AI 개발을 이끌며 글로벌 테크판에서 유명인사로 통하는 앤드류 응은 지금은 제조 현장에서 각종 결함들을 찾아내는 AI 소프트웨어 업체 랜딩 AI(Landing AI) 설립하고 CEO로 있다.
10여년 전만 해도 대규모 데이터를 활용한 딥러닝 신경망을 주특기로 했음을 감안하면 지금은 180도 다른 활동 공간에서 뛰고 있는 셈이다.
나름 이유가 있다. 제조 현장에서 결함을 찾아내는 작업에선 빅데이터보다는 스몰데이터를 제대로 커버하는 딥러닝 기술이 필요하다는게 앤드류 응 생각이다.
요즘 제조 공정은 안정화돼 있어, 딥러닝을 돌리는데 충분한 결함 데이터를 확보하기가 만만치 않다. 이같은 상황은 결함을 찾는 작업에 AI를 쓰고 싶은 제조사들에겐 딜레마다.
IT전문 미디어 프로토콜 보도에 따르면 대부분의 제조사들이 보유한 특정 결함 유형 데이터는 수백만은 커녕 수천, 심지어 수백개도 안되는게 현실이다. 전면 유리에 이가 빠진 흔적이나 작은 파이프 균열의 경우 제조사들은 가진 이미지 데이터는 고작 20~30개 수준일 수도 있다.
딥러닝을 지원하기엔 턱없이 부족한 양이다. 하지만 거꾸로 데이터가 충분치 않다는 것이 AI 전문 기업들에게는 새로운 기회이기도 한 모양이다. 앤드류 응이 이끄는 랜딩 AI 외에도 마리너(Mariner) 같은 기업들이 상대적으로 스몰데이터 기반 결함 탐지 모델을 생성하는 AI 소프트웨어로 제조 시장에서 활동 무대를 확대해 나가고 있다. 제조 현장에서 스몰데이터에 최적화된 AI에 대한 수요가 커질 것이란 판단에서다.
프로토콜은 글로벌 IT서비스 업체 캡제미나이의 마르코즈 페르난데즈 엔지니어링 이사를 인용해 "장비 파손 또는 표면 코팅 결함를 탐지하도록 AI 모델을 훈련시키는데 수천개 이미지를 제공하는 것은 현실성이 없다"고 전했다.
켑제미나이는 포르투갈 전기 회사인 EDP를 포함해 고객사에 최적화된 결함 탐지 모델을 개발하기 위해 랜딩 AI가 개발한 '랜딩렌즈' 소프트웨어를 도입했다. EDP의 경우 이를 장비 부품들 고장 탐지 업무에 사용하고 있다. 페르난데즈 이사는 "시스템은 매우 적은 이미지로도 돌아간다. 이것은 우리 고객들에게는 매우 중요하다"고 말했다.
스몰데이터와 관련해선 앤드류 응도 할말이 많다. 여러 매체들이 최근 AI에 필요한 데이터는 양보다는 질이 우선이라는 앵드류 응의 주장을 전하고 있다.
프로토톨에 따르면 그는 "데이터는 AI를 위한 음식이다. 이것은 단지 거대한 칼로리 숫자에 대한 것이 아니다. 좋은 음식에 대한 것이다"면서 "이제 신경망에 대한 기본 코딩 작업은 해결됐다. 시간이 걸렸던 것은 해당 코드에 공급할 데이터를 어떻게 엔지니어링해야 하는지였다. 비밀은 정말 좋은 이미지 50장을 만드는 것”이라고 강조했다.
AI 데이터 품질은 데이터 라벨링 또는 어노테이션(annotation, 주석 달기)으로 불리는 작업과 긴밀하게 연결돼 있다.
이를 감안해 랜딩 AI와 마리너 모두 품질 관리자, 조사 담당자들이 엔지니어들이나 소프트웨어 개발자들에게 요청하지 않고도 라벨링 작업을 할 수 있는 도구를 지원한다. 하지만 데이터에 설명문구를 붙이는 라벨링 작업은 기준이 통일돼 있지 않으면 딥러닝 모델이 헛발질하는 원인이 될 수도 있다. 라벨링을 하는 사람들이 같은 데이터에 대해 다른 표현을 쓰면 딥러닝 품질이 떨어질 수 있다는 얘기다. 그런만큼, 랜딩 AI는 자사 소프트웨어와 관련해 라벨링 불일치 문제를 최소화하는 것도 중요한 목표라는 입장이다.
랜딩 AI가 특정 기업에 최적화된 AI모델을 제공하는 걸 강조한다는 점도 흥미롭다.
랜딩 AI는 특정 영역을 겨냥해 기성품 형태로 제공되는 AI 모델을 여러 기업들이 쓸 수 있도록 하는 것이 아니라 기업별로 맞춤화된 AI 모델을 제공하는데 초점을 맞추고 있다.
여기에도 나름 이유가 있다. 이미 만들어진 머신러닝 모델은 제조사들이 원하는 통제나 최적화 수준을 제공할 수 없다는 것이다. 모든 제조사들에게는 저마다의 AI 모델이 따로 따로 필요하다는 주장인 셈이다. 앤드류 응은 "제조 산업은 각각의 제품과 결함에 대해 수만개 고유한 AI 모델들을 필요로 할 것이다"고 말했다