도로환경 AI데이터 구축으로 K-자율주행차의 시동 건다
올포랜드의 인공지능 학습용 데이터 구축 사업
도로환경 AI데이터 구축으로 K-자율주행차의 시동 건다
2020.10.20 13:42 by 최태욱

정보통신기술(ICT)의 융합으로 이룩된 4차 산업혁명 시대. 로보틱스, 사물인터넷, 가상현실 등 다양한 첨단기술이 새 시대의 혁명을 주도하고 있지만, 그중에서도 총아를 꼽으라면 단연 인공지능(AI)이다. 인공지능은 인간의 학습과 추론, 이해와 해결 능력 등을 컴퓨터가 구현하는 분야로, 수많은 SF영화에 단골 소재로 차용될 만큼 인류의 기대를 한 몸에 받아온 꿈의 기술이다. 

2016년 이세돌과 알파고의 대결로 주목받기 시작한 인공지능 기술은 어느덧 우리 생활 곳곳에서 존재감을 뽐낸다. 스마트폰에 탑재된 음성인식 서비스부터 의료‧보안‧방역‧물류 등 각종 산업 현장에서 쓰이는 지능형 시스템까지 모두 인공지능 기술에 근간을 둔다. 미래형 모빌리티의 대표주자인 ‘자율주행차’ 역시 마찬가지다. 정밀 센서와 전자 제어 등 많은 기술이 총동원되지만 핵심은 역시 도로 환경을 스스로 이해하고 행동하는 인공지능이다. 현재는 제한된 환경에서 활용되고 있는 수준의 자율주행차가 도로를 활보할 시기를 결정하는 건, 결국 인공지능의 완성도에 달렸다. 

공간정보 시스템 개발 전문기업 ‘올포랜드’가 지난 6월부터 진행하고 있는 ‘도로환경 파노라마 이미지 AI데이터 구축사업’은 그래서 더 의미가 깊다. 과학기술정보통신부의 ‘AI 학습용 데이터 구축사업’의 일환으로 진행되고 있는 이번 사업은 그야말로 자율주행차 분야의 초석을 다지는 과정이다. 서울 시내 주요도로 3400km의 도로를 주행하며 취득한 영상에서 교통안전표지판, 횡단보도, 노면표지판, 신호등 등 도로 환경의 정적 객체들을 인공지능에게 제공될 학습 데이터로 탈바꿈시키는 것이 주요 수행과제이며, 모든 데이터는 한국정보화진흥원의 ‘AI HUB’를 통해 무료로 공개된다. 

 

자율주행차의 핵심은 인공지능, 인공지능의 밑거름은 풍부하고 정확한 데이터다.
자율주행차의 핵심은 인공지능, 인공지능의 밑거름은 풍부하고 정확한 데이터다.

| AI 학습용 데이터 구축 사업으로 인공지능 강대국의 초석 다진다 
4차 산업혁명 시대를 맞아 주요 선진국들은 미래 산업 변화의 주도권을 잡기 위한 노력을 이어오고 있다. 인공지능 같은 주도기술을 국가차원에서 적극적으로 육성하는 것이 대표적이다. 인공지능 분야는 크게 인공지능이 학습할 수 있는 소프트웨어 프로그램 개발과 학습의 교재가 되어줄 데이터 셋 확보로 나뉜다. 잘 만들어진 교육 자료를 폭넓게 공부한 학생이 좋은 성적을 내듯, 양질의 데이터가 많이 쌓일수록 인공지능의 효율도 높아진다. 인공지능 기술 주도국에서 대규모의 학습 데이터 구축에 열을 올리는 이유도 그래서다. 

실제로 미국의 경우, 정부가 구글이나 UC버클리 같은 기업 및 대학 등과의 협업·투자로 대규모의 데이터를 구축하고, 이를 공유하고 확산하는 선순환의 생태계가 조성된 지 오래다. 영국 역시 공공 데이터를 기계학습에 적합한 포맷으로 개방하는 등 데이터 공유 및 연계를 위한 체계를 튼튼하게 구축해 나가고 있다. 

 

차세대 시장 질서를 주도할 핵심 키워드로 평가받는 인공지능, 전제는 양질의 학습데이터 확보.
차세대 시장 질서를 주도할 핵심 키워드로 평가받는 인공지능, 전제는 양질의 학습데이터 확보.

우리나라의 경우, IT강국이란 평가가 무색할 정도로 이 분야의 후발주자로 여겨진다. 지난 2017년 정보통신기획평가원에서 “인공지능 기술 주도국과 약 2.2년의 격차가 있는 것으로 분석됐다”고 발표했을 정도다. 관련 소프트웨어 연구‧개발의 격차보다 심각한 건 인공지능이 학습해야할 데이터의 축적 및 활용 부분이다. 좋은 식재료가 부족하면 다양하고 실험적인 요리가 나올 리 없다. 아이디어와 열정이 있는 국내 중소·벤처기업들이 인공지능 분야에서 활개를 펴지 못하는 것도 학습용 데이터 구축에 많은 시간과 비용이 소요될 뿐만 아니라, 원천 데이터 확보에도 어려움을 겪는 국내의 현실 때문이다. 

과학기술정보통신부와 한국정보화진흥원이 올해부터 야심차게 ‘인공지능 학습용 데이터 구축사업’을 개진하게 된 이유도 그래서다. 해당 사업은 인공지능 개발에 필수적인 학습용 데이터를 대규모로 구축‧개방하는 프로젝트로 지난해 10개 영역, 올해 상반기 20개 영역을 시범 운영한 후, 하반기부터 10대 분야 150개 영역으로 범위를 넓히는 등 본격적인 닻을 올렸다. 올해 추경 2925억원을 시작으로 2025년까지 6년간 총 2조5000억원이 투입될 대규모 사업. 이를 위해 해당 영역의 경험과 전문성이 검증된 584개 기업과 기관이 선정되어 저마다의 분야에서 과업에 매진하고 있다. 

2004년 설립 이래 국가 영토에 대한 GIS(Geographic Information System‧지리정보시스템) 데이터베이스를 생산하고 관련 기술을 개발해온 올포랜드가 맡은 영역은 도로 환경에 대한 데이터를 수집하고 이에 대한 유효성을 검증하는 부분. 이번 사업의 관리 총괄을 맡은 김은형 올포랜드 이사는 “우리가 맡은 영역은 향후 자율주행차의 밑거름이 될 수 있는 데이터”라며 “도로에는 표지판 같은 정적 객체와 자동차‧사람 같은 동적 객체가 있는데 우리 회사는 정적 객체의 데이터를 담당하는 업무를 수행하게 됐다”고 설명했다. 

 

도로환경의 모든 데이터가 자율주행차 분야의 밑거름이 된다.
도로환경의 모든 데이터가 자율주행차 분야의 밑거름이 된다.

| 우리의 자율주행차는 우리의 도로 데이터가 필요하다
올포랜드가 수행할 과제의 정식 명칭은 ‘도로환경 파노라마 이미지 AI데이터 구축’이다. 사각(寫角)이 360도에 이르는 ‘어안렌즈’를 활용, 파노라마 이미지를 기본으로 학습데이터를 구축한다. 자율주행차가 워낙 핫한 분야이다 보니, 이미 전 세계에 관련된 오픈 데이터 셋이 다양하게 존재한다. 하지만 도로의 환경이나 안전 표지판의 모양, 교통 규제 등이 모두 다르기 때문에 국내의 도로 환경을 이해하기 위해선, 국내의 도로 환경에 대한 학습 데이터가 절실하다. 

이를 위해 올포랜드는 ㈜스트리스(데이터구축), ㈜지디에스컨설팅그룹(데이터품질관리), 가천대학교(학습모델 개발), ㈜에스이앤티(크라우드 소싱) 등과 ‘올포랜드 컨소시엄’을 구성, 지난 상반기에 걸쳐 3400km에 이르는 서울 시내의 주요도로 촬영을 통해 서울시 실제 도로환경을 고스란히 담아냈다. 10m 간격으로 촬영된 파노라마 이미지만 33만8000장, 이 이미지는 다시 8개의 평면 이미지로 생성되어 총 300만장에 이르는 데이터로 변환된다. 

데이터를 축적하기만 한다고 끝이 아니다. 축적한 이미지는 인공지능 프로그램이 학습할 수 있는 상태로 가공되어야 하는데, 이 작업을 ‘데이터 라벨링(data labelling)’이라고 한다. 데이터 라벨링은 원시 데이터 속 객체에 기계가 이해할 수 있도록 의미를 부여하는 작업으로, 이를 테면 이미지 속에 어느 부분이 ‘횡단보도’, ‘신호등’인지, 교통안전표지판의 경우 어떤 표지판인지를 지정해주는 식이다. 

 

서울시내 도로를 촬영한 실제 파노라마 이미지(사진: 올포랜드)
서울시내 도로를 촬영한 실제 파노라마 이미지(사진: 올포랜드)

데이터 라벨링 작업 완수 이후, 현재는 학습 데이터 품질 검수 및 점검이 한창인 단계. 사업의 목적 자체가 인공지능 분야의 활성화를 위해 중소‧벤처기업 및 스타트업 등 민간에 대규모 인공지능 학습 데이터를 개방하는 것이기 때문에 누구나 손 쉽게 활용할 수 있는 ‘범용성’을 검증하는 단계가 필수적이다. 김은형 이사는 “사실상 인공지능 분야는 구글 등 민간 기업이 선도하고 있고, ISO 등 국제기구들이 이제 막 표준정립을 위한 논의를 시작한 단계”라며 “각기 다른 데이터의 균질한 품질 유지를 위한 평가기준에 대해 만전을 기하고 있다”고 설명했다. 이렇게 완성된 학습데이터는 한국정보화진흥원의 AI 통합플랫폼 ‘AI HUB’를 통해 일반에게 공개된다. 

오는 11월에는 특별한 행사도 준비되어 있다. 올포랜드가 수집‧구축한 도로 환경 데이터 셋을 활용해 다양한 아이디어와 서비스를 경험할 수 있는 ‘해커톤’ 행사가 그것. 한정된 기간 내에 기획자, 개발자, 디자이너 등이 팀을 구성해 아이디어를 뽐내는 일종의 경연대회로, 이 자리에서는 똑똑한 자동차를 위한 다양한 소프트웨어 서비스의 시연도 경험할 수 있을 전망이다.  

 

[MINI INTERVIEW] 

김은형 도로환경 파노라마 이미지 AI데이터 구축사업 관리 총괄(올포랜드 이사)

 

-금번 인공지능 학습용 데이터 구축 사업의 의의는?
“인공지능 소프트웨어를 만들거나 알고리즘을 개발하는 업무는 굉장히 전문적인 영역이다. 그에 비해 학습 데이터 구축은 일일이 사람 손을 거쳐야 하는 노동집약적인 업무라 할 수 있다. 개별 스타트업이나 연구진이 자비를 들여 수행하기 힘든 이유이자, 국가에서 전략적으로 추진하기에 적합한 이유다. 미래를 위한 투자이기도 하지만 현재를 위한 대안이기도 하다. 앞서 언급했듯 노동집약적이기 때문에 실업구제 효과도 크다. 최근 코로나19사태로 고용 불안이 심하기 때문에 주무부처에서도 인력 채용에 대한 강조가 많았고, 실제로 크라우드 소싱 인력을 많이 활용하기도 했다.”

-인공지능 기술 분야에는 어떤 영향을 줄까?
“1970년대 건설한 경부고속도로가 산업국가로의 변모를 가속화 했고, 2000년대 초반 전 세계에서 최초로 전국 네트워크 통신망을 구축한 것이 IT 강국이 되는 기반을 제공했다. 이렇듯 어느 분야에서 한 단계 ‘점프 업’을 할 때 국가의 전략적 선도가 계기가 되어줄 수 있다. 이번 사업이 우리나라의 인공지능 활용 기술을 ‘점프 업’하는 계기가 되어 줄 것으로 기대한다. 특히 공공재의 성격으로 쓸 수 있는 데이터를 확보한다는 측면에서 관련 연구진이나 벤처기업들에게는 좋은 기회가 될 것이다.”

-사업을 수행하는 과정에서 가장 어려웠던 점은?
“범용성을 충족시키는 게 까다로웠다. 많은 사람들이 편하게 쓰려면 어떤 부분을 맞춰줘야 할지 계속 고민했고, 지금도 고민하고 있다. 방대한 데이터들의 품질 수준을 균일하게 맞춰야 하는데, 그 작업이 쉽지만은 않다. 크라우드 소싱 인력을 채용해야 하는 이슈도 이런 어려움을 가중시킨다. 균일한 품질을 유지하려면 작업자들의 숙련도도 균일해야 하는데, 짧은 시간에 이를 모두 만족시키려다 보니 어려움이 따랐다. 기술 주도국에는 데이터 라벨링을 전문적으로 하는 ‘라벨러’라는 직업군이 탄생할 정도라고 하는데, IT 작업을 어려워하지 않는 경단녀, 퇴직자, 미취업자들이 이번 사업을 계기로 일회성이 아닌 지속가능한 직군으로 정착할 수 있기를 기대해 본다.”

 

필자소개
최태욱

눈이 보면, 마음이 동하고, 몸이 움직이는 액션 저널리즘을 꿈꿉니다.


Story 더보기
  • [메디컬 info]  3월 21일 암예방의 날, 사망원인 1위 ‘암’… 예방과 조기검진 아무리 강조해도 지나침 없어
    [메디컬 info] 3월 21일 암예방의 날, 사망원인 1위 ‘암’… 예방과 조기검진 아무리 강조해도 지나침 없어

    [더퍼스트 임한희 기자] 매년 3월 21일은 2006년 세계보건기구(WHO)가 지정한 ‘암 예방의 날’이다. 세계보건기구는 암 발생의 3분의 1은 예방 가능하...

  • 존중의 힘으로 구축한 모빌리티 유니버스…“이젠 소비자 곁으로 바짝!”
    존중의 힘으로 구축한 모빌리티 유니버스…“이젠 소비자 곁으로 바짝!”

    강성근 대표이사가 그리는 차봇모빌리티의 과거와 현재, 그리고 미래

  • “이수명리학, 시대의 아픔과 갈등 극복하는 열쇠 될 것”
    “이수명리학, 시대의 아픔과 갈등 극복하는 열쇠 될 것”

    당신의 이름에는 '대운'이 담겨 있습니까?