기사 메일전송
신소재경제신문·재료연구소 공동기획 소재기술백서 2017(18)-제3장 AI용 반도체 소재-인공지능 반도체 소재 기술(2)-집필 박병국(서울대) - AI 단일칩, 반도체 패러다임 바꾼다
  • 기사등록 2019-09-10 16:46:18
  • 수정 2019-09-10 16:47:15
기사수정
재료연구소가 발행한 ‘소재기술백서’는 해당분야 전문가가 참여해 소재 정보를 체계적으로 정리한 국내 유일의 소재기술백서다. 지난 2009년부터 시작해 총 9번째 발간된 이번 백서의 주제는 ‘4차 산업혁명 대응소재’다. 센서, 3D프린팅, AI용 반도체, 빅데이터 이용 소재 개발 등으로 나눠 각 분야별로 가치 있고 다양한 정보를 담았다. 이에 본지는 재료연구소와 공동기획으로 ‘소재기술백서 2017’을 연재한다.

AI 단일칩, 반도체 패러다임 바꾼다


■ 기술의 중요성


지금 전 세계는 4차 산업혁명이라는 변화의 물결을 맞이하고 있다. 4차 산업혁명은 인공지능, 로봇공학, 사물 인터넷(IoT), 무인 운송 수단, 3차원 인쇄, 나노 기술과 같은 6대 분야를 포함하며, 단순한 기술의 발전을 넘어서 모든 산업 구조에 변화를 가져올 것으로 보인다.


특히, 6대 기술 중 가장 핵심이 되는 분야는 인공지능으로, 현재는 소프트웨어 기반의 인공신경망 기술이 인공지능 분야 전반을 주도하는 중이다. 이러한 소프트웨어 기반 기술은 연산을 순차적으로 처리하는 폰 노이만 컴퓨팅에 적합하도록 개발된 기존의 디지털 하드웨어에서 운용되어 막대한 컴퓨팅 자원과 엄청난 전력 소모를 요구하고 있다. 이에 따라 전용 하드웨어를 구현하는 인공지능 반도체는 범용 하드웨어 기반 인공지능의 부족한 성능과 지나친 전력 소모 문제를 해결할 수 있는 새로운 패러다임으로 주목받고 있다, 기존의 CMOS 기술을 바탕으로, 인공신경망에 특화된 NPU, TPU 등의 새로운 하드웨어(1세대 인공지능 반도체)의 개발이 이루어지고 있으며, 더 나아가 실제 신경계의 뉴런과 시냅스를 전자소자로 모방하여 연산장치의 크기와 전력소모를 획기적으로 줄일 수 있는 2세대 인공지능 반도체 기술 연구가 진행되고 있다.


인공신경망 연산에 적합하지 않은 하드웨어 상에서 주로 소프트웨어에 의존하여 발전해온 인공지능은 에너지 효율이나 성능 면에서 한계점에 도달한 상태이고, 향후 인공지능을 견인할 추진력은 인공지능 반도체에서 나올 것으로 예상된다. 또한 인공지능을 단일 chip으로 구현하는 초저전력/초고집적 반도체 기술이 반도체 산업 전반의 패러다임(paradigm) 변화를 가져올 것으로 예상되는 바, 이에 대한 대응책 마련과 연구개발 정책이 반드시 필요한 시점이다.


■ 1세대 인공지능 반도체


1) 국내 동향


국내 인공지능 반도체 연구는 1991년 KT 연구개발단에서 640 개의 시냅스를 가진 반도체 신경망 칩을 개발하면서 시작되었다고 할 수 있다.


이어 KT 연구팀은 1993년 13만5천 개의 시냅스를 가지는 신경망 칩을 개발하여 파리 수준의 인공지능을 구현할 수 있다고 발표하였다. 하지만 이후의 연구는 심층신경망에서 오차 역전파 기법을 적용하기 어렵다는데서 비롯된 인공신경망의 제2의 암흑기와 맞물리면서 중단되고 말았다.


본격적인 국내 인공지능 반도체 연구는 2008년 KAIST에서 컨볼루션 신경망(CNN)을 내장한 ‘시각 인식 칩’을 발표하면서부터 재개되었고, 이후 인공지능 개념을 도입한 증강현실(Augmented Reality, AR) 단일 칩 시스템(System on Chip, SoC)을 개발하고 이를 안경형 기기인 K-Glass로 구현하여 2014년에 발표 하는 등 선도적인 연구가 진행되고 있다. 2017년에는 KAIST에서 컨볼루션 신경망과 재귀신경망(CNN-RNN)을 모두 지원하며 사용자가 원하는 대로 임의의 심층신경망을 구현할 수 있는 범용 신경처리장치(General Purpose Neural Processor Unit)를 발표한 바 있다.


이 집적회로는 4 개의 컨볼루션 클러스터(cluster)와 1 개의 완전연결-재귀 프로세서로 구성되어 있으며, 하나의 컨볼루션 클러스터는 4 층의 컨볼루션층을 동시에 처리할 수 있고, 완전연결-재귀 프로세서는 8 개의 재귀층을 동시에 처리할 수 있다. 0.765∼1.1 V 전원전압을 사용하고, 50∼200 MHz 클록 주파수에서 동작한다. 0.765 V와 1.1 V에서 각각 34.6 mW와 279 mW의 전력을 사용하며, 50 MHz와 200 Hz에서 각각 8.1 TOPS/W (tera operations per second per watt) 및 3.9 TOPS/W의 높은 에너지 효율을 보였다. 이 집적회로는 65 nm CMOS 기술로 제작되었으며, 16㎟의 면적을 차지한다.


韓 1991년 KT 시작·2017년 KAIST 범용 신경처리장치 발표

美 국가주도 기업·대학참여, 유럽 EU주도 인간 뇌 직접연구


2) 해외 동향


미국은 2008년에 시작되어 2017년까지 진행된 SyNAPSE (Systems of Neuromorphic Adaptive Plastic Scalable Electronics) 프로그램을 통하여 국가 주도로 인공지능 반도체 연구를 추진해 왔다. 두뇌 신피질(neocortex)의 인지기능을 구현하는 새로운 구조의 인지컴퓨터 개발을 목표로 4가지 핵심기술(하드웨어 요소기술, 새로운 패러다임의 컴퓨팅 구조, 대규모 인지컴퓨터 전산모사, 학습 환경 플랫폼 개발)을 5단계(Phase 0∼4)로 나누어 연구해 왔으며, 참여 기관은 IBM, HRL Lab 및 4개 대학(스탠포드, 보스턴, 조지 메이슨, 포틀랜드)이었다.


SyNAPSE 프로그램의 대표적인 성과로는 IBM의 TrueNorth 집적회로 개발을 들 수 있다.


IBM은 본격적인 TrueNorth 개발에 앞서 256개의 뉴런 역할을 하며 32 kB의 메모리로 구성된 디지털 뉴로모픽 코어를 개발하였는데, 이는 CMOS를 이용한 코어로 시냅스 가중치는 SRAM에 저장하고, 사건구동적인 스파이크 신경망을 구현하도록 설계되었다. (이와 함께 RRAM 기반 시냅스 어레이도 개발하였지만, 실제로 TrueNorth에 탑재하지는 않았다.) 2014년에 발표된 TrueNorth 칩은 256개의 뉴런 역할을 하는 코어를 4,096개 집적하고, 시냅스용 32MB SRAM 메모리로 구성된 뉴로모픽 집적회로로, 1 kHz의 광역 클록(global clock)에 의해 1 ms의 시간 단위(time step)로 동작하며, 63 mW의 전력을 소모한다.


100만 개의 뉴런과 최대 2억 7천만 개(시냅스 당 1 bit의 가중치를 사용하는 경우에 해당, 시냅스 당 4 bit의 가중치를 사용하면 6천 8백만 개)의 시냅스를 가지고 있으며, 시냅스 하나가 스파이크 당 사용하는 평균 에너지는 26 pJ이라고 밝혔다. 뉴런 수에서는 SyNAPSE 프로그램의 목표 집적도인 106/cm2을 달성했다고 볼 수 있지만 시냅스 수에서는 (1 bit 시냅스를 사용할 수 있다고 가정해도) 목표 집적도인 1010/cm2에 터무니없이 못 미치는 결과이다. 이러한 결과가 나오게 된 주 원인은 CMOS SRAM을 시냅스 가중치 저장에 사용한데 있는 것으로 보인다. CMOS SRAM은 1 bit을 저장하는 메모리 셀을 구성하기 위해 6 개의 MOSFET (Metal-Oxide-Semiconductor Field Effect Transistor)이 필요하며 문턱전압의 정합(matching)을 위해 다른 회로보다 더 큰 MOSFET을 사용해야하고, 금속 배선과의 접촉부와 내부 배선 문제 등으로 집적도가 다른 메모리에 비해 형편없이 떨어진다. 그럼에도 불구하고 CMOS SRAM을 사용한 것은 전력 소모를 낮추기 위해서인데, SRAM은 휘발성이므로 대기(standby) 상태에서 전원을 차단하면 안 되기 때문에 궁극적으로 시냅스 가중치 저장에 적합한 메모리인지에 대한 의문의 여지가 있다.


시냅스 집적도의 부족에 더해 TrueNorth가 지니고 있는 또 하나의 약점은, 현재의 범용 하드웨어(CPU + GPU) 세대보다 나아지기는 했지만 아직 생물학적 신경망 보다는 훨씬 낮은 에너지 효율이다. 뉴런 106 개가 63 mW의 전력을 소모하므로, 인간 뇌 수준의 시스템이 되려면 6.3 kW를 사용해야 하고, 이 값은 인간 뇌가 사용하는 전력의 300배가 넘는다. 비슷한 연산능력을 가정할 때, TrueNorth는 인간 두뇌의 1/300 정도의 에너지 효율을 갖는 것이다. (여기에 시냅스 수와 시냅스 당 bit 수를 적정한 수준으로 늘려야 한다는 점까지 고려하면 TrueNorth의 에너지 효율은 인간 두뇌의 1/30,000 수준으로 떨어질 수도 있다.)


유럽에서는 유럽연합(European Union, EU) 주도로 사람의 두뇌를 모사하는 ‘가상두뇌’를 구현하는 것을 목표로 하는 인간 두뇌 프로젝트 (Human Brain Project, HBP)를 수행하고 있다. 심각한 질병들을 치료하고 예방하기 위하여 인간 두뇌 메커니즘에 대한 연구가 활발하게 진행되었으나, 천억(1011) 개의 뉴런과 천조(1015) 개의 시냅스로 구성된 두뇌를 직접 연구하는 것은 한계가 존재한다. 이러한 한계를 극복하고자 HBP에서는 인간의 뇌를 컴퓨터로 구현하고, 뇌 시뮬레이션을 통한 질병 예방 및 치료를 넘어, 새로운 컴퓨팅 구조를 설계하여 새로운 인공지능 플랫폼을 구현하는 것을 목표로 하고 있다. HBP의 주요 임무는 뇌의 구조 및 기능에 관한 데이터 확보, 슈퍼컴퓨터와 소프트웨어로 구성된 IT 플랫폼 구축, 대표적인 뇌질환에 대한 치료법 제시, 뇌에 대한 이론체계 수립 등이다.


HBP의 주요 성과물로서 BrainScaleS(Brain-inspired multiscale computation in neuromorphic hybrid systems)와 SpiNNaker 집적회로를 들 수 있다. BrainScaleS는 물리적 모델 뉴로모픽 컴퓨팅 시스템으로, 웨이퍼 당 20만 개의 뉴런과 4000만 개의 시냅스를 집적하고 이들을 연결한 웨이퍼(wafer)를 하나의 모듈로 하여 시스템을 구성한다.15) 5장의 웨이퍼를 사용해야만 100만 개의 뉴런을 구현할 수 있으므로, TrueNorth에 비해 집적도나 에너지 효율 면에서 엄청나게 뒤처짐을 알 수 있다.

영국 맨체스터대학교에서는 10억 개의 뉴런을 실시간으로 시뮬레이션하고 인간 뇌질환을 극복하기 위한 뇌 모델을 개선하는데 목표를 두고 2011년부터 ‘SpiNNaker 프로젝트’를 수행한 결과, 그 빌딩블록으로 18개의 ARM968 프로세서 코어를 집적한 다이(die)와 128MB SDRAM(Synchronous Dynamic Random Access Memory) 메모리 다이를 결합한 SpiNNaker 칩을 개발하였다.16) 18개의 코어 중 한 개는 시스템을 운영하는 모니터(monitor) 코어로 사용되고, 16 개의 코어가 응용 프로그램을 위해 사용되며, 나머지 한 개는 오류 허용(fault tolerance) 또는 제조 수율 향상을 위해 예비용으로 사용된다. 코어 간 통신은 신경생물학에서 영감을 얻은 효율적인 다중방송(multi-cast) 구조를 기반으로 하고 있으며, 생물학적인 시스템의 고도 연결성을 모사하기 위하여 패킷 스위칭 네트워크를 사용한다. SpiNNaker의 다이 면적은 100㎟ 정도이다.


SpiNNaker에서 하나의 코어는 뉴런 1,000개 정도를 구현하는 역할을 하므로, 칩 당 뉴런 수는 16,000 개 수준인 것으로 추정된다. BrainScaleS에 비해서는 훨씬 높은 집적도를 갖지만, TrueNorth에 비해서는 매우 낮은 집적도를 보이고 있다. ARM 코어의 에너지 효율이 높다고는 하지만, ARM 코어도 CPU 코어의 하나이기 때문에 에너지 효율 면에서 TrueNorth에 비해 훨씬 낮을 것으로 보이며, 여기에 더해 집적도가 낮기 때문에 에너지 효율은 더욱 낮을 것으로 추정된다. 메모리로 리프레시(refresh)가 필요한 SDRAM을 사용한다는 점도 SRAM을 사용하는 경우보다 에너지 효율을 크게 떨어뜨리는 요인으로 작용할 것이다.


중국은 범국가적 프로젝트인 China Brain Project(CBP)를 시작하여, 기초 뇌 연구부터 인공지능 반도체, 군사용 드론 등 폭넓은 인공지능 연구 개발을 진행하고 있다. CBP에서는 인공지능 산업 세계 선도를 위해 3단계로 나누어 각각의 단계에 이루어져야 할 연구 및 산업 규모에 대한 목표를 설정하고 있다. 1단계(∼2020년)에서는 세계 선진국 수준의 차세대 인공지능 이론 및 기술 수준 확보를 목표로 하고, 2단계(∼2025년)에서는 인공지능 기본 이론의 중요한 돌파구를 달성하여 기술 및 응용프로그램에 있어 세계 최고 수준 달성을 목표로 하며, 3단계(∼2030년)에서는 인공지능 이론, 기술, 시스템의 새로운 세대를 형성하고 관련 법률, 정책 시스템 및 안전 제어 체계를 확립하는 것을 목표로 하고 있다. 산업계에서는 바이두(百度)가 적극적으로 참여하고 있다.

▲ <그림 3-3-2-9>컨볼루션 신경망과 재귀신경망(CNN-RNN)을 모두 지원하는 범용 신경처리장치(General Purpose Neural Processor Unit)


▲ <표 3-3-2-1>SyNAPSE 프로그램의 단계별 목표


▲ <그림 3-3-2-10>IBM TrueNorth 칩의 레이아웃. 시냅스로 사용되는 메모리 (static random access memory, SRAM) 부분과 데이터 처리를 수행하는 뉴런 부분으로 구성되어 있으며 이들을 효율적으로 제어하고 연결하기 위한 axon과 router 등의 주변 회로도 포함하고 있음.


▲ <표 3-3-2-2>HBP 분야별 연구목표


▲ <그림 3-3-2-11>뉴런 20만개와 시냅스 4000만개를 집적한 BrainScaleS 웨이퍼



0
기사수정

다른 곳에 퍼가실 때는 아래 고유 링크 주소를 출처로 사용해주세요.

http://www.amenews.kr/news/view.php?idx=40310
기자프로필
프로필이미지
나도 한마디
※ 로그인 후 의견을 등록하시면, 자신의 의견을 관리하실 수 있습니다. 0/1000
프로토텍 11
서울항공화물 260
이엠엘 260
린데PLC
im3d
엔플러스 솔루션즈
모바일 버전 바로가기