Technical Article
제품 및 Tools
DDR 시대의 마감, 시리얼 메모리의 부상
DDR 시대의 마감, 시리얼 메모리의 부상
2014-11-02
DDR 시대의 마감, 시리얼 메모리의 부상
글/ 타마라 슈미츠(Tamara I. Schmitz),
자일링스 메모리 및 전력 부문 테크니컬 마케팅 디렉터
거대한 변화가 메모리의 지형을 뒤흔들고 있다. 이러한 변화는 자일링스 고객의 90%가 사용하고 있는 기본 버퍼이자(그림 1 참조), 대중적으로도 이미 폭넓게 확산되어 있는 DDR 메모리 라인이 DDR4에서 마감될 것이라는 사실에서 기인하고 있다. 하지만 DDR3는 여전히 대부분의 시스템 보드에서 충분한 어드레스를 갖추고 있고, DDR4도 느리기는 하지만, 이러한 소켓의 일부를 대체하고 있고, 앞으로 몇 년 동안은 이를 지원할 수 있기 때문에 즉각적인 혼란이 야기되지는 않을 것이다. 그런데도 DDR4가 차세대 주자가 되지 않을 것이라고 생각하는 고객들은 대역폭이나 용량, 전력소모 절감 등과 같은 트레이드-오프를 고려하거나, 다음 세대의 메모리 주자를 검토하고 있다. 후계주자로는 HMC(Hybrid Memory Cube)와 같은 특정 애플리케이션 영역에서 선호되고 있는 시리얼 DRAM 솔루션과 함께 LPDDR3/4가 될 것으로 예상되고 있다
이러한 메모리 분야의 중요한 변화를 이해하기 위해서, DDR 제국의 종말을 불러온 한계는 무엇인지, 그리고 이러한 디바이스에 영향을 미치는 마켓흐름은 어떠한지를 먼저 살펴보도록 하자. 그런 다음, LPDDR에서 시리얼 메모리에 이르기까지 새로운 차원의 DDR의 대안들과 디자이너들이 계속해서 정보를 얻고자 하는 새로운 컨셉에 대해서도 고찰해 보도록 하자.
그림 1. 이 차트는 2013년에 비바도(Vivado) MIG(Memory Interface Generator) GUI를 통해 산출된 자일링스 고객들의 메모리 활용도를 보여준다.
변화하는 마켓의 흐름
보통 고객들이 차세대 제품을 디자인하는 경우, 보다 많은 용량과 속도, 처리량을 제공하는 동일한 메모리의 차세대 제품을 고려한다. 이와 관련하여, 그림 2는 현재 및 미래의 DRAM 마켓의 점유율 동향을 보여주고 있다. DDR3는 오늘날의 전체 DRAM 마켓의 거의 70% 가량을 차지하고 있으며, 지난 2009년과 2010년 사이에 40%의 가파른 상승세를 기록하며 급부상했다. DDR4는 보다 느리게 확산되고 있는데, 이는 부분적으로는 LPDDR로 알려진 모바일 DRAM의 갑작스런 등장 때문이기도 하다. LPDDR이 무선 마켓의 요건을 충족시켜 나간다면, DDR4가 이 정도 규모의 소켓을 차지하기도 쉽지 않을 것이다.
그래프를 보면, DDR4는 확실히 탄력을 받고 있으며, 이는 전력을 절감할 수 있는 낮은 공급전압과 높은 속도라는 장점을 가지고 있기 때문이다. 따라서 거의 모든 마켓에서 DDR3를 대체해 나갈 것이며, 결국은 PC 영역을 주도하게 될 것이다. PC가 더 이상 DRAM 소모의 70% 이상을 주도하지 못한다 하더라도, 이는 여전히 가장 큰 상용 디바이스 영역이다. 메모리 벤더들에 따르면, 당분간 DDR4의 적용은 개인 전자기기 시장보다는 서버 분야에 더욱 국한될 것으로 보인다. 하지만 DDR4는 여전히 여러 디자인 분야를 위한 탁월한 선택이다. 이미 잘 알려진 메모리 타입인데다, 특히 후계주자가 없기 때문에 상당히 오랫동안 유지될 것이다.
그림 2. DRAM 메모리 마켓의 동향은 LPDDR(모바일 DRAM)에서 상당한 이익을 얻을 것으로 보인다.
왜 DDR4가 마지막인가?
왜 DDR5는 없는 것일까? 최종 고객들이 새로운 기기를 원하는 경우, 그들은 더 큰 메모리를 원한다. 고객들은 메모리 대역폭에 대해 한없는 요구를 가지고 있다. MP3 플레이어는 카세트 테이프처럼 수십여 곡을 담는 것이 아니라 1만여 곡의 노래를 담아야 한다. 이는 스마트폰에 저장되는 사진이나 비디오 수에도 동일하게 적용된다. 이러한 기대치는 일반적으로 더 많은 컴포넌트와 더 큰 보드 공간을 필요로 한다. 하지만 아이러니하게도 고객들은 자신들의 전자기기가 용량이나 성능에 비례하여 크기가 늘어나는 것을 원하지 않는다. 기술이 향상될 것이라는 기대 때문에 동일한 공간, 혹은 심지어 보다 작은 공간에 더 많은 것을 요구하고 있다.
메모리를 자일링스(Xilinx®) FPGA와 함께 사용하는 경우에는 적절한 마진과 전반적인 시스템 성공을 유지하기 위해 어떻게 보드 레이아웃을 할지에 대한 구체적인 가이드라인이 있다. 예를 들어, 트레이스 길이나 종단 레지스터, 라우팅 레이어 등이다. 이러한 룰은 얼마나 디자인을 소형화할 수 있는지, 또는 어떻게 부품을 촘촘하게 배치할 수 있는지를 제한한다. 최소형 보드 디자인의 대안은 최첨단의 패키징 타입이 될 수도 있다. 하지만 불행히도 TSV(Through-Silicon Via) 기반의 다이 적층형을 비롯한 새로운 패키징 기술은 상당히 큰 비용 부담이 수반된다. DDR 메모리는 산업 인프라의 규모의 경제를 기초하는 고가의 디바이스도 아니며, 패키징을 급격하게 새로 전환하거나 증가하는 가격대를 수용하기도 어렵다. 따라서 이러한 발전들은 가까운 미래에 아마도 어떠한 DDR3나 DDR4 시스템에서는 일어나지 않을 것이다.
또한 고객들은 보다 빠른 속도를 원한다. 시스템을 보다 빠르게 구동하는 것은 보드 디자인에서 영향을 받는다. DDR은 싱글-엔디드 신호를 가진 메모리로 적절한 종단이 필요하다. 시스템을 더 빠르게 구동하고, 적절한 기능을 유지하기 위해서는 메모리에서 FPGA까지 더 짧은 트레이스가 필요하다. 이를 위해서는 디바이스를 FPGA에 더욱 가깝게 배치해야 한다. FPGA와의 제한된 거리는 디자인에 사용할 수 있는 메모리 디바이스의 수를 제한하게 된다. 대부분의 DDR4 디자인은 가능한 많은 디바이스들이 FPGA 주변에 배치되면서 점차 한계에 이르고 있다.
더 많은 메모리를 원한다면, 더 많은 디바이스가 필요하다. 더 빠른 속도를 원한다면, 더 가깝게 배치해야 한다. 고정된 규모의 공간 안에 채울 수 있는 메모리 디바이스의 양은 한계가 있다. DDR5의 속도를 조금이라도 향상시킨다면, 메모리 디바이스를 위한 이용 가능한 공간은 줄고, 이용 가능한 용량도 감소하게 될 것이다.
DDR3는 어떻게 성공할 것인가?
DDR4는 완벽하게 DDR3를 대체할 수 있을까? 아마도 모든 경우는 아닐 것이다. 마켓 동향에서 살펴봤듯이, 서버 마켓은 DDR4를 적용하고 있지만, 당분간 저가의 DDR3는 개인용 컴퓨팅 시장에서 지속적으로 우세를 점할 것이다. 소비자들은 계속해서 더 빠른 속도 및 더 많은 메모리 용량을 요구할 것이며, 결국 언젠가 PC 시장도 DDR4로 이행하게 될 것이다.
DDR5가 없다고 가정한다면, 다른 선택이 가능할까? 아마도 DDR3나 DDR4를 대체하는 것은 LPDDR4가 될 가능성이 크다. LP는 ‘저전력(Low Power)’를 의미한다. 저전력 DDR4는 사실 무선 마켓에 최적화된 DDR(Double-Data-Rate) 메모리의 일종이다. LPDDR의 장점은 대중적이고, 이미 잘 알려져 있으며, 사양이 정의되어 있고, 현재 이용 가능하다는 점이다. 저전력 최적화로 인해 LPDDR4는 DDR 보다 약간 고가이지만, DDR이 사용하는 I/O 핀을 사용하고 있다. 따라서 DDR이 구동하는 동일한 주파수 범위에서 LPDDR4도 동작하기 때문에 마이그레이션이 용이하다.
하지만 가장 큰 트레이드-오프는 수명주기이다. 무선 마켓은 제품의 주기가 6개월에서 9개월마다 바뀌기 때문에 LPDDR 메모리도 빠르게 변화한다. 대기업이 제품을 10년에서 15년 동안 판매한다면, 매 6개월에서 9개월마다 변화하는 메모리를 적용하기는 어렵다. 아마도 제조업체가 이 회사와의 특수계약을 통해 이러한 디바이스 중 하나의 버전을 10년에서 15년 동안 공급한다는 보장을 한다면 가능할 것이다. 현재 이러한 비즈니스 모델은 존재하지도 않고, 특수계약이 반드시 체결되어야 한다. 물론 이러한 계약에는 공정 플로우를 보존하는 것이 포함될 수 있는데, 대규모 비즈니스로서 가치가 있는 경우에 한해 고비용의 노력이 수반된다.
LPDDR이 아니라면, 다른 대안은?
LPDDR 이외에도 차세대 메모리 주자가 되기 위해 경쟁하고 있는 다른 메모리 옵션이 있다. 시리얼 메모리가 가능한 대안으로 부상하고 있는데, 이는 메모리 분야에서 고려하고 있는 것과는 완전히 다른 방식이다.(그림 3 참조).
그림 3. 디자이너는 LPDDR4 및 HMC와 같은 시리얼 메모리 간의 트레이드-오프를 고려해야 한다.
FPGA 분야에서는 메모리가 마지막 개척지이며, 시리얼로 가는 마지막 영역이다. 이는 지연 때문이다. 데이터를 병렬 스트림에서 직렬로 전환하고 이를 시리얼 링크로 보내서 다시 시리얼에서 병렬로 전환하는데 걸리는 시간은 항상 너무 길다. 현재 시리얼 링크를 이용함으로써 발생하는 트레이드-오프는 일부 애플리케이션에서는 허용 가능한 수준이다.(CT 스캐너 또는 천체 스캐닝 망원경 세트를 위한 테스트 및 측정 시스템과 같이 다중 쓰기 및 적은 읽기가 해당되는 분야) 반면, 품질의 척도가 데이터를 쓰고, 이와 동일한 데이터를 즉각적으로 읽을 수 있어야 한다면, 시리얼 메모리뿐만 아니라 어떠한 형태의 병렬 데이터도 실행할 수 없다. 하지만 뛰어난 메모리의 척도가 고대역폭, 대용량 비디오 저장 및 인터넷을 통한 정보 부하 전송이라면, 시리얼 메모리는 시도할만하다.
지연 이외에도, 동일한 트레이드-오프들도 검토되어야 한다. 수명은 문제가 되지 않지만, 이러한 제품들은 보다 짧은 공급주기의 LPDDR과 비교하면, 요구되는 만큼의 긴 수명이 보장된다. 실제로 시리얼 메모리에 대한 요구가 증가한다면, 여러 벤더들은 당연히 이러한 비즈니스를 유지해 나갈 것이다.
I/O 핀을 사용하는 대신 시리얼 메모리는 SERDES 기술을 활용한다. FPGA에서는 높은 속도로 동작하는 시리얼 인터페이스(트랜시버)를 사용할 수 있다. 최근에는 지연감소 요구에 따라 벤더들도 이러한 문제를 해결하고 있으며, 뛰어난 시리얼 기술은 15Gbps의 매우 높은 처리량을 지원할 수도 있다. 30Gbps에 달하는 차세대(HMC의 경우) 기술도 계획되어 있다. 사람들은 ‘새로운 것(NEW)’을 좋아하는 반면, 동시에 낯선 것을 두려워한다. 또한 새로움은 생산율을 제한하기도 하고, 높은 초기 비용을 유발하기도 한다.
HMC(Hybrid Memory Cube)
DDR DRAM을 대체할 수 있는 가장 강력한 시리얼 메모리 후보는 HMC(Hybrid Memory Cube)로, HMC 컨소시엄이 프로모션을 하고, 마이크론(Micron)이 주도하고 있다.(그림 4 참조) 후원자들은 적극적으로 HMC 광고를 수행하고 있다. 사람들은 심지어 시리얼 메모리(Serial Memory)의 머리글자를 일반적으로 이용하기 시작했다. 실제로 HMC는 시리얼 메모리 타입 중 하나이다.
그림 4. HMC(Hybrid Memory Cube)는 TSV(Through-Silicon Via) 구조에 기반하고 있다.
HMC와 더불어, MoSys 또한 일종의 시리얼 SRAM인 대역폭 엔진(Bandwidth Engine)을 개발 중에 있으며, 브로드컴(Broadcom)이 시리얼-인터페이스 제품인 TCAM을 공급하고 있다. 미래의 스펙트럼 중 다른 한편에서는, 삼성과 SK 하이닉스가 엄청나게 넓은 병렬 인터페이스를 갖추고 있는 TSV 기반의 DRAM 스택인 HBM(High-Bandwidth Memory)을 프로모션하고 있다. 이러한 선택은 병렬 인터페이스를 사용하기 때문에 위험이 더 낮을 것으로 보인다.
하지만 현 시점에서 DDR3 및 DDR4의 마켓 점유율을 가져올 수 있는 가장 강력한 도전자는 HMC이다. HMC는 2G 또는 4G 패키지를 구현하기 위해 상단의 로직 레이어 상에 TSV 기술로 함께 연결된 4개 혹은 9개 스택의 DRAM을 갖추고 있다. 이 로직 레이어는 인터페이스를 간편하게 만들어준다.
만약 더 많은 용량이 필요하다면, 최고 8개의 디바이스를 데이지 체인 방식으로 연결할 수 있다. 하나에서 4개의 링크까지 가능한 것을 고려하면(링크의 절반에서도), 256bit의 액세스 및 방대한 양을 처리할 수 있다. 각 링크는 16개의 트랜시버(링크의 절반 당 8개)로 구성되는데, 모두 15Gbps를 처리할 수 있다. 이는 메모리 디자이너들이 이전에는 구현할 수 없었던 엄청난 양의 대역폭이다.
표 1에서는 DDR 솔루션 전반에 걸쳐 대역폭 향상을 확인할 수 있으며, 3가지 디자인을 보여주고 있다. 각각의 3가지(DDR3, DDR4, HMC) 타입의 메모리는 60Gbps를 지원하도록 만들어졌다. 핀 수는 HMC 솔루션이 최소 8배까지 적었으며, 보드 복잡성 및 라우팅을 획기적으로 간소화할 수 있다.(그림 5 참조) 고대역폭 SERDES 링크를 통해 보다 적은 디바이스, 여기에서 언급한 경우에는 하나 만으로도 가능하다. 이러한 단일 디바이스와 FPGA는 거의 20배까지 보드 공간을 절감할 수 있다. 마지막으로 HMC 솔루션은 비트당 전력소모가 3분의 1에 불과하다. 이로 인해 HMC가 이전에는 DDR4의 영역이라고 생각되었던 마켓의 일부를 가져올 수 있을 것으로 내다보는 사람들이 많아지고 있다.
그림 5. DDR3 기반의 2x100GE 디자인 모형(좌측)과 HMC(우측). 보드 공간을 절감하고 간소화하는 라운팅이 인상적이다.
표 1. 60Gpbs를 지원하는 3가지 메모리 타입에서 필요로 하는 리소스 비교
다른 시리얼 메모리들
‘HMC’ 및 ‘시리얼 메모리’는 종종 실수로 교체 사용되거나 때때로 새로운 고대역폭 메모리를 대신하는 경우가 있기 때문에 새롭게 출현하고 있는 다른 새로운 메모리들을 찾아보는 것도 유용하다. 이러한 범주에서 상위 3개의 도전주자는 MoSys의 대역폭 엔진과 브로드컴의 TCAM, 그리고 삼성 및 SK 하이닉스, 인텔이 프로모션하고 있는 HBM이다.
MoSys의 BE2(Bandwidth Engine)는 시리얼 SRAM과 유사하지만, 시리얼 DRAM은 아니며, 16Gbps를 달성하는 트랜시버를 사용하고 있다. 하지만 BE2는 DDR을 대체할 수 있을 것 같지는 않다. 대신 72bit 액세스 및 낮은 지연 특성을 갖춘 이 기술은 QDR이나 RLDRAM을 겨냥할 것으로 보인다. 애플리케이션은 DDR의 경우처럼 패킷 버퍼 대신, 패킷 헤더나 LUT(Lookup Table)를 위한 스토리지가 될 것으로 예상된다.
TCAM은 3진 콘텐트 어드레서블 메모리(Ternary Content-Addressable Memory)의 약자이다. 이 특수 고속 메모리는 고성능 라우터나 스위치에서 다양한 패턴 매칭 검색을 수행한다. 고성능은 상당한 비용 및 전력, 열을 수반하게 되며, TCAM은 고속인데다 기본적으로 병렬이기 때문에 이러한 속도를 달성하기 위해 SERDES를 사용하지 않는다. 하지만 브로드컴은 이 메모리의 시리얼 버전을 공급하고 있다. 시리얼 메모리가 갖고 있는 적은 핀 수 및 고속의 장점을 활용하기 위한 이러한 방법은 여전히 TCAM 솔루션과 결부되어져 있다.
세 번째 메모리 타입은 HBM이다. 종종 발생하는 HMC와 HBM 간의 논쟁에 현혹되지 말아야 한다. 사람들이 인식하지 못하고 있는 것은 HBM 디바이스를 구매할 수 없다는 것이다. HBM을 적용하고 싶다면, 예를 들어, SK 하이닉스에서 다이를 구매한 다음, 이를 인터포저나 실리콘 기판 상의 패키지 안에 다이를 탑재시켜야 한다. 이러한 고대역폭 병렬 메모리를 구동하기 위해서는 디바이스와 메모리 간의 연결을 인터포저 디자인 안에 포함시켜야 한다.
이러한 메모리 타입으로 마켓을 장악하기 위해, 업체들은 기업 기밀과 관련된 정보를 공유할 것인지를 결정해야 하며, 표준 채택(인터포저 디자인, 높이, 인터페이스, 허용오차 등)에 동의해야 한다. 이러한 세부적인 사항들을 산출할 수 있다 하더라도 다 끝난 것은 아니다. 반면, HBM의 지연은 작다. 전자가 패키지 안에 있어 매우 짧은 거리를 이동하기 때문이다. 이는 매우 훌륭한 아이디어지만, 너무나도 먼 미래의 일이다.
생산 문제
이러한 솔루션이 모두 혹은 하나라도 성공하기 위해서는 더 많은 공급업체들이 이러한 후보주자들을 업계에 공급하는데 참여하도록 하는 것이다. 현재 생산 중에 있는 하나의 옵션은 MoSys의 BE2이다. HMC는 샘플링 단계에 있고, 올해 말에 양산이 시작될 예정이다. LPDDR4는 올해 중순부터 샘플링이 이뤄질 예정이며, HBM은 스탠드얼론 패키지로는 아직 공급되고 있지 않지만, 자체 패키지 안에 시리얼 HBM을 제공할 수 있다는 이야기는 나오고 있다. 만약 다이를 구매하고, 패키지 안에 자체적으로 HBM을 통합하기를 원한다면, 삼성이나 하이닉스, 혹은 다른 소형 벤더들과 지금 바로 논의할 수 있다.
중요한 점은, DDR3는 아직도 유효하고 매우 강력한 반면, DDR4는 여전히 성장 및 적용 단계에 있다는 것이다. DDR4는 매우 성공적인 메모리 라인의 마지막 제품이기 때문에 아마도 이미 널리 사용되고 있는 DDR3 보다 더 오랫동안 유지될 수도 있을 것이다. LPDDR4는 이러한 간극을 채워주는 후보군이 될 공산이 크지만, 매우 빠른 읽기/쓰기 반복을 하지 않는 한 모든 분야에서 DDR4를 대체할 수는 없을 것이다.
반면, 시리얼 메모리는 눈여겨봐야 할 새로운 주자이다. HMC는 DDR을 대체할 것으로 확실시되고 있으며, BE는 QDR과 RLDRAM을 대체하는 시리얼 솔루션이 될 것으로 예상된다.
박스
자일링스는 어떻게 울트라스케일 메모리 성능을 달성했는가
자일링스(Xilinx®) 울트라스케일(UltraScale™) FPGA는 모든 메모리가 요구하는 보다 높은 성능 및 확장된 유연성에 적합하도록 설계되었다. DDR4는 이미 2,400Mbps의 속도로 데모가 진행되었다. 이러한 세계 최초의 속도 등급은 애질런트(Agilent)가 메모리 디바이스 아래에 삽입되는 인터포저를 설계하고, 동작하는 동안 시스템 아이 다이어그램을 측정했을 때 확인되었다. DDR4는 POD(Pseudo Open Drain)라고 불리는 새로운 타입의 I/O 구조를 사용하기 때문에 자일링스는 POD를 울트라스케일에 추가했다. 이러한 구조는 1.2V의 I/O 전압을 요구하는 DDR4 프로토콜과 함께 결합하여 동일한 속도의 DDR3 시스템과 비교해 최고 35%까지 메모리 인터페이스 I/O 시스템을 절감할 수 있도록 해준다.
또한 울트라스케일은 DDR3 및 DDR4와 더불어 LPDDR3, RLDRAM3, QDRII+, QDRIV 등 광범위한 병렬 메모리를 지원한다. 시리얼 메모리의 경우, 울트라 스케일은 거의 모든 애플리케이션에 적합한 최고 120개의 트랜시버를 갖춘 MoSys의 BE(Bandwidth Engine)와 HMC를 지원한다. 또한 울트라스케일은 메모리 인터페이스 성능 및 FPGA I/O 뱅크 활용을 높이기 위해 내부를 개선했다. 활용성을 개선하기 위해 자일링스는 뱅크당 I/O 수를 늘리고, 각 I/O 뱅크에는 2개의 PLL을 두었다. 이와 더불어 보다 향상된 5피코초의 탭-딜레이(Tap-Delay) 기능도 제공한다. 또한 I/O 뱅크당 4byte 레인을 지원하고, 레인당 13핀이 할당되어 있다. 자일링스는 이외에도 I/O의 프리엠퍼시스 및 이퀄라이제이션을 위한 회로를 추가했다.
쿼드 랭크의 DIMM 모듈과 x4 디바이스가 현 세대 제품에서 지원되고 있으며, 메모리 액세스 깊이를 4배로 늘릴 수 있다. 또한 PHY(Physical-Layer) 지연 향상으로 데이터에 보다 빠르게 액세스할 수 있다. 이러한 방대한 개선 요소들을 통해 메모리 아키텍처는 해당 마켓에서 요구하는 성능 요건에 부합하도록 최적화가 가능하다.
울트라스케일 FPGA는 모든 주요 메모리 표준을 지원한다. MIG IP 위자드를 포함하고 있는 비바도(Vivado®) 디자인 수트는 고객들에게 이러한 혜택을 제공함으로써 문제에 봉착하지 않고 솔루션 개발에 주력하여 보다 빠르게 구현이 가능하도록 해준다.
- 타마라 슈미츠(Tamara I. Schmitz)
울트라스케일 메모리 인터페이스는 시스템 디자인 및 시스템 성능을 모두 향상시킬 수 있도록 수많은 개선이 이뤄졌다
글/ 타마라 슈미츠(Tamara I. Schmitz),
자일링스 메모리 및 전력 부문 테크니컬 마케팅 디렉터
거대한 변화가 메모리의 지형을 뒤흔들고 있다. 이러한 변화는 자일링스 고객의 90%가 사용하고 있는 기본 버퍼이자(그림 1 참조), 대중적으로도 이미 폭넓게 확산되어 있는 DDR 메모리 라인이 DDR4에서 마감될 것이라는 사실에서 기인하고 있다. 하지만 DDR3는 여전히 대부분의 시스템 보드에서 충분한 어드레스를 갖추고 있고, DDR4도 느리기는 하지만, 이러한 소켓의 일부를 대체하고 있고, 앞으로 몇 년 동안은 이를 지원할 수 있기 때문에 즉각적인 혼란이 야기되지는 않을 것이다. 그런데도 DDR4가 차세대 주자가 되지 않을 것이라고 생각하는 고객들은 대역폭이나 용량, 전력소모 절감 등과 같은 트레이드-오프를 고려하거나, 다음 세대의 메모리 주자를 검토하고 있다. 후계주자로는 HMC(Hybrid Memory Cube)와 같은 특정 애플리케이션 영역에서 선호되고 있는 시리얼 DRAM 솔루션과 함께 LPDDR3/4가 될 것으로 예상되고 있다
이러한 메모리 분야의 중요한 변화를 이해하기 위해서, DDR 제국의 종말을 불러온 한계는 무엇인지, 그리고 이러한 디바이스에 영향을 미치는 마켓흐름은 어떠한지를 먼저 살펴보도록 하자. 그런 다음, LPDDR에서 시리얼 메모리에 이르기까지 새로운 차원의 DDR의 대안들과 디자이너들이 계속해서 정보를 얻고자 하는 새로운 컨셉에 대해서도 고찰해 보도록 하자.
그림 1. 이 차트는 2013년에 비바도(Vivado) MIG(Memory Interface Generator) GUI를 통해 산출된 자일링스 고객들의 메모리 활용도를 보여준다.
변화하는 마켓의 흐름
보통 고객들이 차세대 제품을 디자인하는 경우, 보다 많은 용량과 속도, 처리량을 제공하는 동일한 메모리의 차세대 제품을 고려한다. 이와 관련하여, 그림 2는 현재 및 미래의 DRAM 마켓의 점유율 동향을 보여주고 있다. DDR3는 오늘날의 전체 DRAM 마켓의 거의 70% 가량을 차지하고 있으며, 지난 2009년과 2010년 사이에 40%의 가파른 상승세를 기록하며 급부상했다. DDR4는 보다 느리게 확산되고 있는데, 이는 부분적으로는 LPDDR로 알려진 모바일 DRAM의 갑작스런 등장 때문이기도 하다. LPDDR이 무선 마켓의 요건을 충족시켜 나간다면, DDR4가 이 정도 규모의 소켓을 차지하기도 쉽지 않을 것이다.
그래프를 보면, DDR4는 확실히 탄력을 받고 있으며, 이는 전력을 절감할 수 있는 낮은 공급전압과 높은 속도라는 장점을 가지고 있기 때문이다. 따라서 거의 모든 마켓에서 DDR3를 대체해 나갈 것이며, 결국은 PC 영역을 주도하게 될 것이다. PC가 더 이상 DRAM 소모의 70% 이상을 주도하지 못한다 하더라도, 이는 여전히 가장 큰 상용 디바이스 영역이다. 메모리 벤더들에 따르면, 당분간 DDR4의 적용은 개인 전자기기 시장보다는 서버 분야에 더욱 국한될 것으로 보인다. 하지만 DDR4는 여전히 여러 디자인 분야를 위한 탁월한 선택이다. 이미 잘 알려진 메모리 타입인데다, 특히 후계주자가 없기 때문에 상당히 오랫동안 유지될 것이다.
그림 2. DRAM 메모리 마켓의 동향은 LPDDR(모바일 DRAM)에서 상당한 이익을 얻을 것으로 보인다.
왜 DDR4가 마지막인가?
왜 DDR5는 없는 것일까? 최종 고객들이 새로운 기기를 원하는 경우, 그들은 더 큰 메모리를 원한다. 고객들은 메모리 대역폭에 대해 한없는 요구를 가지고 있다. MP3 플레이어는 카세트 테이프처럼 수십여 곡을 담는 것이 아니라 1만여 곡의 노래를 담아야 한다. 이는 스마트폰에 저장되는 사진이나 비디오 수에도 동일하게 적용된다. 이러한 기대치는 일반적으로 더 많은 컴포넌트와 더 큰 보드 공간을 필요로 한다. 하지만 아이러니하게도 고객들은 자신들의 전자기기가 용량이나 성능에 비례하여 크기가 늘어나는 것을 원하지 않는다. 기술이 향상될 것이라는 기대 때문에 동일한 공간, 혹은 심지어 보다 작은 공간에 더 많은 것을 요구하고 있다.
메모리를 자일링스(Xilinx®) FPGA와 함께 사용하는 경우에는 적절한 마진과 전반적인 시스템 성공을 유지하기 위해 어떻게 보드 레이아웃을 할지에 대한 구체적인 가이드라인이 있다. 예를 들어, 트레이스 길이나 종단 레지스터, 라우팅 레이어 등이다. 이러한 룰은 얼마나 디자인을 소형화할 수 있는지, 또는 어떻게 부품을 촘촘하게 배치할 수 있는지를 제한한다. 최소형 보드 디자인의 대안은 최첨단의 패키징 타입이 될 수도 있다. 하지만 불행히도 TSV(Through-Silicon Via) 기반의 다이 적층형을 비롯한 새로운 패키징 기술은 상당히 큰 비용 부담이 수반된다. DDR 메모리는 산업 인프라의 규모의 경제를 기초하는 고가의 디바이스도 아니며, 패키징을 급격하게 새로 전환하거나 증가하는 가격대를 수용하기도 어렵다. 따라서 이러한 발전들은 가까운 미래에 아마도 어떠한 DDR3나 DDR4 시스템에서는 일어나지 않을 것이다.
또한 고객들은 보다 빠른 속도를 원한다. 시스템을 보다 빠르게 구동하는 것은 보드 디자인에서 영향을 받는다. DDR은 싱글-엔디드 신호를 가진 메모리로 적절한 종단이 필요하다. 시스템을 더 빠르게 구동하고, 적절한 기능을 유지하기 위해서는 메모리에서 FPGA까지 더 짧은 트레이스가 필요하다. 이를 위해서는 디바이스를 FPGA에 더욱 가깝게 배치해야 한다. FPGA와의 제한된 거리는 디자인에 사용할 수 있는 메모리 디바이스의 수를 제한하게 된다. 대부분의 DDR4 디자인은 가능한 많은 디바이스들이 FPGA 주변에 배치되면서 점차 한계에 이르고 있다.
더 많은 메모리를 원한다면, 더 많은 디바이스가 필요하다. 더 빠른 속도를 원한다면, 더 가깝게 배치해야 한다. 고정된 규모의 공간 안에 채울 수 있는 메모리 디바이스의 양은 한계가 있다. DDR5의 속도를 조금이라도 향상시킨다면, 메모리 디바이스를 위한 이용 가능한 공간은 줄고, 이용 가능한 용량도 감소하게 될 것이다.
DDR3는 어떻게 성공할 것인가?
DDR4는 완벽하게 DDR3를 대체할 수 있을까? 아마도 모든 경우는 아닐 것이다. 마켓 동향에서 살펴봤듯이, 서버 마켓은 DDR4를 적용하고 있지만, 당분간 저가의 DDR3는 개인용 컴퓨팅 시장에서 지속적으로 우세를 점할 것이다. 소비자들은 계속해서 더 빠른 속도 및 더 많은 메모리 용량을 요구할 것이며, 결국 언젠가 PC 시장도 DDR4로 이행하게 될 것이다.
DDR5가 없다고 가정한다면, 다른 선택이 가능할까? 아마도 DDR3나 DDR4를 대체하는 것은 LPDDR4가 될 가능성이 크다. LP는 ‘저전력(Low Power)’를 의미한다. 저전력 DDR4는 사실 무선 마켓에 최적화된 DDR(Double-Data-Rate) 메모리의 일종이다. LPDDR의 장점은 대중적이고, 이미 잘 알려져 있으며, 사양이 정의되어 있고, 현재 이용 가능하다는 점이다. 저전력 최적화로 인해 LPDDR4는 DDR 보다 약간 고가이지만, DDR이 사용하는 I/O 핀을 사용하고 있다. 따라서 DDR이 구동하는 동일한 주파수 범위에서 LPDDR4도 동작하기 때문에 마이그레이션이 용이하다.
하지만 가장 큰 트레이드-오프는 수명주기이다. 무선 마켓은 제품의 주기가 6개월에서 9개월마다 바뀌기 때문에 LPDDR 메모리도 빠르게 변화한다. 대기업이 제품을 10년에서 15년 동안 판매한다면, 매 6개월에서 9개월마다 변화하는 메모리를 적용하기는 어렵다. 아마도 제조업체가 이 회사와의 특수계약을 통해 이러한 디바이스 중 하나의 버전을 10년에서 15년 동안 공급한다는 보장을 한다면 가능할 것이다. 현재 이러한 비즈니스 모델은 존재하지도 않고, 특수계약이 반드시 체결되어야 한다. 물론 이러한 계약에는 공정 플로우를 보존하는 것이 포함될 수 있는데, 대규모 비즈니스로서 가치가 있는 경우에 한해 고비용의 노력이 수반된다.
LPDDR이 아니라면, 다른 대안은?
LPDDR 이외에도 차세대 메모리 주자가 되기 위해 경쟁하고 있는 다른 메모리 옵션이 있다. 시리얼 메모리가 가능한 대안으로 부상하고 있는데, 이는 메모리 분야에서 고려하고 있는 것과는 완전히 다른 방식이다.(그림 3 참조).
그림 3. 디자이너는 LPDDR4 및 HMC와 같은 시리얼 메모리 간의 트레이드-오프를 고려해야 한다.
FPGA 분야에서는 메모리가 마지막 개척지이며, 시리얼로 가는 마지막 영역이다. 이는 지연 때문이다. 데이터를 병렬 스트림에서 직렬로 전환하고 이를 시리얼 링크로 보내서 다시 시리얼에서 병렬로 전환하는데 걸리는 시간은 항상 너무 길다. 현재 시리얼 링크를 이용함으로써 발생하는 트레이드-오프는 일부 애플리케이션에서는 허용 가능한 수준이다.(CT 스캐너 또는 천체 스캐닝 망원경 세트를 위한 테스트 및 측정 시스템과 같이 다중 쓰기 및 적은 읽기가 해당되는 분야) 반면, 품질의 척도가 데이터를 쓰고, 이와 동일한 데이터를 즉각적으로 읽을 수 있어야 한다면, 시리얼 메모리뿐만 아니라 어떠한 형태의 병렬 데이터도 실행할 수 없다. 하지만 뛰어난 메모리의 척도가 고대역폭, 대용량 비디오 저장 및 인터넷을 통한 정보 부하 전송이라면, 시리얼 메모리는 시도할만하다.
지연 이외에도, 동일한 트레이드-오프들도 검토되어야 한다. 수명은 문제가 되지 않지만, 이러한 제품들은 보다 짧은 공급주기의 LPDDR과 비교하면, 요구되는 만큼의 긴 수명이 보장된다. 실제로 시리얼 메모리에 대한 요구가 증가한다면, 여러 벤더들은 당연히 이러한 비즈니스를 유지해 나갈 것이다.
I/O 핀을 사용하는 대신 시리얼 메모리는 SERDES 기술을 활용한다. FPGA에서는 높은 속도로 동작하는 시리얼 인터페이스(트랜시버)를 사용할 수 있다. 최근에는 지연감소 요구에 따라 벤더들도 이러한 문제를 해결하고 있으며, 뛰어난 시리얼 기술은 15Gbps의 매우 높은 처리량을 지원할 수도 있다. 30Gbps에 달하는 차세대(HMC의 경우) 기술도 계획되어 있다. 사람들은 ‘새로운 것(NEW)’을 좋아하는 반면, 동시에 낯선 것을 두려워한다. 또한 새로움은 생산율을 제한하기도 하고, 높은 초기 비용을 유발하기도 한다.
HMC(Hybrid Memory Cube)
DDR DRAM을 대체할 수 있는 가장 강력한 시리얼 메모리 후보는 HMC(Hybrid Memory Cube)로, HMC 컨소시엄이 프로모션을 하고, 마이크론(Micron)이 주도하고 있다.(그림 4 참조) 후원자들은 적극적으로 HMC 광고를 수행하고 있다. 사람들은 심지어 시리얼 메모리(Serial Memory)의 머리글자를 일반적으로 이용하기 시작했다. 실제로 HMC는 시리얼 메모리 타입 중 하나이다.
그림 4. HMC(Hybrid Memory Cube)는 TSV(Through-Silicon Via) 구조에 기반하고 있다.
HMC와 더불어, MoSys 또한 일종의 시리얼 SRAM인 대역폭 엔진(Bandwidth Engine)을 개발 중에 있으며, 브로드컴(Broadcom)이 시리얼-인터페이스 제품인 TCAM을 공급하고 있다. 미래의 스펙트럼 중 다른 한편에서는, 삼성과 SK 하이닉스가 엄청나게 넓은 병렬 인터페이스를 갖추고 있는 TSV 기반의 DRAM 스택인 HBM(High-Bandwidth Memory)을 프로모션하고 있다. 이러한 선택은 병렬 인터페이스를 사용하기 때문에 위험이 더 낮을 것으로 보인다.
하지만 현 시점에서 DDR3 및 DDR4의 마켓 점유율을 가져올 수 있는 가장 강력한 도전자는 HMC이다. HMC는 2G 또는 4G 패키지를 구현하기 위해 상단의 로직 레이어 상에 TSV 기술로 함께 연결된 4개 혹은 9개 스택의 DRAM을 갖추고 있다. 이 로직 레이어는 인터페이스를 간편하게 만들어준다.
만약 더 많은 용량이 필요하다면, 최고 8개의 디바이스를 데이지 체인 방식으로 연결할 수 있다. 하나에서 4개의 링크까지 가능한 것을 고려하면(링크의 절반에서도), 256bit의 액세스 및 방대한 양을 처리할 수 있다. 각 링크는 16개의 트랜시버(링크의 절반 당 8개)로 구성되는데, 모두 15Gbps를 처리할 수 있다. 이는 메모리 디자이너들이 이전에는 구현할 수 없었던 엄청난 양의 대역폭이다.
표 1에서는 DDR 솔루션 전반에 걸쳐 대역폭 향상을 확인할 수 있으며, 3가지 디자인을 보여주고 있다. 각각의 3가지(DDR3, DDR4, HMC) 타입의 메모리는 60Gbps를 지원하도록 만들어졌다. 핀 수는 HMC 솔루션이 최소 8배까지 적었으며, 보드 복잡성 및 라우팅을 획기적으로 간소화할 수 있다.(그림 5 참조) 고대역폭 SERDES 링크를 통해 보다 적은 디바이스, 여기에서 언급한 경우에는 하나 만으로도 가능하다. 이러한 단일 디바이스와 FPGA는 거의 20배까지 보드 공간을 절감할 수 있다. 마지막으로 HMC 솔루션은 비트당 전력소모가 3분의 1에 불과하다. 이로 인해 HMC가 이전에는 DDR4의 영역이라고 생각되었던 마켓의 일부를 가져올 수 있을 것으로 내다보는 사람들이 많아지고 있다.
그림 5. DDR3 기반의 2x100GE 디자인 모형(좌측)과 HMC(우측). 보드 공간을 절감하고 간소화하는 라운팅이 인상적이다.
표 1. 60Gpbs를 지원하는 3가지 메모리 타입에서 필요로 하는 리소스 비교
다른 시리얼 메모리들
‘HMC’ 및 ‘시리얼 메모리’는 종종 실수로 교체 사용되거나 때때로 새로운 고대역폭 메모리를 대신하는 경우가 있기 때문에 새롭게 출현하고 있는 다른 새로운 메모리들을 찾아보는 것도 유용하다. 이러한 범주에서 상위 3개의 도전주자는 MoSys의 대역폭 엔진과 브로드컴의 TCAM, 그리고 삼성 및 SK 하이닉스, 인텔이 프로모션하고 있는 HBM이다.
MoSys의 BE2(Bandwidth Engine)는 시리얼 SRAM과 유사하지만, 시리얼 DRAM은 아니며, 16Gbps를 달성하는 트랜시버를 사용하고 있다. 하지만 BE2는 DDR을 대체할 수 있을 것 같지는 않다. 대신 72bit 액세스 및 낮은 지연 특성을 갖춘 이 기술은 QDR이나 RLDRAM을 겨냥할 것으로 보인다. 애플리케이션은 DDR의 경우처럼 패킷 버퍼 대신, 패킷 헤더나 LUT(Lookup Table)를 위한 스토리지가 될 것으로 예상된다.
TCAM은 3진 콘텐트 어드레서블 메모리(Ternary Content-Addressable Memory)의 약자이다. 이 특수 고속 메모리는 고성능 라우터나 스위치에서 다양한 패턴 매칭 검색을 수행한다. 고성능은 상당한 비용 및 전력, 열을 수반하게 되며, TCAM은 고속인데다 기본적으로 병렬이기 때문에 이러한 속도를 달성하기 위해 SERDES를 사용하지 않는다. 하지만 브로드컴은 이 메모리의 시리얼 버전을 공급하고 있다. 시리얼 메모리가 갖고 있는 적은 핀 수 및 고속의 장점을 활용하기 위한 이러한 방법은 여전히 TCAM 솔루션과 결부되어져 있다.
세 번째 메모리 타입은 HBM이다. 종종 발생하는 HMC와 HBM 간의 논쟁에 현혹되지 말아야 한다. 사람들이 인식하지 못하고 있는 것은 HBM 디바이스를 구매할 수 없다는 것이다. HBM을 적용하고 싶다면, 예를 들어, SK 하이닉스에서 다이를 구매한 다음, 이를 인터포저나 실리콘 기판 상의 패키지 안에 다이를 탑재시켜야 한다. 이러한 고대역폭 병렬 메모리를 구동하기 위해서는 디바이스와 메모리 간의 연결을 인터포저 디자인 안에 포함시켜야 한다.
이러한 메모리 타입으로 마켓을 장악하기 위해, 업체들은 기업 기밀과 관련된 정보를 공유할 것인지를 결정해야 하며, 표준 채택(인터포저 디자인, 높이, 인터페이스, 허용오차 등)에 동의해야 한다. 이러한 세부적인 사항들을 산출할 수 있다 하더라도 다 끝난 것은 아니다. 반면, HBM의 지연은 작다. 전자가 패키지 안에 있어 매우 짧은 거리를 이동하기 때문이다. 이는 매우 훌륭한 아이디어지만, 너무나도 먼 미래의 일이다.
생산 문제
이러한 솔루션이 모두 혹은 하나라도 성공하기 위해서는 더 많은 공급업체들이 이러한 후보주자들을 업계에 공급하는데 참여하도록 하는 것이다. 현재 생산 중에 있는 하나의 옵션은 MoSys의 BE2이다. HMC는 샘플링 단계에 있고, 올해 말에 양산이 시작될 예정이다. LPDDR4는 올해 중순부터 샘플링이 이뤄질 예정이며, HBM은 스탠드얼론 패키지로는 아직 공급되고 있지 않지만, 자체 패키지 안에 시리얼 HBM을 제공할 수 있다는 이야기는 나오고 있다. 만약 다이를 구매하고, 패키지 안에 자체적으로 HBM을 통합하기를 원한다면, 삼성이나 하이닉스, 혹은 다른 소형 벤더들과 지금 바로 논의할 수 있다.
중요한 점은, DDR3는 아직도 유효하고 매우 강력한 반면, DDR4는 여전히 성장 및 적용 단계에 있다는 것이다. DDR4는 매우 성공적인 메모리 라인의 마지막 제품이기 때문에 아마도 이미 널리 사용되고 있는 DDR3 보다 더 오랫동안 유지될 수도 있을 것이다. LPDDR4는 이러한 간극을 채워주는 후보군이 될 공산이 크지만, 매우 빠른 읽기/쓰기 반복을 하지 않는 한 모든 분야에서 DDR4를 대체할 수는 없을 것이다.
반면, 시리얼 메모리는 눈여겨봐야 할 새로운 주자이다. HMC는 DDR을 대체할 것으로 확실시되고 있으며, BE는 QDR과 RLDRAM을 대체하는 시리얼 솔루션이 될 것으로 예상된다.
박스
자일링스는 어떻게 울트라스케일 메모리 성능을 달성했는가
자일링스(Xilinx®) 울트라스케일(UltraScale™) FPGA는 모든 메모리가 요구하는 보다 높은 성능 및 확장된 유연성에 적합하도록 설계되었다. DDR4는 이미 2,400Mbps의 속도로 데모가 진행되었다. 이러한 세계 최초의 속도 등급은 애질런트(Agilent)가 메모리 디바이스 아래에 삽입되는 인터포저를 설계하고, 동작하는 동안 시스템 아이 다이어그램을 측정했을 때 확인되었다. DDR4는 POD(Pseudo Open Drain)라고 불리는 새로운 타입의 I/O 구조를 사용하기 때문에 자일링스는 POD를 울트라스케일에 추가했다. 이러한 구조는 1.2V의 I/O 전압을 요구하는 DDR4 프로토콜과 함께 결합하여 동일한 속도의 DDR3 시스템과 비교해 최고 35%까지 메모리 인터페이스 I/O 시스템을 절감할 수 있도록 해준다.
또한 울트라스케일은 DDR3 및 DDR4와 더불어 LPDDR3, RLDRAM3, QDRII+, QDRIV 등 광범위한 병렬 메모리를 지원한다. 시리얼 메모리의 경우, 울트라 스케일은 거의 모든 애플리케이션에 적합한 최고 120개의 트랜시버를 갖춘 MoSys의 BE(Bandwidth Engine)와 HMC를 지원한다. 또한 울트라스케일은 메모리 인터페이스 성능 및 FPGA I/O 뱅크 활용을 높이기 위해 내부를 개선했다. 활용성을 개선하기 위해 자일링스는 뱅크당 I/O 수를 늘리고, 각 I/O 뱅크에는 2개의 PLL을 두었다. 이와 더불어 보다 향상된 5피코초의 탭-딜레이(Tap-Delay) 기능도 제공한다. 또한 I/O 뱅크당 4byte 레인을 지원하고, 레인당 13핀이 할당되어 있다. 자일링스는 이외에도 I/O의 프리엠퍼시스 및 이퀄라이제이션을 위한 회로를 추가했다.
쿼드 랭크의 DIMM 모듈과 x4 디바이스가 현 세대 제품에서 지원되고 있으며, 메모리 액세스 깊이를 4배로 늘릴 수 있다. 또한 PHY(Physical-Layer) 지연 향상으로 데이터에 보다 빠르게 액세스할 수 있다. 이러한 방대한 개선 요소들을 통해 메모리 아키텍처는 해당 마켓에서 요구하는 성능 요건에 부합하도록 최적화가 가능하다.
울트라스케일 FPGA는 모든 주요 메모리 표준을 지원한다. MIG IP 위자드를 포함하고 있는 비바도(Vivado®) 디자인 수트는 고객들에게 이러한 혜택을 제공함으로써 문제에 봉착하지 않고 솔루션 개발에 주력하여 보다 빠르게 구현이 가능하도록 해준다.
- 타마라 슈미츠(Tamara I. Schmitz)
울트라스케일 메모리 인터페이스는 시스템 디자인 및 시스템 성능을 모두 향상시킬 수 있도록 수많은 개선이 이뤄졌다
- 적용분야 :
- High Performance Computing
- 관련제품 :
- UltraScale