2SHARC 프로세서의 역사
"SHARC" 는 Super Harvard ARChitecture 의 약어로 ADI 가 제공한 부동 소수점 프로세서의 이름입니다. SHARC 프로세서는 표준 Harvard 아키텍처를 기반으로 향상되어 PM (프로그램 메모리) 버스에서 데이터 전송을 용이하게 할 뿐만 아니라 명령어 캐시를 추가하여 타이트한 루프 기반 컴퓨팅 프로세스의 처리 성능을 최적화합니다. 향상된 아키텍처는 데이터와 계수를 동시에 액세스하는 동시에 명령 캐시에서 선택한 명령을 실행하여 프로세서의 3 버스 작동 모드를 효율적으로 구현합니다.
아시다시피 SHARC 프로세서는 ADSP-2 1020 에서 유래했습니다. 이 부동 소수점 단일 명령 단일 데이터 (SISD)DSP 는 실제로 임베디드 메모리 또는 주변 장치가 없는 독립 컴퓨팅 코어입니다. SRAM 칩에 연결된 외부 버스를 통해 PM 및 DM (데이터 메모리) 스토리지 공간에 액세스하고 JTAG 인터페이스를 통해 프로세서를 프로그래밍 및 디버그합니다.
ADSP-2 1020 은 33MHz 의 클럭 주파수에서 작동하여 주기 명령을 실행할 수 있습니다. ADSP-2 1020 은 80 비트 누적기로 32 비트 또는 40 비트 부동 소수점 및 32 비트 포인팅 연산을 수행할 수 있으며, ADI 가 199 1 년 시장에 진출한 혁신적인 제품입니다. 이 커널 기술은 ADI 가 부동 소수점 성능과 혁신에 주력하는 출발점입니다.
3 통합과 혁신: SHARC 의 탄생
첫 번째 실제 SHARC 프로세서는 ADSP-2 1060 입니다. ADI 는 ADSP-2 1020 커널 제품을 기반으로 통합 주변 장치의 DMA 흐름을 제어하는 온칩 SRAM 및 I/O 프로세서를 포함한 완전 통합 프로세서를 개발했습니다.
ADSP-2 1060 부동 소수점 프로세서는 1994 년 시장에 진출해 당시 DSP 성능과 혁신의 최고 수준으로 여겨졌다.
SHARC 코어는 한 주기 동안 최대 40MHz 의 속도로 계산할 수 있으며, I/O 프로세서가 추가되어 코어 오버헤드 없이 주변 장치와 듀얼 포트 4Mb SRAM 스토리지 간에 고속으로 데이터를 전송할 수 있습니다.
최종 사용자의 시스템 성능과 확장성을 더욱 향상시키기 위해 ADI 의 설계 팀은 멀티프로세서 시스템이 매우 낮은 오버헤드로 데이터를 즐길 수 있는 메커니즘을 만들기 시작했습니다. 외부 포트 논리에 클러스터 버스 컨트롤러가 추가되어 프로세서 간 병렬 데이터 통신을 원활하게 수행할 수 있으며 클러스터당 최대 6 개의 프로세서를 사용할 수 있습니다. 이 혁신적인 기술을 통해 시스템 설계자는 최대 240MBps 의 대역폭으로 주 프로세서에서 지정된 슬레이브 프로세서의 스토리지로 대량의 데이터를 직접 전송하거나 브로드캐스트 모드를 사용하여 클러스터의 모든 슬레이브 장치로 데이터를 직접 전송할 수 있습니다.
ADI 의 link port 특허 기술을 사용하면 프로세서 간 고속 통신도 가능합니다. 각 ADSP-2 1060 은 포인트 투 포인트 통신을 위한 6 개의 개별 링크 포트를 통합하여 240MBps 의 추가 I/O 대역폭을 제공합니다.
이러한 진정한 균형잡힌 아키텍처와 확장된 기능을 통해 SHARC 프로세서는 의료 영상, 군용 레이더, 비디오 게임기와 같은 연산 집약적 어플리케이션에 널리 사용되고 있습니다.
이 기능을 갖춘 프로세서는 15 년 전부터 시장에 출시되어 믿을 수 없을지 모르지만, 더욱 놀라운 것은 이 프로세서가 여전히 이용되고 있다는 것입니다! 이는 SHARC 아키텍처의 뛰어난 확장성과 ADI 의 품질 및 사용자 만족도 약속에 대한 가장 좋은 증거입니다.
4 2 세대 SHARC 프로세서
2 세대 SHARC 프로세서는 처리 성능을 새로운 수준으로 끌어올렸습니다. 커널 아키텍처를 SIMD (single instruction multiple data) 시스템으로 확장하고 커널 클럭 주파수를 100MHz 로 높입니다. ADSP-2 1 16x 시리즈 프로세서는 ADSP-2 106x SISD 프로세서 소스 코드와 완벽하게 호환되므로 사용자는 약간의 코드 수정만으로 새로 추가된 병렬 컴퓨팅 장치 (레지스터 파일) 를 재생할 수 있습니다
주기 성능을 저하시키지 않고 새로 추가된 이 컴퓨팅 유닛으로 데이터를 쉽게 전송할 수 있도록 내부 PM 및 SDRAM 데이터 버스 너비가 64 비트로 늘어났으며 ADSP-265438 에 1 16 1 너비의 40 이 통합되었습니다.
이전 세대의 SISD SHARC 와 마찬가지로 2 세대 SHARC 는 클러스터 버스 시스템 아키텍처를 지원하는 멀티 프로세서의 원활한 연결과 링크 포트를 통한 포인트 투 포인트 연결을 유지하여 성능 업그레이드 로드맵을 더욱 간단하고 명확하게 합니다.
이전 세대의 SISD SHARC 와 마찬가지로 2 세대 SHARC 제품군은 의료, 산업 및 군사 어플리케이션에 널리 사용되고 있으며 TDM (Time Distribution Multiple) 및 I2S 형식의 SPORT (Serial Port) 를 추가로 지원함으로써 전문 오디오 및 고급 소비자 전자/자동차 오디오 장치는 프로세서 부동 소수점 작업에서 제공하는 큰 동적 범위를 빠르게 활용할 수 있습니다.
5 3 세대 SHARC 프로세서
3 세대 SHARC 프로세서는 멀티프로세서 애플리케이션 공간에서 벗어나 새로운 과제를 적극적으로 해결하기 시작했습니다. 오디오 응용 프로그램에서 부동 소수점 처리의 명백한 이점으로 인해 SHARC 기술 개발의 초점은 최소 시스템 비용으로 온칩 처리 기능을 추가하는 것으로 바뀌기 시작했습니다.
이를 목표로 개발 및 출시되는 첫 번째 프로세서는 ADSP-2 126x 시리즈입니다. ADSP-2 1 16x 와 마찬가지로 ADSP-2 126x 는 SIMD 아키텍처를 사용하여 컴퓨팅 성능을 극대화합니다. 코어 성능을 두 배로 200MHz 로 높이는 것 외에도 ADSP-2 1266 프로세서는 SHARC 제품군 중 최초의 내장형 필름 마스크 ROM 제품입니다. 통합 4Mb ROM 은 시스템의 복잡성과 비용을 줄이고' 고비용' 인상을 주었던 부동 소수점 DSP 를 소비자 오디오 분야로 밀어넣습니다.
하드웨어 시스템 설계의 복잡성을 더욱 줄이기 위해 ADI 는 DAI (디지털 애플리케이션 인터페이스) 라는 혁신적인 주변 장치를 개발했습니다. 이전 SHARC 및 유사한 경쟁 제품과 달리 핀 기능이 고정되어 있어 DAI 를 통해 사용자가 원하는 외부 핀에 주변 장치 기능을 할당할 수 있습니다. 오디오 시스템의 경우 시스템의 입/출력 요구 사항이 변경되면 오디오 클럭 도메인을 소프트웨어를 통해 언제든지 핀에 할당하고 직렬 포트로 라우팅할 수 있습니다. 이러한 유연성을 통해 특정 시스템 사양을 지원하는 데 필요한 외부 핀 수를 크게 줄일 수 있으며 하드웨어 설계를 단순화하고 비용을 더욱 절감할 수 있습니다.
ADSP-2 136x 는 ADSP-2 126x 의 비용 절감 이점을 계승하고 고급 오디오 신호 체인 통합 방법을 추가했습니다. 코어 성능은 333MHz 로 60% 이상 향상되었으며 내부 SRAM 은 3Mb 로 향상되었습니다. 또한 고성능 비동기 샘플링 속도 변환기 (ASRC), SPDIF 트랜시버 및 DTCP 암호화 엔진과 같은 많은 오디오 주변 장치가 통합되어 오디오 시스템의 프로그래밍 가능한 성능과 BOM 비용을 더욱 최적화하고 오디오 시장에서 ADI 의 선도적 입지를 강화합니다. 이 고성능 제품에는 최대 166MHz 의 작동 주파수가 높은 32 비트 SDRAM 인터페이스도 통합되어 I/O 대역폭을 늘리는 동시에 데이터 집약형 어플리케이션에서 대량 생산 스토리지를 사용하는 데 도움이 됩니다.
이러한 파격적인 오디오 시스템 통합과 가격 대비 성능의 선두주자를 바탕으로 3 세대 SHARC 시리즈는 전문 오디오 분야뿐만 아니라 홈 시어터 시스템 및 AV 증폭기와 같은 소비자 오디오 어플리케이션에도 널리 사용되고 있으며 차세대 HD 오디오 표준 (DTS 마스터 오디오 및 Dolby Tru-HD) 을 시장에 출시하는 데 중요한 역할을 합니다.
6 4 세대 SHARC 시리즈-ADSP-2146x
3 세대 SHARC 프로세서는 가격 대비 성능을 최적화하는 데 성공했으며, 고가의 부동 소수점 프로세서를 사용할 수 없는 것으로 여겨졌던 비용에 민감한 소비자 어플리케이션으로 부동 소수점 프로세서를 밀어 넣었습니다.
ADI 는 이제 흥미로운 과제에 직면해 있습니다. 어떻게 부동 소수점 프로세서의 가격 대비 성능을 더욱 높일 수 있을까요?
4 세대 프로세서를 정의할 때 제품 개발 팀은 핵심 가치에 초점을 맞춰 SHARC 를 부동 소수점 DSP 기술의 최전선에 서게 했습니다.
● 업계 최고의 성능
● 건물 균형
● 성능 확장성
● 지능형 통합
다음은 이러한 주요 측면 각각에 대해 자세히 설명합니다.
6. 1 ADSP-2 146x 성능 향상
ADSP-2 136x 시리즈 커널의 개선을 바탕으로 ADI 의 SHARC 개발팀은 더 높은 성능 목표를 설정하고 타이완 반도체 매뉴팩처링 65nm 실리콘 공정을 사용하여 성능과 비용 균형을 지속적으로 최적화했습니다. 세심한 엔지니어링 설계 및 계획을 거쳐 ADI 는 2008 년 6 월 ADSP-2 146x 시리즈 프로세서를 공식 발표했습니다. 코어 성능은 최대 450MHz 로 가장 가까운 경쟁 제품보다 거의 30% 높습니다. 그러나 ADI 의 디자인 팀은 단순히 성능을 높이는 것에 만족하지 않고 전력 소비량과 비용에 미치는 영향을 최소화하면서 컴퓨팅 성능을 크게 향상시킬 수 있는 혁신적인 방법을 모색하기 시작했습니다.
많은 엔지니어들은 부동 소수점 프로세서가 제공하는 넓은 동적 범위를 사용하여 패턴 감지, 데이터 압축/압축 해제, 암호화/암호 해독 및 어댑티브 필터링과 같은 다양한 알고리즘을 구현합니다. 많은 연산 집약적 알고리즘에서 FFT, FIR 필터 및 IIR 필터와 같은 몇 가지 기본 신호 처리 장치가 널리 사용되고 있으며 대부분의 디지털 신호 처리 응용 프로그램의 기초입니다. ADI 는 이러한 핵심 신호 처리 빌딩 모듈에 초점을 맞추고 이러한 기능을 2 146x DMA 아키텍처에 통합하여 SHARC 코어의 450MHz 성능을 더욱 향상시키기 시작했습니다.
DSP 엔지니어는 간단한 프로그래밍 모델을 기반으로 이러한 "가속기" 를 각각 간단한 주변 장치로 간주할 수 있습니다. 각 가속기에는 코어 프로세서의 오버헤드를 증가시키지 않고 데이터 및 계수 스토리지용 자체 로컬 메모리가 구성되어 있습니다. 또한 기본 스토리지의 계수 시작 주소 및 카운터와 같은 정보를 포함하여 가속기를 설정하는 가속기 전용 레지스터 세트도 있습니다. 설정이 완료되면 프로그램이 순차적으로 실행되기 시작하므로 사용자는 처리가 끝났음을 나타내는 인터럽트만 기다리기만 하면 됩니다.
FIR 가속기에는 계수를 저장하기 위한 1K 단어의 로컬 메모리가 포함되어 있고, 지연 선 데이터를 저장하기 위한 또 다른 1K 단어의 스토리지가 포함되어 있습니다. FIR 산술 단위는 4 개의 병렬 MAC (곱셈 및 누적) 단위로 구성되며, 각 셀은 코어 클럭 주파수의 절반씩 작동합니다. 산술 셀은 80 비트 정밀도 누적기를 사용하여 32 비트 부동 소수점 또는 32 비트 점 처리를 수행할 수 있습니다. 이론적으로 이 엔진은 커널이 제공하는 2.7GFlops 성능 외에도 1.8Gflops 의 처리 능력을 제공합니다. 따라서 4 세대 제품의 사용 가능한 부동 소수점 성능은 일반적으로 3 세대 제품에 비해 두 배 향상되었습니다.
FIR 가속기는 단일 반복 모드에서 사용할 수 있습니다. 즉, 전체 필터 구현을 로컬 메모리 (필터 길이) 에 배치할 수 있습니다