테슬라 FSD 칩 구성 및 NPU 작동 과정 (자율주행 / 인공신경망 / 컨볼루션 / 풀링 / MACs / 활성화 / 비디오 코덱 / 메모리 / LPDDR4 / SRAM)

테슬라 FSD 칩 구성 및 NPU 작동 과정 (자율주행 / 인공신경망 / 컨볼루션 / 풀링 / MACs / 활성화 / 비디오 코덱 / 메모리 / LPDDR4 / SRAM)

카테고리 없음 2020. 7. 13. 05:21

>

1. FSD칩(Full Self-Driving Chip) 개발과정-FSD칩은 테슬라가 직접 설계했고, 2019년 초부터 자사 자동차에 도입하기 시작한 자율주행용칩-FSD칩의 설계와 작성은 2016년 테슬라가 자율주행에 적합한 해결책이 없다는 주장에서 시작됐다. 2017년 8월까지 18개월간 개발되었으며, 같은 해 12월 완성-수 추가 수정 후 2018년 7월 자격심사 직후부터 본격적인 생산 시작-2018년 12월 새로운 하드웨어와 소프트웨어 스택으로 직원용 자동차를 대상으로 개조-2019년 3월 모델 S 및 X에 FSD칩과 컴퓨터를 탑재하여 대량 출하. 4월부터는 모델3에도 탑재 2.전체 칩 개요-FSD칩은 테슬라가 자체 개발한 맞춤형 자율주행 칩으로, 높은 수준에서 표준 운용체제를 기동할 수 있는 시스템온칩(SoC)-테슬라의 기존 자동차를 위한 드롭인 업그레이드 설계된 이 칩은 100W의 최대 전력 소비량을 유지하는 것을 비롯해 이전 솔루션의 전력 및 발열 요건을 대부분 계승-특수 목적으로 설계되었기 때문에 신경 프로세서에서 일반적인 기능을 담당하는 상당 부분이 제거된 상태-260㎡ 사각형 실리콘의 2천만개의 공정, 핀페지스탯 60억 게이트, 트랜지스터와 37.5mm 각각 37.5mm와 37.5mm와 37.5mm와 37.5mm와 37.5mm와 37.5

>

<출처:WikiChip:FSD Chip –Tesla>3.CPU-일반목적처리에 사용되는 총 12개의 64비트 ARM코어-쿼드코어 Cortex-A72로, 3개의 클러스터에 나쁘지 않게 구성되는 -2.2GHz 클럭 4.GPU-가벼운 처리를 위해 설계된 light GPU-단일정밀 부동소수점 운영을 전체 지원-최대 600GFLOPS.1GHz 클럭 5메모리 4mmDRD/CDCDCDCDCD-메모리를 비교적 저렴하게 지원한다.튜에이터의 최종 중재를 실시하는 듀얼코어 록 스톱 CPU를 통합한 안전시스템-이 CPU는 FSD 컴퓨터의 두 개의 FSD 칩에 의해 발생한 두 가지 동작이 일치하는지 여부와 액튜에이터를 구동하는 것이 안전한지 여부를 판정7.보안시스템(Security System)-테슬라가 암호로 서명한 코드만 실행시키는 시스템8.카메라 인터페이스(Cameraserial interface)-다양한 비디오 입력장치로부터 초당 최대 25억 픽세-비디오카메라(Cide) 백업 인터페이스(Cractorix Lide)를 처리할 수 있다.우드클립로깅과 같은 다양한 유아 애플리케이션에 사용되는 H.265(HEVC) 비디오 인코더 통합-비디오 코덱 관련 한국 기업으로는 칩스 앤 미디어(관련 기사 참조)

10. 리드신호처리기(Imagesignal processor) - 차량에 장착된 8개의 카메라 센서를 처리하기 위한 24비트 내부 파이프라인이 내장된 프로세서 - 초당 최대 10억 화소를 처리할 수 있으며 톤 매핑(tone mapping) 기능을 갖추고 있어 칩이 그림자처럼 밝고 어두운 면 등을 디테일하게 확인할 수 있도록 한다 - 또한 산뜻하게 리드하기 위한 노이즈감쇄기능 탑재 11.NPU(Neural processing unit)

>

<출처:WikiChip:FSD Chip –Tesla>-추측하는 바, 컴볼루션 신경망(CNN) 과정 가운데, 특징 추출 신경망 내의 콘볼루션 계층이 MACs, 활성화 함수 적용이 Activations, 풀링 계층이 Pooling, 그 후 분류 신경망으로 이동하고, 결과를 종합하는 것이 Write Buffer에서 일어난다고 생각되는-벡터 내적(dot product) 계산을 위해서 데이터는 MACs-Affation>Affing 순으로 이동하여 다시 사용된다.

>

<출처: 핸즈온 머신러닝> ※컨볼루션 신경망에 대한 자세한 설명 참조

1) 먼저 256바이트의 활성화 데이터와 128바이트의 가중치 데이터를 SRAM에서 불러오기 MACsarray(MACsarray, Multiply-Accumulatearray)로 결합합니다. 96x96 MACsarray에서 클럭별(1/1000초) 9,216개의 multiply-add 작업을 수행2) 그 후 Activations에서 Rectified Linear Unit(ReLU), Sigmoid Linear Unit(SiLU), and TanH와 같은 활성화 함수를 적용3) 그 후 Pooling에서 풀링 단계를 거친다 4) 마지막으로 Write Buffer로 결과를 종합합니다. 사이클별로 이러한 128바이트의 결과 데이터가 SRAM에 다시 기록되고 모든 작업은 모두 신 네트워크 작업이 완료될 때까지 반복되면서 동시에 지속적으로 이루어지는 (2) NPU 효율 및 성능-FSD 칩에는 맞춤형 신 네트워크 처리장치인 NPU가 두 개 탑재된다 - 각 NPU는 신 네트워크 학습 과정 중입니다.시적인 결과를 32MB SRAM에 저장하도록 설계되어 메인 메모리로의 데이터 이동을 줄인다.※ FSD 칩의 SRAM 사용에 관한 설명 참고

- FSD 팁에 테슬라는 8bitx8bit 상수 곱셈과 32bit 정수 덧셈을 사용.양 데이터 타입의 선택은 소비 전력을 삭감하기 위한 노력. 일례로서 32bit 정수 덧셈은 32bit 부동 소수점 덧셈 대비 약 1/9정도의 전력 소비-또, 각 NPU는 2GHz 클락에 36.86 TOPS(Trillion Operations Per Second) 성능.FSD-칩에 NPU가 장착되어 최대 성능이 73개가 들어 있으며, 월 73.7 PUPS(Trillion Operations)에서 최대 성능을 발휘하며, FSD

>

<출처: Wiki Chip: FSD Chip – Tesla>

ABOUT ME

날씬한 날씬한

티스토리툴바