본문 바로가기

Paper

(9)
Compute Solution for Tesla’s Full Self-Driving Computer Compute Solution for Tesla’s Full Self-Driving Computer Emil Talpes, Debjit Das Sarma, Ganesh Venkataramanan, Peter Bannon, Bill McGee, Benjamin Floering, Ankit Jalote, Christopher Hsiong, Sahil Arora, Atchyuth Gorti, and Gagandeep S. Sachdev Autopilot Hardware, Tesla Motors Inc. Digital Object Identifier 10.1109/MM.2020.2975764 Date of publication 24 February 2020; date of current version 18 Ma..
Efficient Memory Management for Deep Neural Net Inference Efficient Memory Management for Deep Neural Net Inference Keywords : Deep neural networks, DNN inference, Intermediate tensors, Memory management, Tensor usage interval, Tensor usage record, Operator profile, Shared objects Related post : https://blog.tensorflow.org/2020/10/optimizing-tensorflow-lite-runtime.html ABSTRACT 심층 신경망 추론은 서버 전용 작업으로 간주되었지만 최신 기술 발전을 통해 추론 작업을 대기 시간에서 개인 정보 보호까지 다양한 이유..
Work-In-Progress: Understanding the Effect of Kernel Scheduling on GPU Energy Consumption Abstract 임베디드 플랫폼에서 사용할 수있는 범용 그래픽 처리 장치 (GPU)는 실시간 사이버 물리 시스템에 많은 관심을 얻었습니다. GPU가 일반적으로 멀티 태스킹 환경의 많은 컴퓨팅 집약적 작업에서 CPU보다 성능이 뛰어나다는 사실에도 불구하고 높은 전력 소비는 여전히 어려운 문제입니다. 이 논문에서는 최신 상용 임베디드 하드웨어인 NVIDIA AGX Xavier GPU의 에너지 소비 특성에 대한 연구를 다양한 동시성 수준과 커널 스케줄링 순서에 따라 제공합니다. 우리의 연구 결과는 실시간 보장을 통해 GPU를위한 에너지 효율적인 스케줄러를 설계하는 길을 열었습니다. I. INTRODUCTION 요즘 GPU는 뛰어난 성능으로 인해 인기를 얻고 있습니다. 엄청난 양의 계산 및 병렬 처리가 필요한 ..
Measuring GPU Power with the K20 Built-in Sensor Abstract GPU 가속 프로그램은 HPC, 개인용 컴퓨터 및 휴대용 장치에서 점점 보편화되고 있으므로 에너지 효율성을 최적화하는 것이 중요합니다. 그러나 GPU 코드의 전력 소비량을 정확하게 프로파일링하는 것은 간단하지 않습니다. 실제로 K20 GPU의 온보드 파워 센서를 사용할 때 여러 가지 이상을 확인했습니다. 예를 들어, 커널의 런타임을 두 배로 늘리면 에너지 사용량이 두 배 이상 늘어나고, 커널이 실행을 중지 한 후 에너지를 소비하며, 두 개의 커널을 시간적으로 가깝게 실행하면 나중에 에너지 소비가 증가한다는 사실을 발견했습니다. 핵심. 또한 전력 샘플링 주파수가 크게 변하고 GPU 센서가 가끔씩 전력 판독을 수행하는 것을 관찰했습니다. 이러한 문제에도 불구하고 순간 전력과 에너지 소비를 정..
Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning Abstract Deep learning (DL) frameworks는 GPU를 활용하여 DL 추론 및 학습 속도를 개선합니다. 이상적으로, DL 프레임 워크는 GPU에 할당된 계산량에 따라 실행 시간이 달라지도록 GPU의 계산 능력을 완전히 활용할 수 있어야합니다. 그러나 GPU 작업을 예약 할 때 기존 DL frameworks는 대규모 예약 오버 헤드 및 불필요한 serial 실행과 같은 비효율적인 문제를 겪고 있습니다. 이를 위해 최소한의 스케줄링 오버헤드로 GPU 작업을 병렬(parallel)로 실행하는 DL 실행 엔진 인 Nimble을 제안합니다. Nimble은 AoT ..
Towards End-to-End Lane Detection: an Instance Segmentation Approach Towards End-to-End Lane Detection: an Instance Segmentation Approach Abstract 현대 자동차는 점점 더 많은 운전자 지원 기능을 통합하고 있으며 그중 자동 차선 유지 기능이 있습니다. 후자는 차량이 도로 차선 내에 적절하게 위치 할 수 있도록하는데, 이는 완전 자율 주행 차량의 후속 차선 이탈 또는 궤도 계획 결정에도 중요합니다. 기존의 차선 감지 방법은 고도로 전문화 된 수작업 기능과 휴리스틱스의 조합에 의존하며, 일반적으로 계산 비용이 많이 들고 도로 장면 변화로 인해 확장성에 취약한 후처리 기술이 뒤따릅니다. 보다 최근의 접근 방식은 큰 수용 필드로 인해 이미지에 표시가 없는 경우에도 픽셀 단위 레인 분할을 위해 훈련 된 딥 러닝 모델을 활..
NeuOS : A Latency-Predictable Multi-Dimensional Optimization Framework forDNN-driven Autonomous Systems NeuOS : A Latency-Predictable Multi-Dimensional Optimization Framework forDNN-driven Autonomous Systems Abstract 컴퓨터 비전에 사용되는 심층 신경망 (DNN)은 이미지 / 물체 인식 및 추적과 같은 애플리케이션을 위한 자율 임베디드 시스템에서 일반적으로 사용되는 광범위한 기술이되었습니다. 이러한 시스템에서 볼 수있는 엄격한 공간, 무게 및 전력 제약으로 인해 DNN의 실용적이고 안전한 구현에 큰 장애가됩니다. 왜냐하면 최소 에너지 소비와 최대 정확도를 보장하면서 지연 시간을 예측할 수 있어야하기 때문입니다. 안타깝게도 (1) ​​시스템 및 애플리케이션 수준 솔루션간에 스마트 조정(smart coordination)을..
Real-Time Object Detection System with Multi-Path Neural Networks Real-Time Object Detection System with Multi-Path Neural Networks Abstract 최근 DNN(Deep Neural Networks)의 발달에 힘입어 DNN 기반의 물체 감지 시스템은 매우 정확하고 자율주행차, 드론, 보안 로봇 등 실시간 환경에서 널리 이용되고 있다. 시스템은 차량 속도 등 실행 환경에 따라 달라질 수 있는 특정 시간 제한 내에 물체를 감지해야 하지만, 기존 시스템은 시간 제한 시간을 반영하지 않고 전체 long-latency DNN을 맹목적으로 실행하므로 실시간 제약을 보장할 수 없다. 이 작업은 GPU에서 DNN에 대한 새로운 WCET(worst-case execution time) 모델을 기반으로 multipath neural n..