본문 바로가기

NVIDIA Jetson Xavier AGX

(3)
Secrets of cudaMemcpyAsync delay Host To Device copy를 비동기식으로 사용하기 위해 cudaMemcpyAsync를 사용하고 있다. Nsight system으로 분석하던 중 cudaMemcpyAsync가 delay 되는 것을 확인했다. cudaMemcpyAsync가 delay되는 가정과 조건을 작성해본다. Asynchronous memory copy란, CPU의 cudaMemcpyAsync, kernel call (CUDA API) 등 과 GPU의 Memcpy HtoD, Kernel executions (CUDA HW) 등이 동기화 없이 동작하는 것이다. 만약 동기화 상태로 동작한다면 CPU가 kernel을 호출하고나서 GPU의 kernel 연산이 끝날때 까지 CPU는 계속 대기한다. 비동기식으로 동작하면 CPU는 호출만 하..
Memory address 0x55 & 0x7f 메모리에 관련되어 아는것이 없는 상태로 연구를 진행하게 되어 최근 1달간 메모리에 대해 많은 내용을 읽었고, 그중 대부분은 동적메모리 할당(dynamic memory allocation, malloc function)에 관련된 내용이다. 아주 기초적인 부분들은 구글에 간단히 검색해도 많은 내용이 나오기 때문에 생략하고, 의문점들과 발견부분만 기록한다. 기록해야겠다 싶은 순간의 내용만을 작성할 것이기 때문에 내용이 다소 불친절할 수 있다. 이번 내용은 동적메모리를 사용할때 주로 0x55와 0x7f로 시작하는 주소가 나타나는데 이에 대한 탐구이다. 언제는 0x55로 시작하고 언제는 0x7f로 시작해서 이 상황을 한번 기록해두려 한다. 다음 구조체를 만들고 malloc을 랩핑한 xmalloc을 사용하여 동적할..
LaneNet Install in NVIDIA Jetson Xavier AGX ===================2020.10.24================================ See 2020.12.14 update Download or git clone LaneNet : $ git clone github.com/MaybeShewill-CV/lanenet-lane-detection.git github >> github.com/MaybeShewill-CV/lanenet-lane-detection MaybeShewill-CV/lanenet-lane-detection Unofficial implemention of lanenet model for real time lane detection using deep neural network model https://maybesh..