반응형
증상
구현환경 : Tensorflow2 도커 공식 이미지 + 해당 이미지에 맞는 Pytorch 설치한 상태
해당 환경에서 Pytorch 코드 실행 중 에러 메세지 2개가 반복되어 출력.
에러 메세지 1
RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR
에러 메세지 2
RuntimeError: CUDA error: out of memory CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
1. 원인
에러1참고 와 에러2참고 를 보면, 공통적으로 나오는 부분이 CUDA와 관련된 내용이었다.
따라서 첫 번째 추측으로 CUDA Version과의 호환성에 문제가 있다라고 판단.
2. 해결
그래서 dockerhub에서 Pytorch 공식 이미지를 받아서 같은 코드를 수행했더니 바로 해결...
(Pytorch 공식 이미지를 받을 때에도 본인의 하드웨어 사양에 맞춰서 호환 가능한 CUDA Version에 맞게 Pull 할 수 있도록 한다.) 문제 없이 코드가 돌아간다. Nvidia Driver와 CUDA의 호환성 관련해선 요 링크의 게시글을 참고하는 것도 좋을 듯 하다
반응형
댓글