pytorch
-
[Project] wav2vec2 모델 ONNX+TritonInferenceServer로 배포하기개발/Project 2024. 4. 15. 22:03
Huggingface 는 최신 논문부터 사람들이 직접 학습한 모델까지 다양한 딥러닝 모델을 사용할 수 있는 플랫폼이다. 하지만 실제로 python 환경에서 huggingface 모델들을 사용해보면 model loading, inference latency 등 생각보다 많은 문제가 있어서 huggingface 모델 자체로 프로덕트 배포하기에는 어려움이 있다. 이런 문제들을 해결하기 위해 다양한 ML 프레임워크가 존재하는데 이번 글에서는 wav2vec2 모델을 ONNX 로 변환한 후 TritonInferenceServer 를 통해 배포하는 과정을 소개한다. 추가적인 스크립트 작성없이 몇가지 커맨드만으로 재현할 수 있도록 만들어놨다왜 ONNX + TritonInferenceServer ? ML 모델은 pyto..