F5 NGINX Plus가 AI 클러스터를 지원하는 방법

관리자
조회수 77


지난 10년 동안 NGINX 오픈 소스는 세계에서 가장 널리 사용되는 웹 서버 중 하나였으며 시장 점유율 기준 최고의 애플리케이션 제공 솔루션이었습니다. 소규모 스타트업 및 학술 연구 프로젝트부터 세계 최대 규모의 웹 애플리케이션에 이르기까지 모든 것을 로드 밸런싱하고 역 프록시하는 데 도움이 되었습니다.

애플리케이션 제공을 위한 기본 선택이 된 것처럼, NGINX는 조용히 AI 애플리케이션을 훈련하고 제공하는 데 중요한 핵심이 되었습니다. Intel OpenVINO Model Server, NVIDIA Morpheus, Meta의 vLLM, NVIDIA Triton 등과 같은 선도적인 AI 프레임워크, 툴킷, 라이브러리 및 플랫폼은 gRPC/HTTP 프록시, SSL/TLS 종료, 상태 확인 인식 로드 밸런싱 및 동적 재구성을 즉시 처리할 수 있는 F5 NGINX Plus(및 NGINX 오픈 소스)용 기본 구성과 함께 제공됩니다. Kubernetes 클러스터에서 실행되는 수많은 AI 서비스 및 솔루션은 모델 훈련 및 추론을 위해 AI 클러스터 안팎의 트래픽을 관리하기 위해 선호하는 옵션 중 하나로 F5 NGINX Ingress Controller를 나열 합니다. 커버를 벗기면 AI를 찾을 수 있는 거의 모든 곳에서 실행되는 것을 볼 수 있습니다.

F5 NGINX는 조용히 AI 애플리케이션을 교육하고 제공하는 데 중요한 핵심이 되었습니다. 
AI를 찾을 수 있는 거의 모든 곳에서 실행되는 것을 볼 수 있습니다

다양한 AI 사용 사례에서 NGINX는 AI 스택의 핵심 조력자입니다. 파운데이션 모델을 미세 조정하든, LLM에서 토큰 출력을 스트리밍하든, 실시간 이상 탐지 엔드포인트로 요청을 라우팅하든, NGINX는 이미 경로에 있을 가능성이 높습니다.

AI 팀이 NGINX Plus를 선택하는 이유

  • 쿠버네티스 네이티브 수신: 오늘날 대부분의 AI 플랫폼은 쿠버네티스에서 실행되며, NGINX는 Run:ai, KServe, Ray Serve와 같은 도구에서 기본 또는 선호되는 수신으로 남아 있습니다. AI 앱이 하이브리드, 멀티 클라우드 및 엣지 환경으로 확장됨에 따라 NGINX 게이트웨이 패브릭은 가벼운 설치 공간과 세분화된 트래픽 제어를 통해 게이트웨이 API의 쿠버네티스 네이티브 구현을 제공하여 AI 팀이 메시 복잡성을 추가하지 않고도 라우팅, 재시도 및 관찰 가능성을 더 잘 제어할 수 있도록 합니다.
  • 대규모 동적 롤아웃: AI 추론 워크로드에는 신중한 버전 관리와 다운타임 제로가 필요한 고부가가치 GPU 바인딩 세션이 포함되는 경우가 많습니다. NGINX는 동적 구성 재로드, 가중치 트래픽 분할 및 활성 상태 확인을 지원하므로 팀은 진행 중인 세션을 중단하거나 GPU 대기열에 부담을 주지 않고 새 모델 버전을 안전하게 롤아웃할 수 있습니다.
  • 프로덕션 준비 API 처리: Triton, vLLM 및 OpenVINO와 같은 모델 서버는 빠르고 구조화된 통신을 위해 gRPC 또는 HTTP/2에 의존합니다. NGINX는 버스트 또는 수명이 긴 AI 추론 트래픽을 처리하는 데 필수적인 연결 재사용, 세션 고정성, TLS 종료 및 요청 버퍼링과 함께 이러한 프로토콜에 대한 성숙한 고성능 지원을 제공합니다.
  • 운영 제어: NGINX Plus는 RESTful 구성 업데이트, 실시간 업스트림 관리, 엔터프라이즈급 웹 애플리케이션 방화벽(WAF)과 같은 고급 기능을 제공합니다. 클러스터 전체에서 수십 또는 수백 개의 NGINX 인스턴스를 관리하는 팀을 위해 F5 NGINX One은 구성, 상태 및 보안 정책을 관리하기 위한 중앙 집중식 콘솔을 추가하여 액세스 및 위험 프로필이 다른 여러 모델 유형 또는 AI 사용 사례를 지원하는 팀에 이상적입니다.
  • F5 AI 게이트웨이: AI 워크로드를 위해 특별히 제작된 AI 게이트웨이는 AI 트래픽에 대한 보안 우선 접근 방식으로 NGINX를 확장합니다. 여기에는 신속한 주입 및 독성 출력에 대한 사용자 정의 가능한 보호 기능은 물론 GPU 제약 환경에서 스크래핑, 플러딩 또는 런어웨이 쿼리를 방지하는 데 도움이 되는 속도 제한 및 사용 할당량이 포함됩니다. 다양한 추론 경로에 다양한 보안 규칙을 적용할 수 있습니다(예: 생성형 모델에 대해 더 엄격한 정책을 사용하면서 벡터 API를 더 관대하게 유지하는 것). 모든 트래픽은 토큰 또는 요청 수준에서 기록되어 관찰 가능성 파이프라인에 공급되고 감사 요구 사항을 지원할 수 있습니다.



주요 AI 프레임워크, 도구 및 관리형 서비스는 NGINX를 통합합니다.

NGINX는 많은 주요 AIOps 스택, 도구 및 관리형 서비스에 대한 기본 수신 Ingress 중 하나입니다.
1663d0964c190.png

MLOps 팀은 마이크로서비스 및 API(둘 다 AI 배포에 필수적)를 관리하는 팀이 NGINX를 채택한 것과 같은 이유로 NGINX 제품을 도입할 수 있습니다. 

가볍고 모듈식이며 휴대가 가능하며 다양한 환경에서 많은 양의 토큰을 처리합니다. AI 개발자와 머신 러닝 엔지니어는 공통 AI 레시피를 구축하는 일환으로 NGINX를 배포하여 플랫폼 또는 MLOps 팀에서 구성한 컨테이너 이미지를 가져올 수 있습니다.

 NGINX는 가장 일반적인 플랫폼 및 프로세서 아키텍처에서 하드웨어 가속과 통합됩니다.

NGINX를 기본 옵션으로 나열하는 AI 구성 요소는 낮은 수준의 GPU 스케줄링에서 높은 수준의 모델 제공, 배포 오케스트레이션 및 엔터프라이즈급 거버넌스에 이르기까지 AI 인프라의 전체 스펙트럼을 포괄합니다. 이 두 보고서는 NGINX가 추론 엔드포인트로 트래픽을 안전하게 라우팅하고, 확장 가능하고 효율적인 모델 제공을 지원하고, 멀티 테넌트 클러스터 액세스를 관리하고, 버전 제어, 감사 및 규정 준수에 대한 운영 정책을 시행하는 등 광범위한 사용 사례를 지원하는 방법을 보여줍니다.

  • KServe: 배포 가이드는 라우팅 추론 서비스를 위해 기존 NGINX 수신 컨트롤러 도메인을 가정합니다.
  • Ray Serve: 설명서에는 대시보드 및 모델 엔드포인트를 노출하도록 NGINX Ingress Controller를 구성하는 지침이 포함되어 있습니다.
  • Seldon Core v2: 프로덕션 배포 장에서는 카나리아 및 섀도우 트래픽 시나리오를 포함하여 Helm을 통해 NGINX Ingress Controller 설정을 설명합니다.
  • Run:ai: 사전 요구 사항은 NGINX를 다중 테넌트 GPU 공유 Kubernetes 클러스터에 대한 검증된 수신 컨트롤러로 나열합니다.
  • AWS SageMaker: 설명서에서는 NGINX 및 Gunicorn을 사용하여 사용자 지정 추론 컨테이너를 전면에 배치하는 예제를 제공합니다.
  • Azure AKS: Microsoft는 클러스터 내 수신 트래픽에 대한 기본 제공 기본 제공 옵션으로 관리형 NGINX 수신 컨트롤러를 제공합니다.
  • DataRobot: 설치 지침에서는 EKS의 휴대용 예측 서버에 대한 경로 기반 라우팅을 위해 NGINX Ingress Controller(v4.0.0+)를 사용할 것을 권장합니다.



NGINX는 MLOps에 대한 포장된 경로를 제공합니다.

전체적으로 이러한 플랫폼과 도구는 낮은 수준의 GPU 스케줄링부터 높은 수준의 모델 제공, 배포 오케스트레이션 및 엔터프라이즈급 거버넌스에 이르기까지 AI 인프라의 전체 스펙트럼에 걸쳐 있습니다. 이 두 보고서는 NGINX가 추론 엔드포인트로 트래픽을 안전하게 라우팅하고, 확장 가능하고 효율적인 모델 제공을 지원하고, 멀티 테넌트 클러스터 액세스를 관리하고, 버전 제어, 감사 및 규정 준수에 대한 운영 정책을 시행하는 등 광범위한 사용 사례를 지원하는 방법을 보여줍니다. 목록이 확장되고 있으며 차세대 AI 네이티브 기업이 NGINX를 사용하여 무엇을 구축할지 기대됩니다.



위 내용과 같이 NGINX Plus를 활용하여 Demo 가 필요하시면 하단의 전문가에게 상담받기 버튼을 클릭해주세요.

 


전문가에게 상담받기