개발자 콘솔에서 프롬프트 평가하기

Anthropic 콘솔에서 자동 테스트 케이스 생성 및 나란히 출력 비교 기능을 통해 프롬프트를 직접 생성, 테스트 및 평가하세요.

  • 카테고리: 제품 발표
  • 제품: Claude 개발자 플랫폼
  • 게시일: 2024년 7월 9일
  • 읽기 시간: 약 5분

AI 기반 애플리케이션을 구축할 때 프롬프트 품질은 결과에 큰 영향을 미칩니다. 하지만 고품질 프롬프트를 작성하는 것은 까다로우며, 애플리케이션의 요구 사항에 대한 깊은 지식과 대규모 언어 모델에 대한 전문성이 필요합니다. 개발 속도를 높이고 성과를 개선하기 위해, 우리는 사용자가 고품질 프롬프트를 더 쉽게 제작할 수 있도록 이 과정을 간소화했습니다.

이제 Anthropic 콘솔에서 프롬프트를 생성, 테스트 및 평가할 수 있습니다. 자동 테스트 케이스 생성 및 출력 비교 기능을 포함한 새로운 기능을 추가하여, Claude를 활용해 필요에 딱 맞는 최상의 응답을 생성할 수 있도록 했습니다.

프롬프트 생성하기

훌륭한 프롬프트를 작성하는 것은 Claude에게 작업을 설명하는 것만큼 간단할 수 있습니다. 콘솔은 Claude 3.5 Sonnet으로 구동되는 내장 프롬프트 생성기를 제공하며, 이를 통해 작업(예: "들어오는 고객 지원 요청 분류")을 설명하면 Claude가 고품질 프롬프트를 생성해 줍니다.

프롬프트 내용: SMS으로 들어오는 지원 요청을 분류해야 합니다. 요청을 1단계, 2단계 또는 3단계 지원으로 분류할 수 있고, 드물게는 온콜 엔지니어에게 전달할 수 있습니다. 들어오는 메시지를 검토한 후, 분류 결정을 제안하고 별도의 한 문장 정당성을 덧붙이는 프롬프트를 작성해주세요. (중앙)

Claude의 새로운 테스트 케이스 생성 기능을 사용하여 프롬프트에 대한 입력 변수(예: 들어오는 고객 지원 메시지)를 생성하고 프롬프트를 실행하여 Claude의 응답을 확인할 수 있습니다. 또는 테스트 케이스를 수동으로 입력할 수도 있습니다.

변수: 도와주세요! 저희 이커머스 웹사이트가 다운되어 매분마다 매출을 잃고 있습니다. 에러 로그에는 데이터베이스 연결 타임아웃이 여러 번 발생하고, 메인 서버의 CPU 사용률은 100%입니다. 애플리케이션과 데이터베이스 서비스를 재시작해도 사이트가 여전히 응답하지 않습니다. 모든 고객에게 영향을 미치고 있으니 최대한 빨리 해결해 주세요! (우측)

테스트 모음 생성하기

다양한 실제 입력값에 대해 프롬프트를 테스트하면 프로덕션에 배포하기 전에 프롬프트 품질에 대한 확신을 쌓는 데 도움이 될 수 있습니다. 새로운 평가(Evaluate) 기능을 사용하면 스프레드시트나 코드에서 수동으로 테스트를 관리하는 대신 콘솔에서 직접 이 작업을 수행할 수 있습니다.

CSV에서 새 테스트 케이스를 수동으로 추가하거나 가져올 수 있으며, '테스트 케이스 생성(Generate Test Case)' 기능을 통해 Claude가 자동으로 테스트 케이스를 생성하도록 할 수도 있습니다. 필요에 따라 테스트 케이스를 수정하고, 한 번의 클릭으로 모든 테스트 케이스를 실행하세요. 각 변수에 대한 생성 요구 사항을 Claude가 어떻게 이해하고 있는지 확인하고 조정하여, Claude가 생성하는 테스트 케이스를 더 세밀하게 제어할 수 있습니다.

모델 응답 평가 및 프롬프트 반복 개선

프롬프트의 새 버전을 만들고 테스트 모음을 다시 실행하여 결과를 빠르게 반복하고 개선할 수 있으므로, 프롬프트를 다듬는 단계가 줄어듭니다. 또한 두 개 이상의 프롬프트 출력을 나란히 비교하는 기능을 추가했습니다.

주제별 전문가가 응답 품질을 5점 척도로 평가하게 하여 변경 사항이 응답 품질을 개선했는지 확인할 수도 있습니다. 이 두 가지 기능 모두 모델 성능을 더 빠르고 쉽게 개선할 수 있는 방법을 제공합니다.

시작하기

테스트 케이스 생성 및 출력 비교 기능은 Anthropic 콘솔의 모든 사용자에게 제공됩니다. Claude로 프롬프트를 생성하고 평가하는 방법에 대해 자세히 알아보려면 문서를 확인하세요.