개발자 콘솔에서 프롬프트 평가하기
Anthropic 콘솔에서 자동 테스트 케이스 생성 및 나란히 출력 비교 기능을 통해 프롬프트를 직접 생성, 테스트 및 평가하세요.
- 카테고리: 제품 발표
- 제품: Claude 개발자 플랫폼
- 게시일: 2024년 7월 9일
- 읽기 시간: 약 5분
AI 기반 애플리케이션을 구축할 때 프롬프트 품질은 결과에 큰 영향을 미칩니다. 하지만 고품질 프롬프트를 작성하는 것은 까다로우며, 애플리케이션의 요구 사항에 대한 깊은 지식과 대규모 언어 모델에 대한 전문성이 필요합니다. 개발 속도를 높이고 성과를 개선하기 위해, 우리는 사용자가 고품질 프롬프트를 더 쉽게 제작할 수 있도록 이 과정을 간소화했습니다.
이제 Anthropic 콘솔에서 프롬프트를 생성, 테스트 및 평가할 수 있습니다. 자동 테스트 케이스 생성 및 출력 비교 기능을 포함한 새로운 기능을 추가하여, Claude를 활용해 필요에 딱 맞는 최상의 응답을 생성할 수 있도록 했습니다.
프롬프트 생성하기
훌륭한 프롬프트를 작성하는 것은 Claude에게 작업을 설명하는 것만큼 간단할 수 있습니다. 콘솔은 Claude 3.5 Sonnet으로 구동되는 내장 프롬프트 생성기를 제공하며, 이를 통해 작업(예: "들어오는 고객 지원 요청 분류")을 설명하면 Claude가 고품질 프롬프트를 생성해 줍니다.

Claude의 새로운 테스트 케이스 생성 기능을 사용하여 프롬프트에 대한 입력 변수(예: 들어오는 고객 지원 메시지)를 생성하고 프롬프트를 실행하여 Claude의 응답을 확인할 수 있습니다. 또는 테스트 케이스를 수동으로 입력할 수도 있습니다.

테스트 모음 생성하기
다양한 실제 입력값에 대해 프롬프트를 테스트하면 프로덕션에 배포하기 전에 프롬프트 품질에 대한 확신을 쌓는 데 도움이 될 수 있습니다. 새로운 평가(Evaluate) 기능을 사용하면 스프레드시트나 코드에서 수동으로 테스트를 관리하는 대신 콘솔에서 직접 이 작업을 수행할 수 있습니다.
CSV에서 새 테스트 케이스를 수동으로 추가하거나 가져올 수 있으며, '테스트 케이스 생성(Generate Test Case)' 기능을 통해 Claude가 자동으로 테스트 케이스를 생성하도록 할 수도 있습니다. 필요에 따라 테스트 케이스를 수정하고, 한 번의 클릭으로 모든 테스트 케이스를 실행하세요. 각 변수에 대한 생성 요구 사항을 Claude가 어떻게 이해하고 있는지 확인하고 조정하여, Claude가 생성하는 테스트 케이스를 더 세밀하게 제어할 수 있습니다.

모델 응답 평가 및 프롬프트 반복 개선
프롬프트의 새 버전을 만들고 테스트 모음을 다시 실행하여 결과를 빠르게 반복하고 개선할 수 있으므로, 프롬프트를 다듬는 단계가 줄어듭니다. 또한 두 개 이상의 프롬프트 출력을 나란히 비교하는 기능을 추가했습니다.
주제별 전문가가 응답 품질을 5점 척도로 평가하게 하여 변경 사항이 응답 품질을 개선했는지 확인할 수도 있습니다. 이 두 가지 기능 모두 모델 성능을 더 빠르고 쉽게 개선할 수 있는 방법을 제공합니다.
시작하기
테스트 케이스 생성 및 출력 비교 기능은 Anthropic 콘솔의 모든 사용자에게 제공됩니다. Claude로 프롬프트를 생성하고 평가하는 방법에 대해 자세히 알아보려면 문서를 확인하세요.