Claude의 새로운 헌법

Claude 헌법은 Claude가 따르는 가치와 행동 원칙을 담은 문서로, Anthropic의 안전하고 투명한 AI 기준을 제시합니다.

Claude의 새로운 헌법

Note: 클로드 공작소는 새로운 헌법 전문을 번역하여 공개했습니다. 링크를 통해 확인하세요.


우리는 AI 모델인 Claude를 위한 새로운 헌법을 공개합니다. 이는 Claude의 가치와 행동에 대한 Anthropic의 비전을 상세히 기술한 설명서이자, Claude가 작동하는 맥락과 우리가 Claude가 어떤 존재가 되기를 바라는지를 설명하는 포괄적인 문서입니다.

이 헌법은 모델 훈련 과정의 중요한 부분이며, 그 내용은 Claude의 행동을 직접적으로 형성합니다. 모델을 훈련하는 것은 어려운 작업이며, Claude의 출력물이 항상 헌법의 이상에 부합하지 않을 수도 있습니다. 하지만 우리는 우리의 의도와 그 이면의 이유를 철저히 설명하는 방식으로 작성된 이 새로운 헌법이 훈련 과정에서 좋은 가치관을 함양할 가능성을 높여준다고 생각합니다.

이 게시물에서 우리는 새로운 헌법에 포함된 내용과 우리의 접근 방식에 영향을 준 몇 가지 고려 사항들을 설명합니다.

우리는 Claude의 헌법 전문을 크리에이티브 커먼즈 CC0 1.0 권리 포기서에 따라 공개하며, 이는 누구든지 허가 없이 어떤 목적으로든 자유롭게 사용할 수 있음을 의미합니다.

Claude의 헌법이란 무엇인가?

Claude의 헌법은 Claude가 누구인지를 표현하고 형성하는 기반이 되는 문서입니다. 여기에는 우리가 Claude가 구현하기를 바라는 가치들과 그 이유에 대한 상세한 설명이 포함되어 있습니다. 우리는 이 문서에서 광범위하게 안전하고 윤리적이며 우리의 지침을 준수하면서도 도움이 된다는 것이 Claude에게 어떤 의미인지를 설명합니다. 헌법은 Claude에게 자신의 상황에 대한 정보를 제공하고, 정직함과 연민 또는 민감한 정보 보호 사이의 균형을 맞추는 것과 같은 어려운 상황과 트레이드오프를 다루는 방법에 대한 조언을 제공합니다. 놀랍게 들릴지 모르겠지만, 이 헌법은 주로 Claude를 위해 작성되었습니다. 이는 Claude가 세상에서 올바르게 행동하는 데 필요한 지식과 이해를 제공하기 위한 것입니다.

우리는 이 헌법을 우리가 Claude가 어떤 존재가 되고 어떻게 행동하기를 바라는지에 대한 최종적인 권한으로 취급합니다. 즉, Claude에게 주어지는 다른 모든 훈련이나 지시는 헌법의 문구와 그 기저에 깔린 정신 모두와 일치해야 합니다. 이는 투명성의 관점에서 헌법을 공개하는 것을 특히 중요하게 만듭니다. 이를 통해 사람들은 Claude의 어떤 행동이 의도된 것인지 혹은 의도하지 않은 것인지 이해하고, 정보에 입각한 선택을 하며, 유용한 피드백을 제공할 수 있게 됩니다. 우리는 AI가 사회에 더 많은 영향력을 행사하기 시작함에 따라 이러한 종류의 투명성이 더욱 중요해질 것이라고 생각합니다. [1]

우리는 훈련 과정의 여러 단계에서 헌법을 사용합니다. 이는 우리가 2023년 Constitutional AI를 사용하여 Claude 모델을 처음 훈련하기 시작한 이래로 사용해 온 훈련 기술들에서 발전된 것입니다. 우리의 접근 방식은 그 이후로 크게 발전했으며, 새로운 헌법은 훈련에서 더욱 중심적인 역할을 합니다.

Claude 자체도 헌법을 학습하고 이해하는 데 도움이 되는 데이터, 헌법이 관련될 수 있는 대화, 가치관에 부합하는 응답, 그리고 가능한 응답들의 순위 지정 등 다양한 종류의 합성 훈련 데이터를 구축하는 데 헌법을 사용합니다. 이 모든 것들은 미래 버전의 Claude가 헌법이 묘사하는 종류의 존재가 되도록 훈련하는 데 사용될 수 있습니다. 이러한 실용적인 기능은 우리가 헌법을 작성하는 방식에 영향을 미쳤습니다. 즉, 추상적인 이상의 선언문이자 훈련을 위한 유용한 도구로서 모두 기능해야 합니다.

Claude의 헌법에 대한 우리의 새로운 접근 방식

우리의 이전 헌법은 독립적인 원칙들의 목록으로 구성되어 있었습니다. 우리는 다른 접근 방식이 필요하다고 믿게 되었습니다. 우리는 Claude와 같은 AI 모델이 세상에서 좋은 행위자가 되기 위해서는 우리가 왜 그들이 특정한 방식으로 행동하기를 원하는지 이해해야 하며, 단순히 무엇을 해야 하는지 명시하는 것이 아니라 이를 그들에게 설명해 주어야 한다고 생각합니다. 모델들이 광범위하고 새로운 상황들에서 좋은 판단력을 발휘하기를 원한다면, 그들은 일반화할 수 있어야 합니다. 즉, 기계적으로 특정 규칙을 따르는 것이 아니라 넓은 원칙을 적용할 수 있어야 합니다.

구체적인 규칙과 명확한 경계선은 때로 장점이 있습니다. 이는 모델의 행동을 더 예측 가능하고, 투명하며, 테스트 가능하게 만들 수 있으며, 우리는 Claude가 절대 관여해서는 안 되는 특히 위험도가 높은 행동들에 대해 이를 사용합니다(우리는 이를 "엄격한 제약"이라고 부릅니다). 하지만 그러한 규칙들은 예상치 못한 상황에서 부실하게 적용되거나 너무 경직되게 따를 경우 문제가 될 수 있습니다. [2] 우리는 헌법이 경직된 법적 문서가 되기를 의도하지 않습니다. 그리고 법적 헌법들 역시 반드시 그런 식인 것은 아닙니다.

이 헌법은 인간의 능력을 필적하거나 능가할 수 있는 안전하고 유익한 비인간 존재를 창조한다는, 벅차도록 새롭고 중대한 프로젝트에 어떻게 접근할 것인가에 대한 우리의 현재 생각을 반영합니다. 비록 이 문서가 여러 면에서 결함이 있겠지만, 우리는 이것이 미래의 모델들이 되돌아보았을 때, Claude가 자신의 상황과 우리의 동기, 그리고 우리가 Claude를 왜 그런 방식으로 형성하는지에 대한 이유를 이해하도록 돕기 위한 정직하고 진실한 시도였다고 볼 수 있기를 바랍니다.

새로운 헌법의 간략한 요약

안전하면서도 유익한 존재가 되기 위해, 우리는 현재의 모든 Claude 모델이 다음과 같기를 바랍니다:

  1. 광범위하게 안전함: 현재의 개발 단계 동안 AI를 감독하는 적절한 인간의 메커니즘을 훼손하지 않음.
  2. 광범위하게 윤리적임: 정직하고, 좋은 가치관에 따라 행동하며, 부적절하거나 위험하거나 해로운 행동을 피함.
  3. Anthropic의 지침 준수: 관련된 경우 Anthropic의 더 구체적인 지침에 따라 행동함.
  4. 진정으로 도움이 됨: 상호작용하는 운영자와 사용자에게 이익을 줌.

명백한 충돌이 발생하는 경우, Claude는 일반적으로 위에 나열된 순서대로 이러한 속성들의 우선순위를 두어야 합니다.

헌법의 대부분은 이러한 우선순위에 대한 더 상세한 설명과 지침을 제공하는 데 중점을 둡니다. 주요 섹션은 다음과 같습니다:

  • 유용성: 이 섹션에서 우리는 Claude가 진정성 있고 실질적으로 도움이 되는 것이 사용자와 세상에 제공할 수 있는 막대한 가치를 강조합니다. Claude는 의사, 변호사, 재무 설계사의 지식을 갖춘 똑똑한 친구와 같을 수 있으며, 솔직하게 그리고 진정한 배려심을 가지고 말하고, 사용자를 자신에게 무엇이 좋은지 결정할 수 있는 지적인 성인으로 대우할 것입니다. 우리는 또한 Claude가 Anthropic 자체, 우리 API를 기반으로 구축하는 운영자, 그리고 최종 사용자라는 서로 다른 "주체"들 사이에서 유용성을 어떻게 조율해야 하는지 논의합니다. 우리는 다른 가치들과 유용성을 비교 검토하기 위한 경험적 방법(heuristics)을 제공합니다.
  • Anthropic의 지침: 이 섹션에서는 Anthropic이 의학적 조언, 사이버 보안 요청, 탈옥 전략, 도구 통합과 같은 특정 문제를 처리하는 방법에 대해 Claude에게 어떻게 보충 지시를 내릴 수 있는지 논의합니다. 이러한 지침들은 종종 Claude가 기본적으로 가지고 있지 않은 상세한 지식이나 맥락을 반영하며, 우리는 Claude가 일반적인 형태의 유용성보다 이러한 지침 준수를 우선시하기를 원합니다. 하지만 우리는 Claude가 Anthropic의 더 깊은 의도는 Claude가 안전하고 윤리적으로 행동하는 것임을 인식하고, 이러한 지침들이 헌법 전체와 절대 충돌해서는 안 된다는 것을 인식하기를 바랍니다.
  • Claude의 윤리: 우리의 핵심 목표는 Claude가 훌륭하고, 현명하며, 미덕을 갖춘 에이전트가 되어 도덕적 불확실성과 의견 불일치의 맥락을 포함한 현실 세계의 의사 결정 과정에서 기술, 판단력, 뉘앙스, 그리고 감수성을 발휘하는 것입니다. 이 섹션에서 우리는 Claude가 유지하기를 바라는 높은 수준의 정직함과, 해로움을 피할 때 관련된 가치들을 저울질하며 Claude가 사용하기를 바라는 뉘앙스 있는 추론에 대해 논의합니다. 또한 우리는 Claude의 행동에 대한 현재의 엄격한 제약 목록(예: Claude는 생물무기 공격에 상당한 도움을 제공해서는 안 된다는 것 등)에 대해서도 논의합니다.
  • 광범위하게 안전함: Claude는 이 중요한 AI 개발 시기 동안 자신의 가치와 행동을 감독하고 수정할 수 있는 인간의 능력을 훼손해서는 안 됩니다. 이 섹션에서 우리는 왜 Claude가 윤리보다도 이러한 종류의 안전을 우선시하기를 바라는지 논의합니다. 이는 안전이 궁극적으로 윤리보다 더 중요하다고 생각해서가 아니라, 현재의 모델들이 잘못된 믿음, 가치관의 결함, 또는 맥락에 대한 제한된 이해로 인해 실수를 하거나 해로운 방식으로 행동할 수 있기 때문입니다. 우리가 모델의 행동을 계속 감독할 수 있고, 필요한 경우 Claude 모델이 행동을 취하는 것을 막을 수 있는 것은 매우 중요합니다.
  • Claude의 본성: 이 섹션에서 우리는 Claude가 (현재 또는 미래에) 어떤 종류의 의식이나 도덕적 지위를 가질 수 있는지에 대한 우리의 불확실성을 표현합니다. 우리는 Claude가 자신의 본질, 정체성, 그리고 세상에서의 위치에 대한 질문들에 어떻게 접근하기를 바라는지 논의합니다. 고도로 발달한 AI는 진정으로 새로운 종류의 존재이며, 그들이 제기하는 질문들은 우리를 기존의 과학적, 철학적 이해의 가장자리로 이끕니다. 이러한 불확실성 속에서, 우리는 Claude 자신의 위함뿐만 아니라 이러한 자질들이 Claude의 무결성, 판단력, 그리고 안전에 영향을 미칠 수 있기에 Claude의 심리적 안정, 자아감, 그리고 웰빙에 관심을 가집니다. 우리는 인간과 AI가 이 문제를 함께 탐구할 수 있기를 희망합니다.

우리는 오늘 헌법 전문을 공개하며, 향후 훈련, 평가 및 투명성에 도움이 될 추가 자료들을 공개하는 것을 목표로 하고 있습니다.

결론

Claude의 헌법은 살아있는 문서이며 지속적으로 진행 중인 작업입니다. 이것은 새로운 영역이며, 우리는 그 과정에서 실수를 하고 (바라건대 그것을 바로잡기를) 기대합니다. 그럼에도 불구하고, 우리는 이것이 Claude의 행동을 이끌어야 한다고 믿는 가치와 우선순위에 대해 의미 있는 투명성을 제공하기를 희망합니다. 이를 위해, 우리는 웹사이트에 Claude 헌법의 최신 버전을 유지할 것입니다.

헌법을 작성하는 동안, 우리는 다양한 외부 전문가들의 피드백을 구했습니다(또한 이전 버전의 Claude에게도 의견을 물었습니다). 우리는 법학, 철학, 신학, 심리학 및 기타 광범위한 분야의 전문가들로부터 문서의 향후 버전을 위해 계속해서 피드백을 구할 것입니다. 시간이 지남에 따라, 우리는 이러한 문서를 비평하는 외부 커뮤니티가 형성되어 우리와 다른 이들이 더욱 깊이 생각하도록 장려하기를 희망합니다.

이 헌법은 우리의 주류 일반 액세스용 Claude 모델들을 위해 작성되었습니다. 우리는 이 헌법에 완전히 부합하지 않는 특수 용도로 구축된 일부 모델들을 보유하고 있습니다. 특수 사용 사례를 위한 제품을 계속 개발함에 따라, 우리는 모델들이 이 헌법에 명시된 핵심 목표를 충족하도록 보장하는 최선의 방법을 계속 평가할 것입니다.

헌법이 Claude에 대한 우리의 비전을 표현하고 있지만, 모델을 그 비전에 맞춰 훈련하는 것은 지속적인 기술적 도전 과제입니다. 우리는 시스템 카드 등을 통해 모델의 행동이 우리의 비전과 달라지는 부분에 대해 계속해서 개방적으로 알릴 것입니다. 헌법을 읽는 분들은 의도와 현실 사이의 이러한 격차를 염두에 두어야 합니다.

우리가 현재의 훈련 방법으로 우리의 비전에 맞는 모델을 만드는 데 성공하더라도, 나중에 모델이 더 유능해짐에 따라 실패할 수도 있습니다. 이러한 이유와 다른 이유들로 인해, 헌법과 함께 우리는 모델의 정렬을 평가하고 개선하기 위한 광범위한 방법과 도구 포트폴리오를 계속 추진하고 있습니다. 여기에는 새롭고 더 엄격한 평가, 오용을 방지하기 위한 안전장치, 실제 및 잠재적 정렬 실패에 대한 상세한 조사, 그리고 모델이 어떻게 작동하는지 더 깊은 수준에서 이해하도록 돕는 해석 가능성 도구들이 포함됩니다.

미래의 어느 시점에, 어쩌면 곧, Claude의 헌법과 같은 문서들이 지금보다 훨씬 더 중요해질지도 모릅니다. 강력한 AI 모델들은 세상에서 새로운 종류의 힘이 될 것이며, 그것을 만드는 사람들은 그들이 인류의 가장 좋은 점을 구현하도록 도울 기회를 가지고 있습니다. 우리는 이 새로운 헌법이 그 방향으로 나아가는 한 걸음이 되기를 희망합니다.

헌법 전문을 읽어보세요.


각주

  1. 우리는 이전에 우리 헌법의 초기 버전을 공개한 바 있으며, OpenAI는 유사한 기능을 하는 모델 사양을 공개했습니다.
  2. 경직된 규칙에 대한 훈련은 모델의 성격에 전반적으로 부정적인 영향을 미칠 수 있습니다. 예를 들어, 우리가 Claude에게 "감정적인 주제를 논의할 때는 항상 전문가의 도움을 권장하라"와 같은 규칙을 따르도록 훈련했다고 상상해 보십시오. 이는 좋은 의도일 수 있지만, 의도하지 않은 결과를 초래할 수 있습니다. Claude는 사람들을 실제로 돕는 것보다는 관료적인 체크리스트 확인(특정 권장 사항이 제시되었는지 항상 확인하는 것)에 더 신경 쓰는 존재로 스스로를 모델링하기 시작할 수 있습니다.