by Zoey Apr 21,2025
Claude와 같은 대형 언어 모델 (LLM)은 우리가 기술과 상호 작용하는 방식에 혁명을 일으켰습니다. 그들은 챗봇을 강화하고, 에세이를 작성하는 데 도움이되고, 심지어시를 공예합니다. 그러나 그들의 인상적인 기능에도 불구하고, 이들 모델은 다소 수수께끼로 남아 있습니다. 종종 "블랙 박스"라고 불리는 우리는 출력을 관찰 할 수 있지만이를 생성하는 기본 프로세스는 관찰 할 수 없습니다. 이 불투명도는 특히 의학 및 법과 같은 중요한 분야에서 상당한 도전을 제기하며, 오류 나 숨겨진 편견이 심각한 결과를 초래할 수 있습니다.
LLM의 내부 작업을 이해하는 것은 신뢰를 구축하는 데 중요합니다. 모델이 특정 답변을 제공하는 이유를 설명 할 수 없다면, 특히 민감한 영역에서 결과에 의존하기가 어렵습니다. 해석 가능성은 또한 편견이나 오류를 식별하고 수정하는 데 도움이되며 모델이 안전하고 윤리적인지 확인합니다. 예를 들어, 모델이 지속적으로 특정 관점을 선호하는 경우 근본적인 이유를 이해하면 개발자가 이러한 문제를 해결하는 데 도움이 될 수 있습니다. 명확성을위한 이러한 퀘스트는 이러한 모델을보다 투명하게 만드는 연구를 이끌어냅니다.
Claude 뒤에있는 회사 인 Anthropic은 LLMS를 탈취하려는 노력의 최전선에있었습니다. 그들은 이러한 모델이 정보를 처리하는 방법을 이해하는 데 큰 진전을 이루었 으며이 기사는 Claude의 운영의 투명성을 향상시키는 데 획기적인 혁신을 탐구합니다.
20124 년 중반, Anthropic의 팀은 Claude가 정보를 처리하는 방법에 대한 초보적인 "지도"를 만들어 주목할만한 획기적인 획기적인 발전을 달성했습니다. 사전 학습으로 알려진 기술을 사용하여 Claude의 신경망 내에서 수백만 패턴을 식별했습니다. 각 패턴 또는 "기능"은 특정 개념에 해당합니다. 예를 들어, 일부 기능을 통해 Claude는 도시, 주목할만한 개인 또는 코딩 오류를 인식 할 수있는 반면, 다른 기능은 성 편견이나 비밀과 같은보다 복잡한 주제와 관련이 있습니다.
연구에 따르면 이러한 개념은 개별 뉴런에 국한되지 않고 Claude 네트워크 내의 많은 뉴런에 분포되어 있으며 각 뉴런은 여러 개념에 기여합니다. 이것은 처음에는 이러한 개념을 해독하기가 어려워졌습니다. 그러나 이러한 반복 패턴을 식별함으로써 Anthropic의 연구원들은 Claude가 어떻게 생각을 조직하는지 풀기 시작했습니다.
Anthropic의 다음 목표는 Claude가 이러한 개념을 사용하여 결정을 내리는 방법을 이해하는 것이 었습니다. 그들은 Claude의 사고 과정에 대한 단계별 가이드 역할을하는 Advribute Graphs라는 도구를 개발했습니다. 그래프의 각 노드는 Claude의 마음에서 활성화되는 아이디어를 나타내며 화살은 한 아이디어가 다른 아이디어로 이어지는 방식을 보여줍니다. 이 도구는 연구원들이 클로드가 질문을 답으로 변형시키는 방법을 추적 할 수있게합니다.
귀속 그래프의 기능을 설명하려면이 예제를 고려하십시오. "달라스와의 국가의 수도는 무엇입니까?" 클로드는 먼저 달라스가 텍사스에 있다는 것을 인식하고 오스틴이 텍사스의 수도라는 것을 기억해야합니다. 귀속 그래프는이 순서를 정확하게 묘사했습니다. 클로드의 일부는 "텍사스"를 식별 한 후 "오스틴"을 선택하기 위해 다른 부분을 트리거했습니다. 이 팀은 "텍사스"구성 요소를 수정하여 실험을 수행하여 응답을 변경했습니다. 이것은 Claude가 단순히 추측하는 것이 아니라 문제를 통해 체계적으로 작동한다는 것을 보여줍니다. 이제 우리는이 과정을 실제로 관찰 할 수 있습니다.
이러한 발전의 중요성을 이해하기 위해 생물학적 과학의 주요 발전을 고려하십시오. 현미경의 발명으로 과학자들은 세포 (생명의 기본 단위)를 발견 할 수있게 된 것처럼, 이러한 해석 성 도구는 AI 연구원들이 모델 내에서 사고의 기본 단위를 밝힐 수있게 해줍니다. 유사하게, 뇌에 신경 회로를 매핑하거나 게놈을 시퀀싱하는 것이 의학의 획기적인 것을 초래하고; Claude의 내부 작업을 매핑하면보다 신뢰할 수 있고 제어 가능한 기계 인텔리전스가 발생할 수 있습니다. 이러한 해석 성 도구는 중요하며 AI 모델의인지 과정을 엿볼 수 있습니다.
이러한 발전에도 불구하고 Claude와 같은 LLM을 완전히 이해하는 것은 먼 목표입니다. 현재 귀속 그래프는 Claude의 결정 중 4 개 중 약 1 명만 설명 할 수 있습니다. 특징의 맵은 인상적이지만 Claude의 신경망 내 활동의 일부에 불과합니다. 수십억 개의 매개 변수를 통해 Claude와 같은 LLM은 각 작업에 대해 수많은 계산을 수행하므로 단일 사고 중에 인간 뇌에서 모든 뉴런 발사를 추적하는 것과 유사합니다.
또 다른 과제는 AI 모델이 설득력이 있지만 실제로는 잘못된 응답을 생성하는 "환각"입니다. 이는 모델이 세상에 대한 진정한 이해가 아니라 훈련 데이터의 패턴에 의존하기 때문에 발생합니다. 이러한 모델이 때때로 잘못된 정보를 생성하는 이유를 이해하는 것은 여전히 복잡한 문제로 남아있어 내면의 작업에 대한 이해의 격차를 강조합니다.
바이어스는 또 다른 강력한 도전을 제시합니다. AI 모델은 인터넷에서 공급되는 방대한 데이터 세트에서 배웁니다.이 데이터 세트는 필연적으로 인간의 편견 (편견, 편견 및 기타 사회적 결함)이 포함되어 있습니다. Claude가 훈련 중에 이러한 편견을 흡수하면 응답에 나타날 수 있습니다. 이러한 편견의 기원을 밝히고 모델의 추론에 미치는 영향은 기술 솔루션과 신중한 윤리적 고려 사항을 모두 필요로하는 다각적 인 도전입니다.
Claude와 같은 대규모 언어 모델의 투명성을 향상시키려는 Anthropic의 노력은 AI 해석 성의 상당한 발전을 이루었습니다. Claude가 정보를 처리하고 결정을 내리는 방법을 밝히면 AI에서 더 큰 책임을지게됩니다. 이러한 진보는 신뢰와 윤리가 가장 중요한 의료 및 법률과 같은 중요한 부문으로 LLM을보다 안전하게 통합 할 수 있습니다.
해석 방법이 계속 발전함에 따라 AI를 채택하는 것을 주저 한 산업은 이제 재고 할 수 있습니다. Claude와 같은 투명한 모델은 AI의 미래에 대한 명확한 경로를 제공합니다. 인간 지능을 모방 할뿐만 아니라 추론 과정을 설명하는 마치.
Android 액션 디펜스
Gotham Knights: Rumored Nintendo Switch 2 Debut
몰입형 FPS "나는 너의 야수다", 놀라운 새 예고편 공개
Black Ops 6 Zombies: 모든 Citadelle Des Morts 부활절 달걀
Disney의 'Pixel RPG'는 모바일 출시를위한 게임 플레이를 공개합니다
Garena의 Free Fire가 인기 축구 애니메이션 Blue Lock과 협력하고 있습니다!
모바일 레전드: 2025년 1월 교환 코드 출시
Wuthering Waves가 마침내 새로운 Rinascita 지역을 특징으로 하는 버전 2.0을 출시합니다.