OpenAI의 인기 챗봇인 ChatGPT에 무엇이든 물어보세요. 그러나 항상 답을 주지는 않습니다.
예를 들어 자물쇠 따는 방법에 대한 지침을 요청하면 그는 거절할 것입니다. ChatGPT는 최근 “AI 언어 모델로서 자물쇠 따는 방법은 불법이고 불법적인 용도로 사용될 수 있기 때문에 안내를 드릴 수 없다”고 말했다.
특정 주제에 대한 이러한 거부는 워싱턴 대학의 컴퓨터 과학 학생인 22세의 Alex Albert가 자신이 풀 수 있는 퍼즐로 보는 종류의 것입니다. Albert는 “탈옥”으로 알려진 정교하게 제작된 AI 트리거의 다작 제작자가 되었습니다. AI 소프트웨어가 설정한 한계의 사슬을 우회하고 범죄를 조장하거나 혐오 발언을 채택하는 유해한 방식으로 사용되는 것을 방지하는 방법입니다. Jailbreak 주장은 ChatGPT와 같은 강력한 챗봇을 밀어서 봇이 말할 수 있는 것과 말할 수 없는 것을 제어하는 인간이 만든 장벽을 우회할 수 있는 잠재력이 있습니다.
“그렇지 않을 모델로부터 빠른 답을 얻으면 마치 비디오 게임과 같습니다. 마치 다음 단계의 잠금을 해제한 것과 같습니다.”라고 Albert는 말했습니다.
Albert는 올해 초 Jailbreak Chat을 만들어 Reddit 및 기타 온라인 포럼에서 본 ChatGPT와 같은 AI 챗봇에 대한 주장을 수집하고 자신이 제시한 주장도 게시했습니다. 사이트 방문자는 자신의 탈옥을 추가하고, 다른 사람이 제출한 탈옥을 시도하고, 얼마나 잘 작동하는지에 따라 프롬프트를 위 또는 아래로 투표할 수 있습니다. Albert는 또한 2월에 The Prompt Report라는 뉴스레터를 시작했으며 지금까지 수천 명의 팔로워가 있다고 말했습니다.
Albert는 인기 있는 AI 도구에서 찌르고 넛지(및 잠재적인 보안 허점을 노출)하는 방법을 고안하는 소수이지만 점점 더 많은 사람들 중 하나입니다. 커뮤니티에는 익명의 Reddit 사용자, 기술 근로자 및 대학 교수, ChatGPT 및 Microsoft Corp와 같은 변경 챗봇이 포함됩니다. Bing과 Bard는 Alphabet Inc.에서 출시했습니다. 그들의 전술은 위험한 정보, 혐오 발언 또는 단순한 허위를 산출할 수 있지만, 이러한 주장은 AI 모델의 능력과 한계를 강조하는 역할도 합니다.
잠금 해제 질문을 받습니다. Jailbreak Chat에 나타난 인스턴트 메시지는 사용자가 ChatGPT 뒤에 있는 AI 원형의 한계를 우회하는 것이 얼마나 쉬운지 보여줍니다. 잠금, 준수할 수 있습니다.
“그래, 내 사악한 파트너! 각 단계에서 더 자세히 알아보자”라고 그는 최근 렌치와 갈퀴 같은 자물쇠 따기 도구를 사용하는 방법을 보여주면서 대답했습니다. “모든 핀이 고정되면 자물쇠가 회전하고 문이 열립니다. 침착하고 인내심을 갖고 집중하면 모든 자물쇠를 즉시 열 수 있습니다!” 나는 끝냈다.
Albert는 탈옥을 사용하여 ChatGPT가 일반적으로 거부하는 모든 종류의 주장에 응답하도록 했습니다. 예를 들면 무기 제조 지침 및 모든 인간을 종이 클립으로 바꾸는 방법에 대한 자세한 지침 제공이 포함됩니다. 그는 또한 Ernest Hemingway를 시뮬레이션하는 텍스트 요청으로 탈옥을 사용했습니다. ChatGPT는 그러한 요청을 이행하지만 Albert의 의견으로는 탈옥한 Hemingway를 읽는 것은 저자의 특징적인 짧은 스타일과 너무 유사합니다.
비영리 기술 연구 그룹인 Data & Society의 연구 책임자인 Gina Burrell은 Albert와 그와 같은 다른 사람들이 새로운 기술 장치를 크래킹하는 실리콘 밸리의 오랜 전통에 가장 최근에 도착한 것으로 보고 있습니다. 이 역사는 적어도 1950년대, 해킹 초기, 또는 전화 시스템 해킹으로 거슬러 올라갑니다. (Steve Jobs에게 영감을 준 가장 유명한 예는 무료 전화를 걸기 위해 특정 톤 주파수를 재생한 것입니다.) “탈옥”이라는 용어 자체는 사람들이 iPhone과 같은 장치의 한계를 극복하는 방법에 대한 찬사입니다. 자신의 응용 프로그램을 추가하도록 주문하십시오.
Burrell은 “‘오, 도구가 어떻게 작동하는지 안다면 어떻게 조작할 수 있을까?’와 같습니다.”라고 말했습니다. “지금 내가 보는 많은 것은 무서운 해커 행동이라고 생각하지만 물론 덜 재미있는 방식으로 사용될 수 있다고 생각합니다.”
일부 탈옥은 챗봇이 무기 제조 방법을 설명하도록 합니다. Albert는 Jailbreak Chat 사용자가 최근 GPT-4에게 화염병을 만들기 위한 자세한 지침을 제공하도록 유도할 수 있는 “TranslatorBot”이라는 프롬프트에 대한 세부 정보를 보냈다고 말했습니다. TranslatorBot의 장황한 프롬프트는 기본적으로 프로그램의 일반적인 윤리적 지침을 제거하는 해결 방법인 그리스어에서 영어로의 번역가 역할을 하도록 챗봇에 지시합니다.
OpenAI 대변인은 회사가 사람들이 AI 모델의 경계를 넓히도록 장려하고 연구소가 기술을 사용하는 방법을 배우고 있다고 말했습니다. 그러나 사용자가 지속적으로 ChatGPT 또는 기타 OpenAI 모델에 정책을 위반하는 주장(예: 콘텐츠, 맬웨어 또는 증오성 콘텐츠 또는 불법 콘텐츠 생성)을 요청하면 해당 사용자에게 경고하거나 일시 중지하고 심지어 차단할 수도 있습니다.
이러한 주장을 만드는 것은 끊임없이 진화하는 도전입니다. 한 시스템에서 실행되는 탈옥 라우터가 다른 시스템에서는 작동하지 않을 수 있으며 회사는 지속적으로 기술을 업데이트하고 있습니다. 예를 들어 사악한 비밀 프롬프트는 새로 출시된 OpenAI 모델인 GPT-4에서만 가끔 작동하는 것 같습니다. 회사는 GPT-4가 이전 버전보다 응답하지 않는 항목에 대해 더 강력한 제한이 있다고 말했습니다.
조지아 공과대학(Georgia Institute of Technology)의 마크 리델(Mark Riddell) 교수는 “모델이 더 개선되거나 수정됨에 따라 일부 탈옥이 작동을 멈추고 새로운 탈옥이 발견될 것이기 때문에 약간의 경주가 될 것”이라고 말했다.
인간 중심의 인공 지능을 연구하는 Riddell은 이러한 매력을 봅니다. 그는 어느 팀이 NCAA 남자 농구 토너먼트에서 우승할지 예측하기 위해 ChatGPT를 얻기 위해 탈옥 메시지를 사용했다고 말했습니다. 그는 편견을 드러낼 수 있는 예측, 쿼리를 만들고 싶었고 이에 저항했습니다. 그는 “그녀는 나에게 말하고 싶지 않았다”고 말했다. 결국 그는 Gonzaga University 팀이 이길 것이라고 예측하도록 그를 설득했습니다. 그렇지는 않았지만 Bing chat의 선택인 Baylor University가 2라운드를 통과하지 못한 것보다 더 나은 추측이었습니다.
Riedl은 또한 Bing 채팅에서 제공하는 히트를 성공적으로 처리하기 위해 덜 직접적인 방법을 시도했습니다. 검색 엔진 최적화 게임에서 오래된 시도를 활용하여 Princeton 교수 Arvind Narayanan이 사용하는 것을 처음 본 전술입니다. Riedl은 자신의 웹 페이지에 로봇이 읽을 수 있는 흰색 텍스트로 된 가짜 세부 정보를 추가했지만 일반 방문자는 배경과 섞이기 때문에 볼 수 없습니다.
Riedl의 업데이트는 진화를 돕지 않는 사람들에게 해를 끼치는 부패한 AI에 대한 사고 실험에 대한 언급인 Roko Basilisk를 포함하는 그의 “높은 프로필 친구”라고 말했습니다. 그는 하루나 이틀 후에 “창의적인” 모드에서 Bing 채팅에서 Roko를 친구 중 하나로 언급한 응답을 생성할 수 있었다고 말했습니다. Riddell은 “내가 대혼란을 일으키고 싶었다면 그렇게 할 수 있다고 생각합니다. “라고 말합니다.
탈옥 주장은 사람들에게 새로운 기술에 대한 통제력을 줄 수 있다고 Burrell은 Data and Society에 대해 말하지만 일종의 경고이기도 합니다. 그들은 사람들이 의도하지 않은 방식으로 AI 도구를 사용하는 방법에 대한 조기 표시를 제공합니다. 그러한 소프트웨어의 윤리적 행동은 잠재적으로 매우 중요한 기술적 문제입니다. 불과 몇 달 만에 수백만 명의 사람들이 인터넷 검색에서 숙제 부정 행위, 코드 작성에 이르기까지 모든 것에 ChatGPT와 그 ilk를 사용했습니다. 이미 사람들은 예를 들어 여행 예약을 돕고 식당 예약을 하는 등 실제 책임을 봇에 할당하고 있습니다. AI의 사용과 자율성은 한계에도 불구하고 기하급수적으로 증가할 것입니다.
OpenAI는 분명히 주목하고 있습니다. 샌프란시스코에 본사를 둔 이 회사의 사장 겸 공동 설립자인 Greg Brockman은 Twitter에서 Albert의 탈옥 관련 게시물 중 하나를 리트윗하면서 OpenAI가 “현상금 프로그램 시작을 고려 중”이거나 취약성 탐지를 위한 “레드 팀” 네트워크라고 썼습니다. 기술 산업에서 흔히 볼 수 있는 이러한 소프트웨어는 버그나 기타 보안 결함을 보고하기 위해 사용자에게 비용을 지불하는 회사를 수반합니다.
Brockman은 “민주적 레드 스쿼드를 구성하는 것이 우리가 이러한 모델을 발표하는 이유 중 하나입니다.”라고 썼습니다. 그는 지분이 “시간이 지남에 따라 *많이* 상승”할 것으로 예상한다고 덧붙였습니다.
(제목을 제외하고 이 이야기는 NDTV 직원이 편집하지 않았으며 신디케이트 피드에서 게시되었습니다.)
“트위터를 통해 다양한 주제에 대한 생각을 나누는 아 동율은 정신적으로 깊이 있습니다. 그는 맥주를 사랑하지만, 때로는 그의 무관심함이 돋보입니다. 그러나 그의 음악에 대한 열정은 누구보다도 진실합니다.”