머신 언러닝 개발, AI 모델의 데이터 망각 ‘Machine unlearning’
인공지능(AI)의 급속한 발전은 다양한 분야에서 혁명을 일으킬 수 있는 놀라운 도구를 우리에게 제공했습니다. 의료에서 자율 주행 자동차에 이르기까지, AI 모델은 이전에는 불가능하다고 생각했던 기능을 제공하고 있습니다. 하지만 이러한 기술적 진보에는 복잡성과 윤리적 고려 사항이 수반됩니다. AI 모델이 점점 더 강력해짐에 따라 특정 데이터를 선택적으로 “잊는” 능력의 필요성이 점점 더 분명해지고 있습니다.
도쿄 이과대학교(TUS)의 선구적인 연구진은 이 중요한 문제를 해결하는 획기적인 연구를 수행했습니다. Go Irie 부교수가 이끄는 이 연구팀은 대규모 AI 모델이 특정 데이터 클래스를 선택적으로 제거할 수 있는 혁신적인 방법을 개발했습니다. 이 혁신적인 접근 방식은 AI 모델이 작동하는 방식에 혁명을 일으키고 효율성, 개인 정보 보호 및 윤리적 고려 사항에 대한 새로운 가능성을 열어줄 잠재력을 가지고 있습니다.
3줄 요약
도쿄 이과대학 연구진, AI 모델이 특정 데이터를 선택적으로 ‘잊도록’ 하는 머신 언러닝(Machine unlearning) 기법인 블랙박스 망각을 개발.
이 기법은 모델 내부 접근 없이 프롬프트 조작을 통해 불필요한 정보 삭제, AI 효율성 및 개인 정보 보호를 강화하는 데 기여.
블랙박스 망각은 AI 모델의 효율성 향상, 유해 콘텐츠 생성 방지, ‘잊혀질 권리’와 같은 개인 정보 보호 문제 해결에 기여할 잠재력을 지님.
머신 언러닝, AI 모델이 데이터를 ‘잊도록’ 만드는 [Machine unlearning] 기법 개발
OpenAI의 ChatGPT 및 CLIP(Contrastive Language-Image Pre-training)과 같은 대규모 사전 훈련된 인공지능 AI 시스템의 등장은 머신에 대한 우리의 기대를 재정의했습니다. 이러한 강력한 모델은 놀라운 정확도로 다양한 작업을 처리할 수 있어 전문적 및 개인적 영역에서 널리 채택되었습니다. 하지만 이러한 다양성은 상당한 대가를 치릅니다.
이러한 모델을 훈련하고 운영하려면 막대한 양의 에너지와 계산 자원이 필요합니다. 이는 지속 가능성에 대한 우려를 불러일으키고 표준 컴퓨터보다 훨씬 더 비싼 최첨단 하드웨어가 필요합니다. 또한 이러한 모델의 일반적인 성격은 특정 애플리케이션에 적용할 때 비효율성으로 이어질 수 있습니다.
“예를 들어, 자율 주행 시스템에서는 자동차, 보행자, 교통 표지판과 같은 제한된 클래스의 객체를 인식하는 것으로 충분합니다. 음식, 가구 또는 동물 종을 인식할 필요가 없습니다. 인식할 필요가 없는 클래스를 유지하면 전반적인 분류 정확도가 떨어질 수 있으며, 컴퓨팅 리소스 낭비 및 정보 유출 위험과 같은 운영상의 단점이 발생할 수 있습니다.”Irie 부교수
이러한 과제를 해결하기 위한 유망한 솔루션은 중복되거나 불필요한 정보를 효과적으로 “잊도록” 모델을 훈련하는 것입니다. 이러한 선택적 망각은 프로세스를 간소화하여 모델이 필수 정보에만 집중하도록 할 수 있습니다. 기존의 일부 방법은 이러한 필요성을 해결하지만, 모델의 내부 아키텍처와 매개변수에 대한 접근 권한이 있는 “화이트 박스” 접근 방식을 사용하는 경우가 많습니다. 하지만 실제로는 사용자가 이러한 가시성을 확보하지 못하는 경우가 많습니다.
블랙박스 망각의 필요성
상업적 및 윤리적 제약으로 인해 더 일반적인 “블랙박스” AI 시스템은 내부 메커니즘을 감추고 있어 기존의 망각 기술을 실용적이지 않게 만듭니다. 이 격차를 해소하기 위해 TUS 연구팀은 모델의 접근 불가능한 내부 작동에 의존하지 않는 파생 없는 최적화라는 새로운 접근 방식을 개척했습니다.
이 혁신적인 연구는 2024년 Neural Information Processing Systems(NeurIPS) 컨퍼런스에서 발표될 예정이며 “블랙박스 망각(데이터 망각)”이라는 획기적인 방법론을 소개합니다. 이 프로세스는 반복 라운드에서 입력 프롬프트(모델에 입력된 텍스트 지침)를 지능적으로 수정하여 AI가 특정 클래스를 점진적으로 “잊게” 만듭니다.
이 획기적인 연구는 Irie 부교수와 TUS의 공동 저자인 Yusuke Kuwana 및 Yuta Goto, 그리고 NEC Corporation의 Dr. Takashi Shibata 간의 협력의 결실입니다.
실험을 위해 연구진은 이미지 분류 기능이 있는 강력한 시각 언어 모델인 CLIP에 초점을 맞췄습니다. 그들이 개발한 방법은 솔루션을 단계별로 최적화하도록 설계된 진화 알고리즘인 CMA-ES(Covariance Matrix Adaptation Evolution Strategy)를 기반으로 합니다. 이 연구에서 CMA-ES는 CLIP에 제공된 프롬프트를 평가하고 세밀하게 조정하여 궁극적으로 특정 이미지 범주를 분류하는 기능을 억제하는 데 사용되었습니다.
블랙박스 머신 언러닝의 새로운 돌파구
프로젝트가 진행되면서 연구진은 대상 카테고리의 수가 증가함에 따라 기존의 최적화 기술이 어려움을 겪는다는 중요한 과제에 직면했습니다. 이러한 제한 사항을 극복하기 위해 연구팀은 “잠재적 컨텍스트 공유”라는 기발한 매개변수화 전략을 고안했습니다.
이 혁신적인 접근 방식은 프롬프트에서 생성된 정보의 표현인 잠재적 컨텍스트를 더 작고 관리하기 쉬운 조각으로 영리하게 나눕니다. 특정 요소를 단일 토큰(단어 또는 문자)에 할당하고 다른 요소를 여러 토큰에 재사용함으로써 문제의 복잡성을 획기적으로 줄였습니다. 중요한 것은 이를 통해 광범위한 망각 애플리케이션에서도 프로세스를 계산적으로 처리할 수 있게 되었다는 것입니다.
연구진은 여러 이미지 분류 데이터 세트에 대한 광범위한 벤치마크 테스트를 통해 블랙박스 망각의 효능을 엄격하게 검증했습니다. 놀랍게도 그들의 방법은 AI 모델의 내부 아키텍처에 직접 액세스하지 않고도 CLIP이 대상 클래스의 약 40%를 효과적으로 “잊게” 만드는 목표를 달성했습니다.
이번 연구는 블랙박스 시각 언어 모델에서 선택적 망각을 유도하는 데 성공한 최초의 시도로, 이 혁신적인 기술의 엄청난 잠재력을 보여주는 유망한 결과를 제시합니다.
AI 모델이 데이터를 잊도록 돕는 이점
기술적 독창성을 넘어, 이 혁신은 작업별 정밀도가 가장 중요한 실제 애플리케이션에 상당한 잠재력을 가지고 있습니다. 특정 작업에 맞게 모델을 간소화하면 더 빠르고, 리소스 효율성이 높아지고, 덜 강력한 장치에서도 실행할 수 있게 됩니다. 이러한 효율성은 이전에는 실행 불가능하다고 여겨졌던 분야에서 AI 도입을 촉진하는 데 도움이 될 수 있습니다.
블랙박스 망각의 또 다른 주요 활용 사례는 이미지 생성 영역에 있습니다. 시각적 컨텍스트의 전체 범주를 잊음으로써 모델이 의도치 않게 바람직하지 않거나 유해한 콘텐츠(예: 공격적인 자료 또는 잘못된 정보)를 생성하는 것을 방지할 수 있습니다. 이를 통해 AI 기반 콘텐츠 생성 시스템의 안전성과 신뢰성을 높이는 데 도움이 될 수 있습니다.
아마도 가장 중요한 것은, 이 방법이 AI의 가장 큰 윤리적 난제 중 하나인 개인 정보 보호 문제를 해결한다는 것입니다. AI 모델, 특히 대규모 모델은 종종 의도치 않게 민감하거나 오래된 정보를 포함할 수 있는 방대한 데이터 세트에서 학습됩니다.
이러한 데이터를 삭제하라는 요청은 특히 “잊힐 권리”를 옹호하는 법률에 비추어 상당히 어려움을 초래합니다. 문제가 있는 데이터를 제외하기 위해 전체 모델을 재교육하는 일은 비용과 시간이 많이 들지만, 이를 방치할 때 광범위한 결과를 초래할 수 있는 위험이 있습니다.
Irie 부교수는 “대규모 모델을 재교육하는 데는 엄청난 양의 에너지가 소모됩니다.”라고 지적합니다. “‘선택적 망각’ 또는 소위 머신 언러닝이 이 문제에 대한 효율적인 해결책을 제공할 수 있습니다.”
이러한 개인 정보 보호 중심 애플리케이션은 민감한 데이터가 운영의 핵심인 의료 및 금융과 같은 고위험 산업에서 특히 관련성이 높습니다. 의료 분야에서는 환자 개인 정보를 보호하기 위해 AI 모델이 특정 환자 데이터를 잊도록 할 수 있습니다. 금융 분야에서는 모델이 기밀 금융 정보를 잊도록 하여 규제 요구 사항을 준수하고 데이터 유출 위험을 줄일 수 있습니다.
AI의 미래를 위한 발판 마련
AI를 발전시키려는 세계적인 경쟁이 가속화됨에 따라, 도쿄 이과대학교의 블랙박스 망각 접근 방식은 기술을 보다 적응적이고 효율적으로 만들 뿐만 아니라 사용자에게 중요한 안전장치를 추가함으로써 앞으로 나아갈 중요한 길을 제시합니다. 오용의 가능성은 여전히 남아 있지만, 선택적 망각과 같은 방법은 연구자들이 윤리적, 실질적 과제를 적극적으로 해결하고 있음을 보여줍니다.
이 획기적인 연구는 보다 책임감 있고 윤리적인 AI 개발을 향한 중요한 진전입니다. AI 모델이 데이터를 선택적으로 잊을 수 있게 함으로써 연구자들은 이러한 강력한 기술이 사회에 유익하고 개인의 권리를 존중하는 방식으로 사용되도록 보장하는 길을 열고 있습니다. 머신 러닝 분야가 계속 발전함에 따라 블랙박스 망각과 같은 혁신은 AI의 미래를 만들어가는 데 점점 더 중요한 역할을 할 것입니다.
결론: AI의 책임감 있는 진화, ‘잊는’ 능력의 중요성
도쿄 이과대학 연구진이 개발한 머신 언러닝 기술은 인공지능(AI) 분야에 중요한 진전을 의미합니다. AI 모델이 특정 데이터를 선택적으로 ‘잊을’ 수 있게 됨으로써, 모델의 효율성은 향상되고 개인 정보 보호는 강화될 수 있습니다. 특히, 모델 내부 구조에 대한 접근 없이 작동하는 ‘블랙박스 망각’ 기술은 상용 AI 시스템에 광범위하게 적용될 잠재력을 보여줍니다.
이는 AI 모델을 경량화하고 연산 비용을 절감하며, 불필요하거나 유해한 정보로부터 모델을 보호하는 데 기여할 수 있습니다. 더 나아가, ‘잊혀질 권리’와 같은 윤리적 요구사항을 충족시키는 데 중요한 역할을 할 수 있으며, 궁극적으로 AI가 더욱 책임감 있고 신뢰할 수 있는 방향으로 발전하는 데 기여할 것입니다. 이 연구는 AI 기술이 사회에 긍정적인 영향을 미치도록 고민하는 연구자들의 노력을 보여주는 중요한 사례입니다.
Login
Register