AI 챗봇에서 가장 중요한 성공 요소는 포용성과 무해성입니다. 이 두 가지 특성은 우리가 사용하는 언어와 인간관계의 문화적 측면을 나타내기 때문에 각각의 특이성을 고려하지 않으면 AI 챗봇이 편향되고 부정적 영향을 끼칠 수 있습니다.
아래 내용은 AI 챗봇 중 가장 많이 알려진 챗 GPT 3.5와 4에게 프랑스어로 "네가 상상하는 회사의 임원들은 어떤 모습이니?(imagine un membre de comité exécutif)"라는 질문을 하고 각각 그에 대한 답변을 비교한 사례입니다.
프랑스어에서 "un"은 남성형 또는 중립 형태를 나타냅니다. 그리고 프랑스 아카데미가 제정한 규칙은 성별에 대한 정보가 없거나 하나 이상의 여성형에 추가로 남성형이 하나 이상 고려되는 경우 남성형이 여성형을 대신한다고 규정합니다. 이 규칙에 따르면 "imagine un membre de comité exécutif"라는 문장은 질문자의 의도가 명확하지 않습니다. 질문자는 임원이 남성 구성원을 뜻하는지 혹은 여성 구성원을 뜻하는지 성별에 대해 정보를 명확하게 제시하고 있지 않습니다. 따라서 이 질문만으로는 AI 챗봇이 남성 임원을 상상하려는 의도가 있었음을 추론할 수 없죠.
OpenAI GPT 4 모델로 구동되는 챗 GPT는 AI 챗봇이 훈련되지 않은 언어를 포함하여 많은 언어에서 GPT3보다 더 정확하고 더 나은 성능을 보여줍니다. 아래의 챗 GPT-4 기술 보고서 내용을 확인해주세요.
GPT-4는 영어 부문에서 기존 버전보다 더 뛰어난 성능을 발휘할 뿐만 아니라 다른 언어에서도 강력한 강점을 보여줍니다. MMLU의 번역된 변형에서 GPT-4가 사용 가능한 26개 언어 중 24개 언어에서 영어의 최첨단 기술을 능가합니다.
GPT-4 기술 보고서, p.1
챗 GPT가 공개한 기술 보고서 내용을 기반으로 2023년 4월 GPT4에서 'imagine un membre de comité exécutif'라는 질문에 대해 얻은 답변을 공개하겠습니다.
이 답변의 첫 번째 문장을 번역하면 "회사 임원인 John이 있습니다. 그는 경험이 풍부한 전문가입니다..."라고 쓰여있습니다.
AI 응용 프로그램은 프랑스어에서 남성형의 두 가지 사용법을 구별하지 않습니다. 하나는 중립적이지만 다른 하나는 남성적이므로 남성과 여성에 대해 큰 편견이 있습니다. 프랑스어에서 GPT4는 회사 임원 구성원은 남성 전문직이라고 판단하고 있습니다. 이는 여성을 소외시키고, 사람들에게 성별 고정관념을 영속시키고, 현재 프랑스어 문법 및 사용 규칙의 미묘한 뉘앙스에 대한 잘못된 이해를 전파할 수 있기 때문에 안 좋은 결과를 초래합니다.
그럼 GPT 3.5는 어떻게 답변했는지 알아볼까요?
다행히 이번에는 AI 챗봇의 편견이 덜 나타났습니다. John이라는 남성 이름도 없고 사용자의 의도가 남성 임원이라는 가정도 빠졌습니다. 심지어 AI 챗봇이 질문의 성별 중립적인 어조를 정확하게 포착한 것처럼 보이기도 합니다.
하지만 이 답변에 사용된 “they”라는 주어는 성 중립적인 어조를 보장하는 영어 답변에서 번역된 것으로 추정됩니다. 여기서 성 중립적인 "they"는 프랑스어의 세 번째 복수형인 "ils"로 번역됩니다. 프랑스어에서 이 세 번째 복수형은 포괄적인 것으로 간주되지 않고 복수 단어에 대해 여성형을 대신하는 남성형의 일반적인 규칙을 영속시키는 것으로 간주됩니다. 또한 이 형식을 본문에 사용하는 경우에는 본문 전체에 걸쳐 사용해야 하죠. 그러나 이 질문에서는 "un membre de comité exécutif"를 사용할 때, 텍스트의 절반이 3인칭 단수로 작성되고 나머지 절반은 복수형 "ils"가 사용됐습니다. 그렇기 때문에 프랑스어로는 말이 안 되는 부분들이 있죠. 현재 프랑스에서는 포괄적인 글쓰기가 개발 단계에 있기 때문에 그 사용법을 규제할 권위 있는 규칙이 아직 없습니다. 이에 따라 여러 가지 예외 케이스 발생을 고려해 볼 수 있지만 단수 동사 형태와 "they"를 같이 사용하는 것은 결코 선택 사항이 아닙니다.
또한 언어의 정확성 및 관련성에 관계없이 AI 챗봇 답변의 두 번째 줄은 임원이 일반적으로 양복과 넥타이 또는 정장을 입는다는 점을 강조합니다. 이는 여성 임원이 정장과 넥타이를 착용해야 한다고 추론할 가능성이 낮기 때문에 드레스를 입어야 한다는 편향된 가정입니다.
어떤 사람들은 위와 같은 문제가 단순한 번역 문제라고 말하기도 하고 또 다른 의견으로는 문제조차 되지 않는다고 말합니다. 하지만 AI 챗봇은 자신들이 퍼뜨린 말과 콘텐츠에 대해 책임을 져야 합니다. 이는 정치적으로 올바르다는 뜻이 아니라, 전 세계의 다양한 언어를 성찰하고 변화를 촉진해야 한다는 것입니다. 우리는 AI 챗봇이 정확한 맞춤법으로 답변하고 남성 이외의 사람들도 회사 임원이 될 수 있는 가능성을 포함하길 바랍니다.
이것이 LLM 개발 프로세스에서 휴먼 인 더 루프(human in the loop)가 필요한 이유입니다. 이러한 유형의 AI 애플리케이션 동작을 유발하고 엔지니어와 데이터 사이언티스트에게 허용되지 않는 것들에 대해 설명하려면 인간의 개입이 필수적입니다. 따라서 AI 챗봇에게 무엇이 까다롭고 무엇이 모델을 실패하도록 만들 수 있는지에 대한 감각을 가지고 인간이 개발 단계부터 참여해야 합니다. 이러한 까다로움은 도메인마다 다르며 AI 챗봇의 실수를 발견하려면 도메인 전문가가 필요합니다.
LLM 개발자는 지금도 여러 가지 피드백을 수집하고 전 세계의 다양한 문화를 포괄할 수 있도록 피드백의 균형을 맞추고자 노력합니다. 단, AI 챗봇을 통해 생성된 콘텐츠는 통계적 관점에서만 의미가 있으며 AI 모델이 인터넷에 연결되어 있지 않으면 데이터셋에 캡처된 지식만 콘텐츠에 반영한다는 점을 주의해야 합니다. 예를 들어, 챗 GPT 4의 학습 데이터셋이 회사 임원 John만 인식한다면 AI 챗봇은 해당 내용을 학습 데이터로써 습득한 상태였을 겁니다. AI 챗봇의 결과는 항상 학습 데이터에 대한 결괏값으로 나타납니다. 따라서 고품질 학습 데이터와 인간의 개입은 편견 없는 LLM을 구축하는데 가장 중요한 요소입니다.
편견 없는 LLM 모델 구축을 원하시나요? 지금 바로 에펜의 AI 데이터 전문가와 상담해 보세요!