CMC, 베트남어 법률 대형 언어 모델 개발

CMC OpenAI(C-OpenAI) 회사는 베트남어 법률 대형 언어 모델인 CMC-AI-Legal-32B를 발표하고, 이와 함께 해당 모델의 평가 기준인 VLegal-Bench를 소개했다. 이는 베트남 사용자를 위한 법률 가상 비서 개발의 두 가지 핵심 요소이다. CMC-AI-Legal-32B는 베트남 법률에 대해 심층적으로 구축되고 조정되었다. VLegal-Bench에서 평가했을 때, 이 모델은 전반적인 성능에서 선두를 차지하며 22개 작업 중 6개에서 1위를 기록했다. 특히, 다층적인 법률 추론 및 논증 문제에서 두각을 나타냈다.

연구팀은 CMC-AI-Legal-32B가 베트남 법률의 맥락과 인용 기준에 따라 훈련되었기 때문에, GPT-4o, Claude, Gemini와 같은 외국 대형 언어 모델보다 이 특별한 내용을 처리하고 추론하는 데 있어 이점이 있다고 밝혔다. 개발팀은 VLegal-Bench 평가 기준을 구축했다. 이를 위해 연구팀은 법률 전용 평가 기준을 만들었다. 이는 언어와 법률 시스템 차이로 인해 국제 기준이 수행하기 어려운 작업이다. VLegal-Bench는 10,450개의 정답이 포함된 데이터 샘플로 구성되어 있으며, 22개 작업으로 나뉘어 있으며, 5단계의 점진적인 추론 수준으로 설계되었다. 이 기준은 베트남의 특수성에 맞게 설계되었다. 각 데이터 샘플은 중앙 정부의 법률 문서와 연결되어 검증 가능성을 보장한다.

CMC OpenAI의 기술 이사인 응우옌 띤 동(Nguyễn Tiến Đồng)은 평가 기준 구축이 “어려운 과제”라고 언급하며, 기술적 및 법률적 측면 모두에서 요구된다고 말했다. 그의 말에 따르면, 가장 큰 도전은 법적 정확성, 재검증 가능성, 그리고 세계 대형 언어 모델의 평가 기준과의 호환성을 보장하는 것이다. C-OpenAI의 총괄 이사인 댁 반 투(Đặng Văn Tú)는 “우리는 베트남어 대형 언어 모델 및 각 분야에 특화된 AI 개발을 추구하고 있다”고 말했다. 동시에, 회사는 소스 코드, 데이터, 평가 절차를 공개하고 국내외 전문가의 참여를 통해 도구를 더욱 개선할 것을 요청할 예정이다.

AI는 현재 총리의 서명으로 6월에 발표된 전략 기술 목록에 포함된 11개 기술 그룹 중 하나로, 베트남어 대형 언어 모델, 가상 비서 및 전문 AI 제품군 등이 포함되어 있다. 지난 8월 말에 열린 디지털 시대 AI 포럼에서 과학기술부 장관인 응우옌 맨 훙(Nguyễn Mạnh Hùng)은 AI가 전기, 통신, 인터넷과 유사한 국가 인프라로 점차 자리잡고 있다고 평가했다. 그는 전문 AI 애플리케이션 개발이 국가적 문제를 해결할 뿐만 아니라 베트남 기업들이 기술 능력을 완성하고 향상시키는 데 기여할 것이라고 말했다.

다른 베트남 기업들도 베트남어 대형 언어 모델 개발을 추구하고 있지만, 보다 일반적인 방향으로 진행되고 있다. Zalo AI의 베트남어 대형 언어 모델은 현재 130억 개의 매개변수를 가지고 있으며, 여러 실제 응용 프로그램에 적용되고 있다. 9월에는 VNPT가 정부에 베트남어 대형 언어 모델 개발을 맡겨, 베트남인이 구축한 AI 애플리케이션의 기반으로 삼도록 제안했다. 한편, ViGen은 베트남어 오픈 소스 데이터 세트를 구축하여 베트남의 AI 응용 프로그램을 촉진하고 있다. 이 프로젝트는 국가 혁신 센터(NIC)가 AI for Vietnam 및 Meta와 함께 추진하고 있다.

로그인이 필요합니다