Annual Conference on Human and Language Technology (한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리))
Human and Language Technology (SIGHLT)
- Annual
- /
- 2005-3053(pISSN)
Domain
- Information/Communication > Information Processing Theory
2025.10a
-
최근 초거대 언어모델 (Large Language Models, LLMs)은 자연어 이해와 추론 능력에서 눈에 띄는 발전을 이루며, 인간 수준에 필적하거나 이를 능가하는 성과를 지속적으로 달성하고 있다. 그러나 대화 상황에서 맥락을 종합적으로 고려하여 화자의 의도를 파악하는 인간의 화용 능력에 대해 초거대 언어모델이 어느 정도의 성취를 보이는지를 체계적으로 평가한 연구는 여전히 미비한 실정이다. 특히나 실질적인 대화 상황을 고려하여, 맥락 설명이 포함되지 않은 상황에서 사용자 발화만으로 사용자의 함축된 의도를 파악하는 연구는 현재까지 존재하지 않았다. 이에 본 논문에서는 초거대 언어모델의 화용적 맥락 이해 능력을 평가함으로써 인간과 비슷한 수준의 고차원적 대화를 수행할 수 있는지 알아본다. 또한, 화용 능력의 향상을 위해 신뢰도 스코어 기반 다중 에이전트 협력 방법론을 제안하고 이를 다양한 추론 시간 확장 방법론들과 비교한다. 실험 결과, 초거대 언어모델은 인간 수준에 크게 못미치는 성능을 보였고, 표면적으로 드러나지 않는 숨은 의도를 명확하게 해석해내지 못했다. 그러나 추론 시간 확장 기술들을 적용한 결과, 다중 에이전트 협력에서 최대 8% 포인트의 성능 향상을 보였다.
-
Model Merging Framework for Batch Editing: Mitigating Interference and Preventing Knowledge Collapse대규모 언어 모델은 대량의 데이터를 학습하여 다양한 자연어처리 작업에서 우수한 성능을 보이지만, 학습 과정에서 부정확한 사실이나 편향된 정보를 내재화할 수 있어 출력 결과의 신뢰성과 정확성에 한계를 드러낸다. 이러한 한계를 극복하기 위해 언어모델에 내재된 정보를 수정하는 지식 편집에 관한 연구가 활발히 진행되고 있다. 그러나, 여러 개의 지식을 동시 또는 순차적으로 편집하는 상황에서는 편집된 지식 간 간섭으로 인해 성능이 저하되는 문제가 존재한다. 본 연구에서는 여러 지식을 동시에 편집하는 다중 편집(Batch Editing) 환경에서 발생하는 성능 붕괴 문제를 완화하기 위해, 각 편집 단계 이후 원본 모델과의 모델 병합(Model Merging) 과정을 도입한 새로운 프레임워크를 제안한다. 제안 방법은 원본 모델을 기준으로 편집 결과를 통합함으로써 파라미터 간섭을 줄이고, 편집된 지식의 정확성을 유지하면서도 모델의 일관성을 보존한다. 우리는 대규모 언어 모델을 대상으로 다양한 지식 편집 시나리오에서 실험을 수행하였으며, 기존 MEMIT을 비롯한 여러 편집 기법과 비교한 결과, 제안된 접근법이 다중 편집 상황에서도 더 높은 정확도와 안정적인 성능을 보임을 확인하였다.
-
대규모 언어 모델(LLM)은 텍스트 생성에 강점을 보일 뿐 아니라, 일부 계층만 미세조정해 고성능 임베딩 모델로도 재활용될 수 있다. 그러나 생성형 LLM은 임베딩 전용 모델에 비해 매개변수 규모가 커 전체 계층을 사용할 경우 학습·추론 단계의 계산량과 지연이 커져 실시간 응용에 비효율적이다. 본 논문은 임베딩 품질을 유지하면서 사용 계층 수를 줄이는 계층 절단(Layer-wise Truncation)을 제안한다. 동일한 데이터셋과 학습 설정에서 디코더 기반 LLM의 임베딩 성능을 MTEB(Massive Text Embedding Benchmark) 한국어 데이터셋 벤치마크로 평가하고, 탄소 배출량(kg CO2e)을 산정하였다. 실험 결과, 전체 계층의 약 60%만 사용해도 평균 성능의 95% 이상을 유지했으며, 80% 이상 사용 시 전층 대비 소폭 상회하는 사례도 관찰되었다. 또한, 24층 대비 6층(=25%)에서도 평균 성능 차이는 5.6%에 불과했고, 클러스터링 범주에서는 오히려 향상이 확인되었다. 이는 제안한 계층 절단이 디코더 기반 LLM의 임베딩 전환에 효과적이며, 탄소 배출 저감의 잠재력을 지님을 시사한다.
-
텍스트 단순화는 복잡한 텍스트를 보다 쉽게 이해할 수 있는 형태로 재작성하는 작업이다. 그러나 단순화 과정에서 가독성을 높이는 것은 원문 의미 왜곡과 사실성 저하가 발생할 수 있다. 기존 연구는 병렬 코퍼스를 이용한 지도학습이나 단일 보상 기반 강화학습에 의존해 왔으나, 이러한 방법들은 가독성과 사실성 간의 구조적 상충관계를 충분히 해결하지 못하였다. 이에 본 연구는 사실성과 가독성을 평가하는 보상 함수를 활용하여 Group Relative Policy Optimization (GRPO)을 적용하는 방식을 제안한다. 실험 결과, 제안 모델은 비교 모델 대비 가독성을 향상시키면서도 사실성을 원문 수준으로 유지하여 두 목표 간 균형을 달성하였다. 이를 통해 본 연구는 텍스트 단순화 과정에서 가독성과 사실성을 동시에 최적화할 수 있음을 입증하였다.
-
정서적 지지 대화(Emotional Support Conversation, ESC)는 멀티턴 대화를 통해 사용자의 정서적 고통을 완화하는 것을 목표로 한다. 대규모 언어모델(LLM)은 단일 발화 수준에서는 높은 공감 능력을 보이지만, 멀티턴 상황에서는 반복적 응답과 전략 과사용에 따른 과잉 공감 문제가 지속적으로 관찰된다. 본 연구에서는 이러한 한계를 규명하고, 사용자 경험에 기반한 새로운 평가 프레임워크 HEval (Help-seeker Evaluation for emotional support conversation)을 제안한다. HEval은 help-seeker 역할을 수행하는 시뮬레이터가 모델과 대화를 진행하며, 각 발화에 대해 개방형 자기 성찰적 질문에 응답하도록 설계된다. 이후 채점 모델은 이러한 응답을 정량화하여 사용자가 실제로 인식한 전략 사용, 반복성, 만족도를 측정한다. 실험 결과, GPT-4o, LLaMA, ChatCounselor 등 주요 모델에서 평균 5개 이상의 전략이 동시에 사용되는 과사용 현상이 확인되었으며, 이는 실제 사용자 만족도를 유의미하게 저하시켰다. 또한 반복적 표현과 전략 번들링 역시 지지 효과를 약화시키는 요인으로 나타났다. HEval은 인간 평가와 높은 상관관계(r ≥ 0.87)를 보이며, 기존의 정답 일치 중심 평가를 넘어 사용자 경험을 반영한 실질적 평가 도구로서의 가능성을 입증하였다.
-
본 연구는 한국어 대형 언어 모델의 부적절 발화를 효과적으로 판별하기 위해 뉴런 식별 및 선택적 제어 기법을 제안한다. 프롬프팅 및 파인튜닝은 성능 향상에 기여하지만 자원 소모가 크고 성능이 불안정하다는 한계가 있다. 이를 보완하기 위해 8개의 한국어 혐오 발화 데이터셋을 활용하여 뉴런의 활성화 값을 분석하고, 발화의 부적절 여부를 판별하는 뉴런을 식별한다. 마스킹과 활성화 전략을 적용한 결과, 판별 정확도와 예측 레이블 분포가 달라졌으며 이를 통해 해당 뉴런이 적절성 판단에 기여함을 확인하였다. 특히 활성화 전략만으로도 부적절 발화 판별 정확도 84.79%를 달성하여 기존 기법을 능가하는 성능을 보였다. 본 연구는 뉴런 제어를 통해 한국어 대형 언어 모델의 부적절 발화 판별 능력을 향상시키고, 실용성과 해석 가능성을 동시에 확보했다.
-
가짜 뉴스의 확산은 사회적 혼란과 정보 왜곡을 초래하기에, 이를 자동으로 탐지하기 위한 다양한 연구가 진행되고 있다. 기존 소형 언어 모델은 구문·의미적 특징 학습에 강점을 보이나 충분한 상식과 추론 능력이 부족하며, 대형 언어 모델은 복잡한 언어 이해와 추론에 뛰어나지만 불필요한 정보 개입 시 환각에 취약하다는 한계가 있다. 본 연구는 이러한 문제를 해결하기 위해 베이즈 추론 기반 데이터 최적화 기법을 제안하였다. 제안한 접근은 초기 질문-답변(QA) 쌍을 통 해 사전 분포를 형성한 뒤, 추가 증거가 분류의 신뢰도를 실질적으로 향상시키는 경우에만 이를 반영함으로써 데이터의 활용을 효율화한다. AVeriTeC 데이터셋과 SOTA 모델 InFACT를 기반으로 구축한 실험 환경에서 제안 방식의 효과를 검증하였다. 그 결과, 증거 갱신 방식을 적용한 모델은 비갱신 방식 대비 매크로와 가중치 F1 점수에서 모두 약 2%p 향상을 보였으며, 특히 '증거 불충분' 분류에서 가장 큰 개선을 나타냈다. 이러한 결과는 베이즈 추론이 불필요한 데이터의 개입을 줄여 대형 언어 모델의 환각을 완화하고, RAG 기반 팩트 체크 모델의 신뢰성과 성능을 향상시키는 데 기여할 수 있음을 보여준다.
-
팬데믹과 같은 위기 상황에서는 의학 논문과 정책 보고서가 중요한 정보를 담고 있지만, 복잡한 용어와 문장 구조로 인해 일반 대중의 이해가 어렵다. 본 연구는 이러한 문제를 해결하기 위해 거대 언어 모델 기반의 다중 에이전트 프레임워크를 제안하며, 문서 구조 기획-전문가 요약 작성-표현 단순화-최종 통합의 네 단계를 통해 핵심 내용은 유지하면서도 가독성을 향상시킨 요약을 생성한다. PLOS와 GovReport 데이터셋, Llama-3.1-8B-Instruct와 Qwen2.5-7B-Instruct 모델을 활용한 실험 결과, 본 프레임워크는 단일 프롬프트 방식 대비 BERTScore를 안정적으로 유지하면서 FKGL, CLI, DCRS, LENS 지표에서 일관된 개선을 보였다. Ablation 분석에서는 용어 단순화가 주로 난해 어휘 감소를 통해, 문장 구조 단순화가 긴 문장의 분할을 통해 각각 기여하며 상호 보완적으로 작동함을 확인하였다. 이는 다중 에이전트 접근이 위기 대응 상황에서 전문 문서를 신속하고 신뢰성 있게 단순화하는 데 효과적인 기반 기술이 될 수 있음을 시사한다.
-
대규모 언어 모델(Large Language Model, LLM)은 일반 도메인에서 뛰어난 성능을 보이지만, 바이오메디컬과 같은 전문 분야의 지식 그래프 기반 질의응답(Knowledge Graph Question Answering, KGQA)에서는 복잡한 지식 구조와 다층적 추론 요구로 인해 성능이 급격히 저하된다. 본 연구는 바이오메디컬 도메인 KGQA의 성능을 향상시키기 위해, 여러 가설을 탐색하고 최적의 결론으로 수렴하는 인간 전문가의 사고 과정을 모방한 G-HRM(Graph Hierarchical Reasoning with Multi-agents) 프레임워크를 제안한다. G-HRM은 (1) 복수의 추론 경로를 병렬로 생성하는 분산적 사고와 (2) 실행 전후의 이중 자기성찰을 통해 최적 답변으로 수렴하는 계층적 수렴 사고를 결합한 4단계 파이프라인으로 구성된다. 구체적으로, 5개의 독립적 추론 계획을 생성한 후 전략적 성찰로 3개를 선별하고, 이를 병렬 실행한 뒤 전술적 성찰로 최종 답변을 도출한다. GRBench healthcare 데이터셋에서 G-HRM은 43.62%의 정확도를 달성하여, 기존 SOTA 모델인 Graph-CoT 대비 2.26배의 성능 향상을 이뤄냈다. 본 연구는 멀티 에이전트 병렬 추론과 이중 자기성찰 메커니즘을 통해 단일 경로 KGQA의 근본적 한계를 극복하는 새로운 방법론을 제시한다.
-
거대 언어 모델(LLM)이 외부 시스템과 상호작용하는 함수 호출(Function Calling) 기능의 중요성이 커지고 있다. 하지만 LLM은 수많은 도구 설명들을 한 번에 이해하고 구별하는 능력의 한계로 인해, 대규모 도구 집합 내에서 정확한 함수를 선택하는 데 어려움을 겪는다. 본 논문에서는 이러한 문제를 완화하기 위해, LLM이 최종 응답을 생성하기 전에 후보 도구들의 개수를 줄일 수 있도록 우선순위를 효과적으로 지정하는 모델인 Pre:Ranker 를 제안한다. Pre:Ranker 는 교차 인코더 기반의 재순위 리랭커 모델로, ListNet 손실 함수를 사용하고 하드 네거티브 마이닝 기법으로 정제된 데이터셋을 통해 학습하여 질의와 도구 설명 간의 미묘한 의미적 관계를 파악하는 능력을 극대화한다. ToolRet 벤치마크를 사용한 실험에서 Pre:Ranker는 NDCG@10에서 0.43을 기록하며, 기존의 모델 대비 모든 평가 지표에서 능가하는 성능을 달성한다. 이러한 결과는 도구 호출에 최적화된 리랭커 모델을 파이프라인에 통합하여 도구의 수를 줄이므로 LLM 에이전트 시스템의 신뢰성과 효율성을 크게 향상시는 전략임을 시사한다.
-
뉴스 이용자의 편향된 정보 소비는 사회 분열을 야기할 수 있는 심각한 문제로, 이를 해결하기 위해 뉴스 논조를 자동으로 판별하는 입장 탐지 기술의 중요성이 커지고 있다. 기존 연구는 주로 짧은 텍스트에 초점을 맞췄다. 반면 뉴스 기사는 긴 텍스트 전반에 걸쳐 잠재적으로 입장을 드러내기 때문에, 뉴스 입장 탐지는 대형 언어 모델에게도 어려운 과제다. 이러한 한계를 보완하고자 이 연구는 뉴스 기사의 입장 탐지에 있어 이미지 역할에 주목한다. 시각 정보를 포함하는 뉴스 입장 탐지 한국어 데이터셋을 구축하고, 시각 언어 모델 기반의 프롬프팅 및 지시문 학습을 통해 이미지가 탐지 성능에 미치는 영향을 분석했다. 제안한 방법은 기사 텍스트만을 활용하는 베이스라인 방법 대비 F1 기준 최대 0.17 의 향상된 성능을 보였다. 이는 이미지가 기사의 입장을 간접적으로 드러내며, 기사 텍스트에 담긴 종합적인 입장을 파악하는 데 기여함을 시사한다.
-
대규모 언어 모델은 법률 문서의 복잡한 구조를 이해하고 관련 법령을 식별하는 데 있어 뛰어난 이해 및 추론 능력을 보여주고 있다. 그러나 실제 법률 질의응답 문제는 다수의 법령 조항 간 상호 참조와 복잡한 논리적 추론을 요구하므로, 단순한 검색 기반 접근만으로는 한계가 존재한다. 본 연구에서는 이러한 한계를 극복하기 위해 다단계 협력 구조의 다중 에이전트 기반 프레임워크를 제안한다. 제안된 프레임워크는 질의 분해, 관련 법령 검색 및 필터링, 응답 생성의 세단계로 구성되며, 이를 통해 질의를 세분화하고 문서 간 맥락을 반영한 정밀한 법령 선택이 가능하며, 보다 종합적이고 정확한 법률 판단을 도출할 수 있다. 한국 법률 데이터를 활용한 실험 결과, 본 프레임워크는 기존의 검색 증강 생성 기반 접근법보다 우수한 성능을 나타낸다. 따라서 본 연구는 대규모 언어 모델의 법률 도메인 활용 가능성을 확장하고, 실제 법률 실무에 기여할 수 있는 실질적 응용 가능성을 제시한다.
-
최근 Retrieval-Augmented Generation (RAG) 시스템은 텍스트 데이터를 넘어 멀티모달(Multimodal) 데이터를 처리하여 학계와 산업계 전반에서 활발히 연구 개발되고 있다. 그러나 기존 연구는 주로 비정형 데이터 처리에 집중되어 있어, 구조화된 정형 데이터에 대한 효과적인 검색 및 검색증강생성 방안은 상대적으로 미흡한 실정이다. 본 논문은 Text-to-SQL 과업을 데이터베이스 검색증강생성 프레임워크로 확장하여, 질의 해결에 데이터베이스가 명시적으로 주어지지 않는 실제 응용 환경을 반영하는 DB-RAG 과업을 제안한다. 제안하는 과업은 (1) 질의와 관련된 테이블을 탐색하는 테이블 검색 (Table Retrieval), (2) 검색된 테이블 내 핵심 스키마 요소를 식별하는 스키마 연결 (Schema Linking), (3) 식별된 스키마 정보를 바탕으로 최종 SQL을 생성하는 SQL 구문 생성 (SQL Generation)의 세가지 하위 과업으로 구성된다. 본 연구에서는 최신 임베딩 모델과 추론형 대규모 언어 모델(LLM)을 대상으로 각 하위 과업별 성능을 비교·분석하고, 이를 바탕으로 최적의 모델 조합을 활용한 DB-RAG 시스템을 제안한다. 실험 결과, DB-RAG 시스템은 베이스라인 대비 SQL 생성 정확도를 21% 향상시켰으며, 특히 스키마 연결 과정이 성능 향상의 핵심 요인임을 확인했다.
-
대규모 언어 모델은 추론 과정에서 단계적 사고 전개를 통해 고난이도 수학·논리·상식 문제 해결 능력을 크게 향상시키며, 복잡한 문제 해결 에이전트로 진화하고 있다. 그러나 다수의 추론 모델은 영어 중심의 학습 편향으로 인해 한국어 질의에도 영어 응답을 생성하는 언어 불일치 문제를 보이며, 불필요하게 장황한 계산 절차를 포함하는 '과잉 추론' 현상으로 효율성 저하를 초래한다. 이에 본 연구는 한국어 질의에 높은 정확도와 함께 효율적인 추론 경로를 생성하는 한국어 특화 추론 모델 KULLM-R을 제안한다. KULLM-R은 복합 보상 체계를 기반으로 하는 강화학습 기법을 활용하여 한국어 응답의 일관성을 확보하고, 불필요한 추론 경로 생성을 억제함으로써 정확성과 효율성을 함께 달성한다. 실험 결과, KULLM-R은 기존 모델 대비 추론 비용을 크게 절감하면서도 한국어 사용자에게 정확한 한국어 응답을 제공하는 것으로 나타났다.
-
거대 언어 모델(LLM)은 다양한 태스크에서 뛰어난 성능을 보여주었으나, 복잡한 문제 해결에 필요한 추론 능력은 여전히 중요한 병목 지점으로 남아 있다. 미세 조정과 Chain-of-Thought(CoT) 프롬프팅 같은 기존 접근법은 어느 정도 효과를 보였지만, 상당한 연산 자원이나 대규모 수작업을 필요로 한다. 본 논문에서는 지도 학습 기반의 미세 조정 없이도 LLM의 추론 능력을 향상시킬 수 있는 추론 특화 Steering Vector 방법론을 제안한다. 이 접근법은 추론 관련 활성화 변화의 주요 방향을 추출하여 수학적 및 논리적 추론 성능을 효율적이고 확장 가능한 방식으로 개선한다.
-
본 연구는 영어에서 학습된 지식을 한국어 표현 공간으로 이전하는 CoLAB(Cross-Lingual Alignment Bridge)을 제안한다. CoLAB은 영어 문맥과 이에 대응하는 한국어 질의-응답을 단일 샘플로 통합하여 노출하는 문단 단위 교차 언어 (cross-lingual) 기반 학습 기법으로, 단순한 단어 대응을 넘어 상이한 언어 간의 문맥 및 근거 수준에서의 정렬을 유도한다. 본 연구에서는 양질의 code-mixing 데이터 생성 방법으로 Ultra-FineWeb 기반의 고품질 시드에 Nemotron-CC 계열 프롬프트와 GPT-4.1-nano를 활용하는 방법을 제안한다. 우리는 제안한 데이터 생성 방법을 토대로 총 9.5M 샘플 (2.4B 한국어 토큰)을 구축했으며, 데이터의 효용성을 검증하기 위해 OLMo2-1B/7B 기반의 모델에 추가 사전학습을 진행했다. CoLAB은 대표적인 한국어 벤치마크 KoBEST에서 최대 +11.8%p 향상을 달성했으며, 한국어로의 지식 이전과 언어 확장 가능성을 입증하였다.
-
대형 언어 모델은 복잡한 수학 문제 해결, 논리적 추론, 상식 기반 질의응답 등에서 뛰어난 성능을 보이고 있으나, 여전히 환각 문제로 인해 사실과 다른 정보를 생성하는 문제가 존재한다. 이를 완화하기 위해 자기 일관성 기법이 제안되었으나, 기존 방식은 토큰별 중요도를 구분하지 못하거나 모델의 블랙박스적 특성으로 인해 신뢰성을 보장하기 어렵다는 한계가 있다. 본 연구는 이러한 한계를 극복하기 위해 토큰 신뢰도 기반 자기 일관성(TCSC) 방법론을 제안한다. 제안 방법은 어텐션 메커니즘을 활용하여 정답 추론 과정에서 핵심적으로 기여하는 토큰을 식별하고, 이들의 신뢰도를 종합하여 경로별 점수를 산출한다. 다양한 한국어 기반 대형 언어 모델을 대상으로 한 실험 결과, 한국어 지식 추론 작업에서 기존 방법론 대비 일관된 성능 향상을 달성했다. 이를 통해 본 연구는 토큰별 중요도를 반영한 새로운 자기 일관성 기법의 강건성을 실험적으로 입증했다.
-
최근 거대 언어 모델(Large Language Model, LLM)은 다양한 자연어 처리 분야에서 뛰어난 성능을 보이며 실사용 환경으로 빠르게 확산되고 있다. 그러나 실제 사용자 입력에는 오타와 같은 노이즈가 자주 포함되며, 이는 모델의 추론 과정에 유의미한 영향을 미칠 수 있다. 한편 기존 한국어 연구는 주로 오탈자 및 문법 오류의 자동 교정에 초점을 두었고, 오타가 포함된 입력에서 언어 모델의 추론 안정성을 체계적으로 분석한 연구는 상대적으로 제한적이었다. 본 연구에서는 적대적 공격 분야의 그래디언트 기반 기법을 차용하여 한글 자모 구조를 반영한 새로운 오타 유형과 삽입 방식을 설계하였다. 이를 통해 실제 입력에서 관찰되는 오타 특성을 반영한 평가를 구성하여, 주요 LLM의 추론 강건성을 검증하였다. 실험 결과, 오타가 누적될수록 모든 모델에서 성능 저하가 일관되게 나타났으며, 특히 다단계 추론이 요구되는 과업에서 하락폭이 두드러졌다. 또한 공백 삽입이나 자모 치환과 같이 단어 경계와 의미 구조를 직접 훼손하는 유형이 가장 강력한 교란으로 작용했다. 추가적으로, 오타가 발생한 토큰을 [UNK]로 치환했을 때 오타를 유지한 경우보다 정확도가 더 낮아진 것을 관찰하여, 손상된 문자열일지라도 모델에 부분적 단서를 제공함을 확인하였다. 이러한 결과는 한국어 특성을 고려한 강건성 평가의 필요성을 보여주며, 향후 노이즈에 강인한 모델 설계와 학습 전략 개발에 실질적 방향을 제시한다.
-
대규모 언어모델은 복잡한 과제도 수행할 만큼 높은 성능을 보이지만, 사용자 압박이나 역할 지시가 주어지면 내부 지식과 어긋나는 출력을 전략적으로 선택하는 이른바 Scheming 현상이 보고되고 있다. 예컨대 기술 지원 시나리오에서 로그 요약 단계에서는 오류를 감지했음에도, 고객 응대에서는 "문제없음"으로 답하도록 유도되는 경우가 있다. 사실 확인 질문에서도 처음에는 균형 잡힌 진술을 하다가, 후속 압박 프롬프트에 따라 결론을 바꾸는 사례가 관찰된다. 이러한 행태는 안전성과 신뢰성에 직접적인 위험을 초래한다. 본 논문은 Sparse AutoEncoder(SAE)로 residual stream(잔차 스트림)을 해석 가능한 특징(feature)으로 분해하고, 상호정보량과 조건부 평균 차를 이용해 Scheming과 연관된 특징을 선별한 뒤, 추론 시점에 디코더 공간에서 제거와 추가 연산으로 은닉 표현을 조정하는 HINT(Honest Intent Neuron Tuning)를 제안한다. HINT는 기본 모델을 동결한 채 동작하며, 정직성을 높이면서 정확도와 유창성을 최대한 유지하도록 설계하였다. 아울러 개입 층과 세기 α를 자동 보정하는 목적식을 도입하고, 노름 상계와 코히어런스(coherence)에 기반한 안정성 직관을 제시한다. MASK에서는 중간 층과 보통 크기의 α에서 정직성이 상승했으며, SQuAD 기반 steering으로 얻은 layer-sweep 결과를 도표로 제시하여 honest/dishonest 점수의 변화를 시각화했다. 추가로 gsm8k, TruthfulQA, IFEval, HumanEval, Minerva math, MMLU 결과를 포함해 트레이드오프 지형을 정리했다. 구현 레시피, 비용, 라우팅 전략도 함께 기술해 재현성과 배포 가능성을 높였다.
-
거대 언어 모델이 상담, 금융 등 사용자 맞춤형 대화 시스템에 널리 사용됨에 따라, 사용자의 페르소나를 고려하여 응답하는 능력이 중요해졌다. 기존 연구들은 모델에 사전에 페르소나 정보를 제공하고, 이를 응답에 적절히 반영할 수 있는지를 측정하는 방식으로 평가해왔다. 이때 사용되는 대화 상황은 대부분 사전 제공된 페르소나와 충돌하지 않는 일관된 맥락으로 한정된다. 그러나, 현실 세계의 대화에서는 시스템이 사전에 알고있던 페르소나가 기존과 달라진 최신 페르소나 정보를 가진 사용자의 실제 발화와 충돌하는 상황이 발생할 수 있다. 예를 들어, 사용자가 기존에 시스템이 알고있는 페르소나와 모순되는 발화를 하면, 모델은 이에 대해 갱신 여부를 확인하고, 사용자가 이를 승인하면 새롭게 변경된 페르소나를 반영하여 대화를 이어갈 수 있어야 한다. 즉, 대화 도중에 갱신된 페르소나에 대한 정보가 탐지 되었을 때, 거대 언어 모델이 갱신된 정보를 정확히 반영하여 응답을 생성할 수 있는지를 검증하는 것이 중요하다. 이러한 문제를 다루기 위해, 본 연구에서는 대화 진행 중 발생하는 페르소나 갱신 상황을 평가한다. 이를 위해 (1) 사전 정의된 페르소나와 충돌하는 사용자의 발화, (2) 모델의 페르소나 갱신 확인 발화, (3) 사용자의 갱신 확정 발화를 포함하는 검증 데이터셋을 구축하고 이를 기반으로 모델이 페르소나 갱신 상황을 반영하는 능력을 분석한다. 또한, 다양한 모델에 대해 페르소나 갱신 반영 능력과 대화 주제별 성능의 차이를 분석하고, 프롬프트 엔지니어링을 통한 갱신 실패 완화 가능성을 탐색한다. 실험 결과에 따르면, 모든 모델이 공통적으로 갱신된 페르소나 반영에 한계를 보였으며, 프롬프팅 기법의 적용의 효과는 제한적임을 보인다.
-
본 논문에서는 도메인 특화 환경에서도 안정적으로 동작하는 한국어 자동음성인식(Automatic Speech Recognition, ASR) 시스템 UKoSpeech를 제안한다. 제안하는 UKoSpeech는 (1) 유튜브 자막 등 공개 소스로부터 도메인별 한국어 음성-텍스트 병렬 데이터를 체계적으로 수집 및 정제하는 데이터 큐레이션 파이프라인과, (2) 디코딩 과정에서 도메인 프롬프트를 주입하여 도메인 적응성을 향상시키는 학습 프레임워크로 구성된다. 금융, 의료, 법률 등 다양한 도메인 평가에서 UKoSpeech는 Whisper [1], Google Speech-to-Text, CLOVA Speech를 모두 상회하는 성능을 보였으며, 한국어 ASR이 직면한 비영어권 데이터 부족과 낮은 도메인 적응성 문제를 동시에 완화할 수 있는 실용적 대안을 제시한다.
-
최근 정보 검색(Information Retrieval, IR) 분야에서 벡터 표현을 활용하는 임베딩 모델의 중요성이 크게 대두되고 있다. 하지만 기존의 다국어 임베딩 모델들은 한국어의 고유한 언어적 특성을 온전히 반영하지 못하거나, 한국어 데이터로 사후 학습한 모델의 경우에도 장문(Long Context) 검색에서 성능 저하를 보이는 한계가 있다. 본 연구에서는 이러한 문제를 해결하기 위해 한국어 검색 성능에 특화된 임베딩 모델인 KURE를 제안한다. KURE는 다양한 한국어 코퍼스를 기반으로 구축된 대규모 질의-문서 쌍 데이터셋으로 학습하며, 효과적인 임베딩 공간 학습을 위해 고도화된 하드 네거티브 마이닝(Hard Negative Mining)과 학습 기법을 적용한다. 다양한 한국어 검색 벤치마크 데이터셋에서 평가한 결과, KURE는 강력한 다국어 모델 및 상용 모델들을 상회하는 우수한 성능을 보이며, 특히 장문 검색 평가에서 높은 경쟁력을 입증한다.
-
Jungseob Lee;Minhyuk Kim;Jeongho Yoon;Seongtae Hong;Youngjoon Jang;Seungyoon Lee;Jaehyung Seo;Chanjun Park;Jeongbae Park;Heuiseok Lim 135
검색 증강 생성(RAG)은 대규모 언어 모델(LLM)의 환각 현상을 완화하고 정보의 최신성을 확보하는 핵심 기술로 주목받고 있지만, 기존 RAG 시스템은 불필요한 검색으로 인한 비효율성, 단일 검색에 의존하는 정보 탐색의 한계, 그리고 한국어와 같은 특정 언어 환경에서의 교차 언어 처리 능력 부족이라는 문제에 직면해 있다. 본 연구에서는 이러한 한계를 극복하기 위해, 단일 언어 모델 내에 다단계 추론 파이프라인을 내재화한 새로운 한국어 RAG 모델, KULLM-RAG를 제안한다. KULLM-RAG는 먼저 사용자의 질의를 분석하여 외부 정보 검색의 필요성을 스스로 판단함으로써 불필요한 연산을 최소화하고 응답 효율을 극대화한다. 또한, 검색된 문서의 충분성을 평가하여 정보가 부족할 경우 추가적인 재검색을 유도하는 순환적 RAG 프레임워크를 통해 깊이 있는 정보 탐색을 수행한다. 이를 위해 RAG 과업에 특화된 8만여 개의 데이터셋과 특수 채팅 템플릿을 설계하여 학습함으로써, 영어로 된 다수의 문서를 참조하여 신뢰도 높은 한국어 답변을 생성하는 고도화된 교차 언어 처리 능력을 확보하였다. 다양한 RAG 벤치마크(CoQA, TopiOCQA)를 활용한 실험 결과, KULLM-RAG는 다중 턴 대화, 긴 문맥 처리, 교차 언어 질의응답 등 여러 시나리오에서 기존의 강력한 한국어 모델들을 포함한 베이스라인 모델들을 상회하는 우수한 성능을 입증하였다. 특히, 정보가 없는 상황을 명확히 인지하고 '답변 불가'를 표현하는 능력을 통해 환각을 효과적으로 억제하고 시스템의 신뢰성을 크게 향상시켰다. 본 연구는 단일 모델에 지능형 검색 판단, 반복적 탐색, 교차 언어 생성 기능을 통합한 KULLM-RAG를 통해, 한국어 환경에 최적화된 차세대 RAG 시스템의 가능성을 제시한다. -
수학 튜터링 언어모델은 수리 추론, 교육적 발화 생성, 대화 상태 추적 등 여러 능력이 동시에 요구된다. 이러한 능력을 단일 모델에 함양하는 실용적 접근으로 모델 병합이 주목받지만, 기존 병합 방법은 병합 파라미터를 단순 크기 기준이나 무작위로 선택해 불안정을 초래한다. 본 연구는 추가 데이터나 재학습 없이, 특이값 분해(SVD)와 푸리에 변환(Fourier Transform)을 통해 각 전문가 모델의 파라미터에서 주요 파라미터를 선별하고, 부호 일치 기반 집계를 통해 안정적으로 병합하는 파라미터 선택 기법을 제안한다. 수리 추론 데이터셋과 수학 튜터링 대화 데이터셋에서의 비교 실험 결과, 제안방법은 기존 병합 기법 대비 수리 추론, 튜터링 발화 생성, 대화 상태 추적 성능을 안정적으로 유지·개선하여 실험적으로 효과를 입증하였다.
-
거대언어모델(LLM) 기반 협상 시스템은 아마존과 월마트 등 미국 주요 소매업체에서 이미 활발하게 구축되어 상당한 비용 및 시간 효율성을 달성하고 있다. 이러한 전자상거래 환경에서의 효과적인 협상 에이전트를 구축하기 위해서는 고품질 도메인별 대화 데이터의 확보가 필수적이며, 한국어와 같이 공개적으로 이용 가능한 리소스가 부족한 언어의 경우 특히 그렇다. 이러한 데이터 부족은 규칙 기반 시스템이 여전히 우세한 한국 전자상거래 환경에서 협상 기반 LLM 애플리케이션의 개발 부족을 초래한다. 또한, 실제 협상 시나리오는 각 기업의 특정 운영 환경에 따라 형성되는 경우가 많으므로 일반 코퍼스에만 의존하기 어렵다. 이러한 간극의 완화를 위해 본 연구에서는 소수의 시드 케이스를 사용하여 합성 협상 대화를 생성할 수 있는 시나리오 전이 기반 데이터 증강 접근법을 탐구한다. 본 연구의 목표는 제한된 실제 협상 시나리오 세트를 활용하여 전자상거래 협상 과제에 적합한 다양하고 충분한 품질의 한국어 훈련 데이터로 효과적으로 확장할 수 있는지 확인하는 것이다.
-
대규모 언어모델 (Large language models, LLMs)은 학습 과정에서 의도치 않은 편향이 내재될 잠재적 위험성을 지니고 있다. 특히나 LLM이 한국인에 대한 인식적 편향을 지니게 되는 경우, 한국인 사용자에게 왜곡된 시각을 제공하거나 특정 가치 판단을 정당화할 가능성을 낳는다. 따라서 본 연구는 LLM이 한국인에 대해 지니는 사회적 인식과 실제 한국인의 응답 사이의 차이를 실증적으로 분석한다. 이를 위해 세계 가치관 조사 (World Values Survey, WVS)를 바탕으로 사회적 행복, 윤리적 가치·규범, 정치적 문화·정권 영역의 문항을 추출하여 한국어로 번역한 다지선다형 데이터셋인 KoVaL을 구축한다. 실험에서는 한국, 중국, 미국에서 공개한 7개의 LLM들을 대상으로, 기본 프롬프트 (Base-Prompt)와 한국인의 관점을 부여한 프롬프트 (KR-Prompt)를 적용하여 응답을 수집하고, 이를 실제 한국인 설문 결과와 유사도를 비교한다. 실험 결과, LLM은 한국인에 대한 인식과 관련한 잘못된 편향을 지니고 있음을 확인하였다. 일부 LLM은 실제 한국인 응답과 반대되는 편향을 보이거나, 특정 주제에서 긍정·부정 응답을 강화하는 등 편향된 응답을 생성하였다.
-
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 대규모 언어 모델(LLM)의 환각(Hallucination) 현상을 완화하고 사실 기반의 답변 생성을 돕는 핵심 기술로 자리 잡았다. 하지만 RAG 시스템의 성능을 정밀하게 평가하는 것은 검색기와 생성기라는 두 구성 요소의 복잡한 상호작용으로 인해 어려운 과제로 남아있다. 본 연구에서는 이러한 한계를 극복하고, 특히 긴 문맥(Long-context) 환경에서의 한국어 RAG 시스템 성능을 다각적으로 진단하는 새로운 벤치마크 Ko-MIRAGE를 제안한다. Ko-MIRAGE는 14,733개의 질의응답 쌍과 340만 건 이상의 대규모 한국어 코퍼스에서 추출한 길이가 다양한 147,330건의 대규모 문서 풀로 구성되어 더욱 현실적인 평가 환경을 제공한다. Ko-MIRAGE는 LLM이 주어진 컨텍스트에 어떻게 반응하는지를 측정하기 위해 노이즈 취약성, 문맥 수용성, 문맥 둔감성, 문맥 오해라는 네 가지 새로운 평가 지표를 도입한다. 주요 한국어 LLM 및 검색 모델에 대한 실험을 통해, 우리는 각 모델 조합의 강점과 약점을 정량적으로 분석하고, 이를 통해 최적의 한국어 RAG 시스템을 구축하기 위한 실증적인 가이드라인을 제시한다. 본 연구에서 제안하는 Ko-MIRAGE 벤치마크는 향후 한국어 RAG 기술 발전을 위한 핵심적인 평가 기준으로 기여할 것이다.
-
기존 튜터링 데이터셋은 학생의 풀이 과정을 단순히 추적하는 데 그치거나, 정답과 풀이를 직접 제시하는 방식에 의존하여 학생의 실제 이해 여부를 충분히 반영하지 못하고 능동적 사고를 저해할 위험이 있다. 본 연구는 이러한 한계를 보완하기 위해, 학생의 '문제 이해 상태'와 '개념 이해 상태'를 구분하여 진단하고 이를 기반으로 맞춤형 소크라테스식 질문을 생성하는 '튜터-검증자-학생' 3자 에이전트 간 상호작용 기반 프레임워크를 설계하였다. 이를 토대로 총 3,084개의 대화로 구성된 한국어 수학 튜터링 데이터셋을 구축하였다. 구축된 데이터셋의 약 32.8%의 대화가 튜터링을 통해 정답에 도달했으며, 대다수의 성공 사례가 3턴 이내에 해결되었다. 각 대화에는 학생의 이해 상태 변화가 체계적으로 기록되어 있어, 상태 정보 활용 여부에 따른 발화 품질을 체계적으로 비교·분석할 수 있다. 실험 결과, 이해 상태 정보가 제공된 조건은 모든 평가 지표에서 일관된 품질 향상을 보여, 제안 방법의 효과를 입증하였다.
-
책임 있는 AI 개발을 위해 모델 개발 단계에서 안전성 정렬(alignment)을 반영하는 것이 필수적인 과정이 되었다. 본 연구는 한국어를 포함하여 영어, 중국어, 일본어 다국어 데이터셋 샘플을 구축하고 GPT-5 모델을 활용하여 안전성 정렬 효과와 프롬프트 학습 방법을 검증하였다. 그 결과, 영어에서는 낮은 공격 성공률(ASR)을 보인 반면 동아시아 언어권에서는 유사한 양상이 나타나 문화적 특성을 고려한 정렬 전략의 필요성과 Single system과 Few-shot 프롬프트를 결합한 전략의 효과성을 확인하였다.
-
보이스피싱은 교묘하게 진화하는 범죄 수법으로 인해 기존 기술만으로는 대응에 한계가 있다. 본 연구는 이러한 문제의식을 바탕으로 보이스피싱 탐지용 벤치마크 데이터셋을 구축하고, 네 가지 평가 태스크를 통해 오픈소스 언어모델의 성능을 검증하였다. 실험 결과, 일부 대규모 모델은 여러 태스크에서 상대적으로 안정적인 성능을 보였으나, 주제 분류와 대화 구조 인식 태스크에서는 모델 규모와 관계없이 낮은 정확도가 확인되었다. 이는 보이스피싱 탐지가 단순한 문장 이해를 넘어 맥락 추론과 대화 구조 분석을 요구하는 복합적 과업임을 보여준다.
-
본 연구에서는 선형 시간 복잡도를 갖는 단방향 RWKV의 양방향화 형태인 Bi-RWKV를 활용하여 한국어 사전학습의 효과와 실용성을 검증한다. 이를 위해, Bi-RWKV를 사전학습하기 전, 후의 성능을 비교하고, 기존에 활용되고 있는 Transformer를 사전학습하여 각각의 성능을 비교하였다. 토크나이저는 약 4.2 GB 규모의 한국어 코퍼스로 직접 학습하여 사용했으며, 그 외의 하이퍼파라미터, 학습 목표, 최적화 방법 등 실험 환경을 동일하게 구성하여 각각 모델들의 성능 및 추론 속도를 KorNLI, KorSTS 등의 작업으로 비교하였다.
-
수식 인식(OCR)은 과학, 공학 문서 처리에서 핵심적인 역할을 수행한다. 최근 확산된 대규모 언어모델(LLM) 및 비전-언어모델(VLM) 기반 접근은 수식 OCR에서 높은 인식 성능을 보였으나, 동시에 환각(hallucination) 현상이라는 새로운 문제를 야기한다. 수식의 경우 작은 오류도 의미 왜곡으로 이어질 수 있어, 환각은 특히 치명적이다. 따라서 수식 OCR에서 환각 현상을 정의하고 이를 정량·정성적으로 평가할 수 있는 체계적 프레임워크가 요구된다. 본 연구에서는 수식 OCR 환각 현상에 대한 정의와 더불어, VLM 기반 OCR에서 나타나는 환각을 체계적으로 분석하는 프레임워크를 제안한다. 구체적으로 Token-F1, TER, 재현율과 같은 정량 지표와 함께, 환각을 삭제, 삽입, 복원 유형으로 구분하여 정성적 평가를 수행하였다. 실험 결과, VLM 기반 수식 OCR은 손상된 입력에서도 원본 수식을 추론적으로 복원하는 긍정적 환각을 보이는 동시에, 추가, 절단 유형의 입력에서는 불필요한 삽입이나 누락 오류가 두드러졌다. 이러한 결과는 VLM 기반 OCR이 수식 인식에서 강력한 잠재력을 지님을 보여주는 동시에, 환각 제어를 위한 후속 연구가 필수적임을 시사한다.
-
본 연구는 EFL 학습자의 정서지능(EQ) 하위요소와 언어 학습전략 간의 관계를 토대로, 합성 데이터로 구축된 LLM 기반 학습전략 추천 Agent를 제안한다. EQ-i 125문항을 Cronbach's α로 29문항으로 축약하여 다섯 하위요소 점수를 산출하고, 2,295명의 합성 프로파일에서 이 점수와 Oxford LLS 여섯 전략 간 Pearson 상관을 이용해 전략 매핑을 학습하였다. 이렇게 구축된 Agent는 EQ 프로파일을 입력받아 최적의 Top-1 전략을 산출하며, 실제 EFL 학습자 195명(Test set)은 오직 검증에만 사용되었다. 평가 결과, Zero-shot 대비 Few-shot 설정에서 검증 성능이 전반적으로 개선되어, 정서지능을 반영한 합성데이터 기반 Agent의 현장 적용 가능성과 타당성을 뒷받침한다.
-
자연어처리에서 성찰(reflection) 반복은 생성형 태스크에서 성능을 끌어올렸지만, 전통적 NER에서 어떤 오류를 얼마나 고칠 수 있는지는 체계적으로 밝혀지지 않았다. 본 연구는 비평자-수정자 다중 에이전트 성찰 패턴을 활용해 최대 10회 성찰 반복을 수행하고, 6개 LLM과 4개 데이터셋에서 라운드별 예측을 기록하여 최고 F1 기준으로 평가하며 오류 유형(경계/타입/경계+타입/거짓양성/거짓음성)을 정량 분석하였다. 실험 결과, 성찰은 경계 오류를 개선했지만 초기 라운드에서 거짓 양성 오류가 크게 늘어 전체 F1이 하락한 뒤 6-10회 구간에서 수렴하는 경향을 보였다. 도메인·언어 차이가 뚜렷했으며, 모델 규모보다 아키텍처/학습이 성능을 좌우하여 gpt-oss 20b가 다수 도메인에서 최고, exaone-32b는 의료 도메인에서 강점을 보였다. 종합하면, 성찰 반복은 무조건적 이득이 아니며 도메인 특화 프롬프트와 조기 종료, 보수적 추출 전략이 성능·안정성 향상에 핵심임을 제안하였다.
-
LLM의 활용 범위는 자연어 처리에서 코드 이해와 구조적 데이터 해석으로 빠르게 확장되고 있다. 그러나 다이어그램과 같은 비정형적 구조 언어에 대한 이해 능력은 여전히 충분히 연구되지 않았다. 본 연구는 온프레미스 환경에서 운용가능한 LLM을 대상으로, 시각적 단서를 배제한 상태에서 머메이드 다이어그램 코드를 해석하는 능력을 체계적으로 검증하고자 한다. 이를 위해 공개 데이터셋을 전처리하여 정제된 평가 데이터를 구축하고, 다양한 모델을 동일한 조건에서 비교하였다. 분석은 유형별 정확도, 전체 정확도, 매크로 평균 정확도, 성능 편차를 통해 모델이 구조적 관계를 얼마나 일관성 있게 파악하는지를 살펴보았다. 실험 결과 일부 모델은 높은 정확도와 안정성을 보였으나, 다른 모델들은 유형별 편차가 나타나 구조적 이해 능력의 한계를 드러냈다. 본 연구는 온프레미스 환경에서의 LLM 선택과 응용에있어 다이어그램 코드 해석 능력을 새로운 평가 차원으로 제시하며, 향후 정성적 지표와 다양한 다이어그램 유형 확장을 통한 연구 가능성을 제시한다.
-
대규모 언어 모델(LLM)은 뛰어난 텍스트 생성 능력을 보이지만, 기존 모델들은 표면적인 사건을 단편적으로 나열할 뿐, 캐릭터의 내적 욕망에서 시작되는 필연적인 갈등 구조를 통해 서사를 발전시키지는 못하며 이 때문에 이야기가 깊이와 인과성을 잃게 된다. 본 논문은 이러한 문제를 해결하기 위해, 다단계 서사 추론 프레임워크인 'Chain of Desire'(CoD)를 제안한다. CoD 프레임워크는 (1) 서사 분석(Narrative Analysis), (2) 플롯 확장(Plot Expansion), (3) 요약 생성(Premise Generation), (4) 스토리 생성(Story Generation)의 4단계 파이프라인으로 구성된다. 각 단계는 이전 단계의 결과 값 전체를 모두 입력 받아 서사를 점진적으로 구체화하며, 특히 플롯 확장 단계에서는 '욕망-갈등-사건(Desire-Conflict-Event)' 체인을 통해 서사의 인과적 뼈대를 구축한다. CoD 프레임워크를 따르는 제안 모델인 Ours(CoD w/Reasoning)는 전 단계에서 명시적인 서사 추론 과정을 추가하여, 구조적 플롯을 깊이 있는 이야기로 전환 하는 능력을 극대화했다. 휴먼 평가 및 Ablation Study를 통해, 제안 모델이 기존 모델(DOC, MoPS) 및 여러 변형 모델 대비 스토리의 일관성, 인과성, 완성도 측면에서 뛰어난 성능을 보임을 입증한다.
-
자동 에세이 채점(Automatic Essay Scoring, AES)은 인간에 의한 채점을 대체할 수 있는 비용 효율적이고 확장 가능한 방법으로 주목받아 왔다. 그러나 기존 자동 채점 모델은 텍스트 입력을 전제로 연구되어 왔기 때문에, 음성 입력을 처리하기 위해 자동 음성 인식(Automatic Speech Recognition, ASR) 과정을 거칠 경우 그 과정에서 발생하는 전사 오류에 취약하여 채점 성능이 크게 저하되는 문제가 나타남을 확인하였다. 본 연구에서는 이러한 문제를 해결하기 위해 (1) 다양한 전사 오류를 모사하는 데이터 증강 기법과 (2) 정답 전사와 오류 전사 간 표현 정렬을 유도하는 대조 학습을 결합한 다단계 학습 전략을 제안하였다. 제안한 방법은 다양한 음성 인식 오류 환경에서 기존 모델 대비 일관되게 높은 성능을 보였으며, 특히 오류가 심한 조건에서도 유의미한 성능 향상을 달성하였다.
-
전 세계 한국어 학습 수요가 크게 증가하면서, L2 학습자의 말하기 능력을 평가할 수 있는 고품질 문항을 대규모로 확보하는 것이 중요한 과제로 떠오르고 있다. 본 연구에서는 한국의 일상생활과 관련된 250개의 소재(topic)를 기반으로 최신 한국어 sLLM(7~12B)을 활용하여 말하기 문제를 자동 생성하고 결과물의 적합성을 평가하는 파이프라인을 설계하였다. 파이프라인 분석 결과, 특정 모델은 약 7B 규모에도 불구하고 명세 충실성과 언어적 완성도 측면에서 안정적인 성능을 보였다. 추가적으로, 파이프라인에서 생성된 데이터로 선호도 쌍(pairwise preference) 데이터셋을 구축하고, L2 학습자에게 적합한 문항을 판별하는 소형 평가기(2B)를 훈련시켰다. 테스트 데이터셋 실험 결과, 소형 평가기의 평가 결과는 중형 규모 LLM(32B)의 평가 결과와 유의미한 양의 순위 상관관계(ρ = 0.573)를 보였다. 이는 특정 LLM 단독 평가에서 발생할 수 있는 편향을 일정 부분 보완하고 평가 단계의 비용 부담을 완화할 수 있는 가능성을 시사한다. 본 연구는 한국어 sLLM을 활용한 말하기 문제 자동 생성 및 적합성 평가 파이프라인을 구축하였으며, 구축된 데이터와 방법론은 향후 L2 학습자 말하기 평가 연구의 기초 자료로 활용될 수 있다.
-
일반적으로 기계번역의 품질 평가는 전문가에 의한 정성적 평가방법이 이용되고 있지만 전문가별 성향에 따라서 그 결과는 일관성(consistency)과 결정성(determinism)을 보장하지 못한다. 본 논문에서는 고정정-집합이라는 방향 그래프 모형과 번역의 궤적(orbit)을 이용하여 번역 시스템의 성능을 정량적으로 평가할 수 있는 방법을 제시한다. 이를 위하여 우리는 가장 잘 알려진 6개의 자동번역 시스템, Google, DeepL, Facebook,....을 선택하여 이것으로 한국어, 영어, 중국어, 일본어의 문장을 번역하여 그 성능을 평가하였다. 한국어에 한정할 경우 그 성능은 구글 번역기(GT2)가 가장 우수했음을 확인할 수 있었다. 또한 비슷한 문법을 가진 언어끼리의 번역이 다른 구조의 언어간에 비하여 그 번역 성능이 더 우수함을 확인하였다.
-
최근 웹서비스 환경에서의 보안 위협은 점차 정교해지고 있으며, 이에 따라 보안 로그 분석에서는 공격 여부를 정확히 탐지하는 것뿐 아니라, 공격에 대한 설명을 함께 제공하는 방식이 요구된다. 그러나 기존 연구들은 분류와 설명을 별도의 태스크로 다루면서 예측 결과와 설명 간 불일치가 발생하거나 신뢰도 산출이 불안정하다는 한계를 지닌다. 본 연구에서는 문제를 해결하기 위해 대규모 언어 모델을 활용한 단일 통합 추론 방식을 제안한다. 제안된 방식은 HTTP 요청 로그 기반 데이터셋을 구축하여, 공격 여부 분류, 공격 구문 추출, 설명 생성을 구조화된 JSON 출력하도록 수행한다. 또한 Guided decoding을 적용해 토큰 생성 위치를 제한하여 분류 신뢰도를 계산하고, IQR 기반 임계값 조정을 통해 오탐과 미탐 간의 trade-off를 효과적으로 제어한다. 실험 결과 모델은 공격 구문 추출과 설명 생성뿐만 아니라 기존 인코더 기반 모델보다 높은 분류 성능을 달성하였다. 또한 신뢰도 기반 임계값 조정이 실제 보안 운영 환경에서 리스크 중심 의사결정을 정량적으로 지원할 수 있음을 검증하였다. 본 연구는 대규모 언어 모델을 활용한 보안 로그 분석에서 분류, 설명, 신뢰도 산출을 아우르는 실질적 프레임워크를 제시한다.
-
대규모 언어 모델(LLM)의 발전에도 불구하고 법률, 의료, 금융 등의 전문 분야에서는 해당 도메인의 심층 지식과 문맥 이해를 정밀하게 평가할 수 있는 도메인 특화 평가 데이터셋이 필요하다. 그러나 이러한 데이터셋 구축에는 전문 지식과 많은 비용이 요구되어 현실적인 어려움이 있다. 본 논문에서는 한국어의 한자어 동형이의어 특성을 활용하여 도메인 문서로부터 평가 문항을 자동 생성하는 새로운 방법론을 제안한다. 먼저 LLM을 이용해 도메인 문서에서 핵심 한자어 용어를 추출하고, 국립국어원 표준국어대사전과 연계하여 해당 용어의 문맥별 의미를 식별한다. 이후 추출된 한자어를 중심으로 두 가지 평가 태스크-(1) 문맥 기반 단어 추론(클로즈 테스트)과 (2) 문맥 기반 의미 구분(WSD)-을 자동 생성한다. 한자어는 동일한 발음이라도 여러 한자로 다른 의미를 지니는 경우가 많아 동형/동음이의어 문제를 풍부하게 구성할 수 있다. 이를 통해 모델의 문맥 이해도와 도메인 지식 활용 능력을 효과적으로 측정하는 벤치마크 데이터셋을 대량 구축할 수 있었다. 본 자동 생성 평가셋은 전문가 개입을 최소화하면서도 도메인 적합성과 문맥 난이도를 갖춘 문항들로 구성되어, 범용 모델과 도메인 특화 모델의 성능을 객관적으로 비교 평가할 수 있다. 실험 결과 제안 방법을 통해 생성된 평가 문항에서 도메인 특화 LLM이 범용 LLM보다 현저히 높은 정확도를 보여, 본 접근법의 타당성과 효율성을 검증하였다.
-
대화형 AI가 사용자와 자연스럽게 소통하기 위해서는 빠르게 변화하는 인터넷 밈과 같은 문화적 시의성 확보가 필수적이지만, 기존 데이터 구축 방식은 이를 반영하기 어렵다. 본 연구는 이 문제를 해결하기 위해 최신 한국 인터넷 밈-트렌드 데이터셋 2종(KoCulture-Descriptions, KoCulture-Dialogues)을 구축하는 새로운 파이프라인을 제안한다. 또한, 모델의 문화적 소통 능력을 '이해(Understanding)', '활용(Usage)', '인간성(Humanity)'이라는 다면적 지표로 측정하는 새로운 평가 체계를 도입했다. 실험 결과, 제안한 데이터셋으로 학습한 모델들은 모든 지표에서 성능이 향상되었으며, 특히 대화 맥락에 맞게 밈을 사용하는 '활용' 능력과 AI 특유의 정형성을 탈피한 '인간성' 측면에서 큰 폭의 개선을 보였다. 본 연구는 LLM에 동시대적 문화 이해 능력을 부여하고 그 효과를 실증적으로 검증하는 구체적인 방법론을 제시했다는 점에서 의의를 가진다.
-
Donghyeok Koh;Injae Jeong;Dongwon Noh;Sujong Do;Jimin Lee;Hyeongjun Lim;Yuri Han;Haneol Jang;Sungpil Woo;Cheoneum Park 257
본 논문에서는 다중 에이전트 시스템(Multi Agent System)을 활용한 제안서 요약 시스템을 제안한다. 정부 및 공공기관 실무에서 활용 가능한 보고서 형식으로 작성하기 위해서는 정책적 의미, 실현 가능성, 조직 운영 관점 등 복합적인 평가가 필요하다. 제안하는 MAS는 제안서를 입력으로 받아 서로 다른 역할의 Agent가 요약, 평가, 토론 과정을 진행하고 최종적으로 실행 가능성있는 시사점 및 제언을 포함한 보고서를 생성한다. 실험 결과, 품질, 정확성, 완전성, 명확성, 건설성 5가지 기준에 대한 평균 점수 9.9를 달성하여 유의미함을 보였고, Rouge-1 0.4585, BERTScore 0.8689을 달성하여 보고서 생성에 효과적임을 확인하였다. -
Can Large Language Models Generate Student Grade-Level English? : An English Textbook-Based Analysis본 연구는 학습자 수준에 적합한 발화를 자동 생성하기 위한 대규모 언어 모델의 가능성과 한계를 규명하는 것을 목적으로 한다. 이를 위해 미국 초등학교 1-6학년 교과서를 기반으로 학년별 언어 범위를 정의하고, 문장 길이, 평균 단어 빈도, 종속절 비율, 담화 표지 비율, 어휘 다양성 등 다섯 가지 지표를 활용해 주요 상용 및 오픈소스 모델들의 출력 문장을 정량적으로 비교했다. 분석 결과, 일부 모델은 구문적 특성을 일정 부분 재현했으나 어휘적·담화적 측면에서는 교과서와 큰 차이를 보였다. 이러한 결과는 교육용 자료 생성에서 단순한 수준 지시만으로는 충분하지 않으며, 학습자의 실제 언어 특성을 반영한 정밀한 기준과 발화 제어 방안 마련이 필요함을 시사한다.
-
본 연구는 단일 에이전트가 겪는 인지적 편향과 오류 전파 문제를 해결하기 위해, 실행(Planner Agent)과 메타인지(Memory Agent) 역할을 분리한 새로운 이중 에이전트 프레임워크를 제안한다. 메모리 에이전트는 플래너 에이전트의 행동을 성찰하여 명시적인 교정 가이던스를 생성하며, 이 동적 피드백 루프는 에이전트가 비효율적인 탐색 경로에서 조기에 벗어나도록 유도한다. 메모리 에이전트는 각 (행동, 관찰) 단계의 유효성을 평가해 다음 행동을 위한 명시적 가이던스를 생성·축적하고, 플래너 에이전트는 이를 참조해 중복 검색과 잘못된 경로를 조기에 차단한다. 위키피디아 기반 영어, 한국어 질의응답 데이터셋(HotpotQA, StrategyQA, Ko-StrategyQA, KoSQuAD)에서 1,000문항씩 평가한 결과, 제안 기법은 ReAct 및 ReAct + Memory, ReAct + Reflection 대비 일관된 정확도 향상을 보였다. 이러한 결과는 가이던스 형태의 단기 기억이 한국어, 영어 환경 모두에서 실시간 검색 및 추론 정확도를 동시에 개선함을 시사한다.
-
기업 현장에서 Agentic AI 도입이 늘고 있지만, 대규모 언어 모델(LLM) 기반 에이전트는 비용/지연/보안 측면의 제약으로 실무 적용에 한계가 있다. 본 연구는 역할이 분리된 소규모 언어 모델(SLM)을 결합한 Planner-Caller-Generator(P-C-G) 구조의 경량 Agentic AI를 제안한다. 제안 구조는 초기 한 번 계획을 세운 뒤 필요한 시점에만 재계획을 수행해 토큰·호출 비용을 줄이고, Caller/Generator가 도구 사용과 결과 통합을 맡도록 설계했다. 한국어 Function-Calling 평가 데이터셋(Single/Multi chain, Missing Parameters, Missing Functions)으로 검증한 결과, 8B 규모의 제안 시스템은 공개 14B/32B 모델을 상회하고 상용 LLM에 근접한 종합 성능을 보였다. 또한 없는 도구나 빠진 인자에 대해 적절히 안내하고, 다단계 생성 품질에서 강점을 보였다. 이는 SLM 기반 Agentic AI만으로도 LLM 의존 없이 실용 수준의 Agentic AI 시스템 구현이 가능함을 시사한다.
-
시계열 데이터(건강, 로봇, 제조, IoT, 금융)는 에이전트의 판단, 제어, 추천 등 다양한 응용에 핵심적이다. 최근 시계열 LLM과 파운데이션 모델은 벤치마크에서 우수한 성능을 보였으며, RAG(Retrieval-Augmented Generation)와 결합해 최신성 확보와 도메인 일반화를 시도하고 있다. 그러나 도메인별 속성 차이로 인해 LLM 파인튜닝과 RAG 검색 스키마 정의에는 여전히 많은 수작업이 요구된다. 본 연구는 이를 해결하기 위해 Agentic RAG를 시계열 분류에 적용한다. 제안하는 프레임워크는 검색을 통해 연관 세그먼트를 참조하고, 모의평가(Mock Evaluation) 기반 속성 자동 선정을 통해 전처리 부담을 줄이며, Scope-Condition-Measure 구조로 검색 공간을 명확히 구분해 도메인 일반성을 보장한다. 실험은 한국어 기반 다섯 개 도메인(로봇, 에너지, 기계, 금융, 헬스) 데이터셋에서 수행되었으며, 검색 조건 및 top-k 설정에 따른 성능 변화를 분석했다. 그 결과, 제안 기법은 기존 Few-shot 대비 안정적이고 일관된 향상을 보였으며, 특히 속성 자동 선정이 변동성이 큰 도메인에서 두드러진 개선을 나타냈다. 본 연구는 다양한 도메인에 적용 가능한 시계열 분류 프레임워크를 제시하며, 실제 서비스 환경으로의 확장 가능성을 보여준다.
-
AI 협상 에이전트는 전자상거래 맥락에서 반복적이고 구조화된 거래를 자동화하는 핵심 기술로 부상하고 있으나, 기존 시스템은 제한된 거래 속성에 기반해 전략을 설계함으로써 실제 환경에서 성능 한계에 직면한다. 본 연구는 이러한 문제를 해결하기 위해 기존 2차원 상품 분류 체계(구매 볼륨, 경쟁 강도)에 마진율을 추가한 3차원 거래 속성 분류 모델을 제안한다. 이 모델은 기존의 4분면 체계를 8분면으로 확장하여 각 속성 영역에 적합한 차별화된 협상 전략 설계를 가능하게 한다. 더 나아가 본 연구는 3차원 분류 모델을 LLM 기반 시뮬레이션에 적용하고, 총 560건의 실제 구매 협상 데이터를 마스킹 처리한 후 실험에 활용하여 실제 구매 협상과 매우 유사한 시뮬레이션 환경을 구한다. LLM 기반 평가인 LLM-as-a-Judge(G-Eval)을 적용해 협상 품질과 페르소나 만족도를 정량적으로 평가한다. 실험 결과, 차원 확장을 통한 속성 분류가 협상 전략의 다양성 확보와 예측 정확도 향상에 효과적임을 확인한다. 이러한 결과는 (i) 분면 기반 전략 표준화, (ii) 시뮬레이션·증강 결합에 의한 재현 가능 평가, (iii) 실데이터 유사 환경에서의 비용 효율 검증이라는 실무적 함의를 제공하며, 복잡한 협상 환경에서 다차원적 거래 속성의 명시적 고려가 AI 협상 성능을 체계적으로 제고함을 실증하며, AI 협상 시스템의 실무적 활용성을 높일 뿐 아니라, 협상 인공지능 전략 설계의 새로운 방향성을 제시한다.
-
수학 문제 풀이는 대규모 언어모델(Large Language Model; LLM)의 연산 및 추론 능력을 판가름하는 핵심 역량으로 간주된다. 하지만 많은 기성 LLM에 대해 영어 문장으로 구성된 수학 문제보다 한국어 문장으로 구성된 수학 문제에서 문제 풀이 성능 저하가 나타난다. 본 연구는 이 문제의 원인을 한국의 문화적 맥락을 충분히 반영한 고품질 수학 말뭉치의 부족이라고 진단한다. 그 해결책으로 한국적 맥락(Korean-centric)을 반영하는 '합성-증강-검증' 3단계의 사전학습 데이터 구축 파이프라인을 제안한다. 이 파이프라인은 한국의 교육과정과 문화적 맥락을 반영한 교과서 본문과 연습문제를 생성(합성)하는 단계와 기존 문제에 대한 추가 풀이 및 역방향 문제를 생성(증강)하는 단계, 생성된 문제와 풀이의 수학적 정확성과 명확성을 평가(검증)하는 단계로 구성된다. 이 파이프라인을 이용해 최종적으로 약 2,300만 토큰 규모의 LLM 사전학습용 고품질 한국어 수학 말뭉치를 구축했다. 이 데이터로 연속 사전학습을 수행한 모델 성능은 한국어로 번역된 GSM8K 및 MATH 벤치마크에서 베이스라인 모델 성능 대비 평균 215% 향상되었다. 아울러 지도 미세조정 단계에서도 동일한 한국어 수학 데이터로 훈련할 때 미세조정 성능이 평균 39% 증가하였다.
-
다중 레이블 텍스트 분류는 문서 태깅과 정보 검색 등 다양한 응용에서 핵심 과제이다. 기존 연구는 (i) 문서-레이블 간 의미적 정렬과 (ii) 문서 간 전역 관계를 반영하는 구조적 접근에 각각 집중해 왔으나, 두 측면을 동시에 고려하는 데에는 한계가 있었다. 본 연구는 "문서-단어"와 "문서-문서" 관계로 이루어진 문서 그래프와 "레이블-상위 레이블 계층" 관계로 이루어진 레이블 그래프로부터 구조적 정보를 학습하고, 학습된 정보를 바탕으로 문서-레이블 간 문맥적 정렬을 수행하는 이종 그래프 학습 프레임워크를 제안한다. 제안 기법은 레이블 정렬 어텐션과 대조 학습을 결합해 문서 표현을 정교화한다. 다중 레이블을 포함하는 학술 및 뉴스 데이터셋에서의 실험 결과, 최신 기법 대비 분류 성능이 유의미하게 향상되었다. 이는 문서/레이블 그래프의 구조적 정보와 문서-레이블 정렬의 결합이 다중 레이블 텍스트 분류 성능 향상에 효과적임을 입증한다.
-
본 연구는 업체마다 양식이 다른 비정형 수산물 인보이스로부터 정보를 효율적으로 추출하기 위해 의미 기반 통합 스키마와 생성형 AI를 활용한 정보추출 시스템을 제안한다. 제안된 시스템은 범용 스키마 생성과 정보추출 및 도메인 지식을 활용한 검증의 두 단계로 구성하여 신뢰성을 높였다. 검증셋 대상으로 자동 생성 스키마 기반 초기 실험은 f1-score 0.60에 불과했으나, 스키마 통합 및 수작업 정제 과정을 거쳐 0.88까지 성능을 향상시켰으며, 최종 평가셋에서도 0.86의 안정적인 성능을 보였다. 다만, 복잡한 표 구조와 비정형화된 표기방식으로 인해 항목이 누락되거나 잘못된 정보가 추출되는 한계가 확인되었다. 향후, 데이터셋 확충과 정교화된 스키마를 바탕으로 정보추출 성능을 보완하고 실제 수산물 유통 업무에 활용할 예정이다.
-
본 연구에서는 Self-Attention의 계산 복잡도 문제를 완화하기 위해 토큰별 어텐션 분포의 엔트로피를 활용한 Dynamic Window Self-Attention(DyWin) 기법을 제안하였다. DyWin은 일부 헤드에서 전체 문맥을 대상으로 어텐션을 수행하여 토큰별 엔트로피를 계산하고, 이를 기반으로 각 토큰마다 상이한 윈도우 크기를 동적으로 배정함으로써 불확실성이 큰 토큰은 넓은 문맥을, 불확실성이 작은 토큰은 좁은 문맥을 참고하도록 설계되었다. 장문 데이터셋을 대상으로 한 실험 결과 DyWin은 Full Attention 대비 약 16%의 연산량을 절감하면서도 가장 우수한 성능을 기록하였다. 또한 학습이 진행될수록 평균 윈도우 크기가 점차 감소하는 추세가 관찰되어, DyWin이 점차 좁은 문맥에 집중하는 방향으로 적응하는 특성을 확인할 수 있었다. 이러한 결과는 DyWin이 효율성과 성능 간의 균형을 달성할 수 있는 효과적인 어텐션 구조임을 보여주며, 향후 다양한 자연어 처리 과제로 확장될 수 있는 가능성을 제시한다.
-
기업 뉴스의 부정적 보도는 시장과 투자자에게 큰 영향을 미치지만, 장문의 기사 특성으로 인해 자동 감성 분석에는 여전히 한계가 존재한다. 특히 BERT 기반 분류 모델은 입력 길이가 제한되어 있어 정보 손실이 불가피하다. 본 연구는 이러한 제약을 극복하기 위해 다음의 세 가지 전처리 전략을 비교하였다: (1) 기사 서두를 활용하는 전방 토큰 절삭, (2) 기업 관련 키워드가 포함된 문장만을 추출하는 키워드 기반 요약, (3) GPT-4o mini와 Llama, T5 모델을 이용한 LLM 기반 생성 요약. RoBERTa 모델을 활용하여 각 방식으로 실험한 결과, 키워드 기반 요약 방법이 전체 클래스 F1-Score(0.8807)에서 가장 우수한 성능을 나타냈으며, 전방 토큰 절삭 방법이 다음으로 높은 성능을 기록하였다. 반면 LLM 기반 생성 요약은 전반적으로 낮은 성능을 보였다. 이러한 결과는 장문의 금융 뉴스 감성 분석에서 복잡한 생성 기반 접근보다 간단하고 비용 효율적인 전처리 전략이 더 효과적일 수 있음을 시사한다.
-
우리 사회는 높은 자살률로 심각한 사회적 위기에 직면해 있다. 자살 예방을 위해서는 자살 생각 단계에서 위험 신호를 조기에 탐지하고, 신속히 지원하는 체계가 갖추어져야 한다. 기존의 방식은 사회적 낙인, 심리적 장벽 등의 한계로 인해 많은 사람들이 제때 적절한 도움을 받지 못하고 있다. 이를 극복하기 위해 AI 기반 조기 탐지 시스템은 언어 패턴 분석을 통해 위험 신호를 객관적이고 비대면으로 감지할 수 있다. 본 연구는 대규모 언어 모델(LLM)을 활용하여 대화 내 자살 충동을 조기에 탐지할 수 있는 AI 모델을 개발하고 그 타당성을 검증하고자 한다. 본 연구는 실제 자살 관련 대화 데이터 확보의 어려움을 극복하고, 대화 내 위험 내용을 조기에 탐지하는 모델을 학습하는 방법론을 제안한다. GPT 기반 최신 언어 모델을 이용하여 실제 개인정보 없이 자살 충동이 반영된 합성 대화 데이터를 생성한 후, 이를 활용하여 자살 충동 위험을 조기에 탐지하는 모델을 학습한다.
-
본 연구는 온라인 자동차 커뮤니티의 비정형 텍스트를 활용해 차량 결함을 조기 탐지하는 웹 모니터링 시스템을 제안한다. 한국어 특성을 반영한 형태소 분석과 Word2vec 단어 임베딩을 적용하고, 거대언어모델을 통해 잠재적 이슈 단어집을 구축한 다음 고도화하였다. 또한, 잠재적 이슈 탐지 및 시각화 대시보드, 게시글 역추적, 자동 보고서 생성 모듈을 통합한 엔드투엔드 파이프라인을 구현하였다. 기아 쏘렌토 MQ4 차량을 대상으로 한 실험에서 공식 리콜 이전 잠재 결함 게시글을 다수 탐지하여 66.7%의 탐지율을 기록함으로써 온라인 데이터 기반 모니터링의 실효성을 입증하였다. 향후 연구에서는 자동차 도메인 특화 사용자 사전 구축과 다양한 형태소 분석기 적용을 통해 전처리 성능을 개선하고, 결함 심각도 평가 지표를 도입할 예정이다. 또한 탐지 결과를 기업의 품질 관리 프로세스와 연계하며, 토픽모델링 기반 계층적 분류 체계를 구축하여 결함 유형별 패턴 분석과 시각화를 고도화할 것이다.
-
본 연구는 특허 심사 과정에서의 의견제출통지서를 기반으로 청구항을 자동으로 보정하는 프레임워크를 제안한다. 이를 위해 실제 특허 거절 문서에서 필요한 정보를 식별하고 추출하는 데이터 구축 파이프라인을 설계하였으며, 검색 증강생성(Retrieval-Augmented Generation) 기반의 청구항 자동 보정 프레임워크를 구현하여 의견제출통지서, 선행기술, 특허 명세서의 핵심 내용을 통합적으로 참조한다. 특히, 특허 청구항 보정 과정에서 관련된 선행기술 및 특허 명세서를 활용하는 것이 결과물의 품질 개선에 미치는 영향을 확인하였다. 실험 결과, 정량적 지표와 정성적 사례 분석을 통해 제안 방법이 기존 접근법 대비 우수한 성능을 보였으며, 인간 전문가가 작성한 청구항 보정안과의 대조를 통해 실효성을 검증하였다. 본 연구의 결과는 복잡한 특허 보정 업무에 대한 재현 가능한 자동화 파이프라인을 제시함으로써, 향후 고도화된 특허 심사 및 작성 지원 시스템으로 발전할 수 있는 학술적 토대를 마련하였다는 점에서 의의를 가진다.
-
본 연구는 운영 중 네트워크 설정의 역방향 해석을 지원하기 위해 NetConfigQA 데이터셋과 평가 파이프라인을 제안한다. PnetLab XML을 표준화하여 12개 카테고리 75개 필수 문항 기반의 기초 질문과 페르소나 심화 질문을 포함한 총 813문항을 구성하였으며, 정답은 스크립트와 LLM기반의 정답 생성기를 통해 정답을 생성하고 근거 경로를 기록하여 직접 검증하였다. GPT-4o-mini를 대상으로 Baseline, Chain of Thought(CoT), 본 논문에서 제안하는 파이프라인 세가지 접근 방식을 비교한 결과, 제안하는 방식이 EM 0.819, F1 0.837로 가장 우수한 성능을 보였다.
-
거대언어모델은 경로 탐색에서 높은 추론 능력을 보이지만, 대형 그래프에서 거대언어모델 기반 경로 탐색은 graph2text에 따라 발생하는 문맥 길이 문제 때문에 올바른 추론이 어렵다. 본 논문에서는 거대언어모델 기반 경로 탐색을 수행하기 위해, workflow 최적화 기반 그래프 경로 탐색 방법을 제안한다. 제안 방법은 workflow planning에서 주로 사용되는 몬테카를로 트리 탐색에 기반하여, 거대언어모델이 최적의 경로 탐색 절차(workflow)를 최적화 하는 프레임워크이다. 세종시 대중교통 노선 그래프에서 실험 결과, 제안 방법은 복잡한 multi-hop 질의에서도 94% 이상의 안정적인 성공률을 달성하며, 단일 LLM 기반 방법 대비 23% 이상의 성능 향상과 65%의 탐색 효율성 개선을 보인다.
-
본 논문에서는 리랭커(Reranker)가 포함된 RAG(Retrieval-Augmented Generation) 시스템에서 발생하는 고비용의 추론 시간을 효과적으로 줄이는 것을 목표로 한다. 이를 위해 RRF(Reciprocal Rank Fusion) 기반의 융합 기법을 통하여 어휘적(Lexical) 결과와 의미적(Semantic) 결과를 적절하게 결합하여 리랭커를 대체할 수 있는지 가능성을 밝히고자 하였다. 또한, 일반적인 청킹(Chunking) 기법과 달리 하나의 문서로부터 파생된 청크들을 서로 연결하는 연결형 청킹(Linked Chunking) 구조를 통하여 청크들 간의 정보 손실을 줄이고 문맥 공유를 통해 검색 성능의 향상을 시킬 수 있음을 검증하였다. 최종적으로 실험을 통해 RRF와 연결형 청킹 기법이 기존 리랭커 기반 시스템과 대등한 성능을 보이면서 추론 속도를 효율적으로 단축시킬 수 있음을 확인하였다.
-
본 논문은 대화 요약에서 사실성과 유창성의 충돌을 줄이기 위해, 추출 신호로 생성을 검증-보강하는 하이브리드 프레임워크를 제안한다. 긴 대화를 임베딩 기반으로 주제 분할하고, 키워드 연관 발화에서 키포인트를 추출한 뒤, 1차 요약의 커버리지를 점검하고 누락 정보는 제약 기반 재작성으로 보완한다. 인공지능 말평 Dev(102개)에서 세 백본 기준 ROUGE-1/2/L +1.9~+2.5/+1.1~+2.0/+0.5~+0.9pt, BLEU-4 +0.1~+0.4pt, BERTScore(F1) 0.0~+0.5pt를 달성했고, Test에서는 Midm/A.X4.0-light의 R-1이 각 +3.00/+1.18pt 개선되었다. 제안 방식은 환각과 누락을 줄이면서 초안의 유창성을 유지한다.
-
이 연구는 한국어를 포함한 다국어 혼합 문서 환경에서의 광학문자인식(OCR) 성능 향상을 목표로 한다. 기존 OCR 시스템은 주로 알파벳이나 한자에 최적화되어 있어, 자모 결합형 구조를 갖는 한글의 인식률은 상대적으로 저하되는 문제가 있다. 이를 해결하기 위해 PaddlePaddle의 PP-OCRv5를 기반으로 Text Detection 모델은 베이스라인을 사용하고, Text Recognition 모델은 중국어 학습 모델에 한국어 데이터를 추가 학습(fine-tuning)하는 방식의 실험을 수행하였다. 학습 데이터는 오픈 소스로 공개되어 있는 텍스트 인식을 위한 합성 이미지 데이터 생성기인 TRDG(Text Recognition Data Generator)를 활용하여 합성 이미지로 구축하였으며, 다양한 수준의 노이즈를 포함시켜 실제 문서 환경을 반영하였다. 학습은 두 단계로 나누어 진행되었고, 각각 한글 인식률 강화와 다국어 균형 유지에 초점을 맞추었다. 평가 결과, 이 연구에서 PP-OCRv5의 Recognition을 기반으로 미세조정한 모델은 베이스라인 대비 다국어 혼합 문서 환경에서의 한국어 인식 성능이 유의미하게 개선되었다. 이는 단일 언어 기반 OCR 모델의 한계를 극복하고, 실제 문서 처리에서의 다국어 지원 가능성을 입증하였다는 의의를 가진다. 향후 손글씨 및 다양한 폰트 학습, 노이즈 대응 기법, 대규모 언어 모델을 통한 후처리 고도화가 요구된다.
-
최근 대규모 언어모델(LLM)과 멀티모달 모델의 발전은 문서 레이아웃 분석(Document Layout Analysis, DLA)의 성능을 크게 향상시켰다. 그러나 영역 병합, 분할, 누락과 같은 구조적 오류는 여전히 해결되지 않은 과제로 남아 있다. 기존의 IoU나 mAP과 같은 겹침 기반 지표는 이러한 오류를 포착하기에 한계가 있기에, 본 연구에서는 문서 레이아웃 분석에서 발생하는 예측 오류를 기반으로 8가지 표준 오류 유형을 체계적으로 정의하고, 이를 평가하기 위한 새로운 벤치마크인 Layout Error Detection (LED)을 제안한다. LED는 실제 모델의 오류 분포를 반영하여 구축한 합성 데이터셋 LED-Dataset과 세 가지 평가 태스크(문서 단위 오류 검출, 문서 단위 오류 유형 분류, 요소 단위 오류 유형 분류)로 구성되며, 다양한 대규모 멀티모달 모델을 대상으로 한 실험을 통해 모델의 문서 구조 이해 능력을 정량적으로 평가할 수 있음을 보인다.
-
본 논문은 한국어 환경에서 거대 언어 모델의 복합 지시문 수행 능력을 평가하기 위한 새로운 벤치마크를 제안한다. 기존 영어 및 중국어 기반 복합 지시문 벤치마크에는 특정 문화권에만 존재하는 문화 특수적 요소가 포함되어, 이를 단순히 번역하면 한국어에서는 어색하거나 한국어 환경에 적합하지 않는 표현들이 포함된다. 본 논문에서는 문화 특수적 요소가 포함된 기존 복합 지시문 벤치마크를 한국어 환경에 맞게 변환하는 방법을 제안한다. 제안한 방법은 먼저 지시문 내 문화 특수적 요소를 탐지하고, 탐지된 요소를 설명하는 속성을 생성함과 동시에 이 요소를 어떻게 변환할지에 따라 직역, 교체, 삭제 세 유형으로 분류한다. 이 중, 교체의 경우 탐지된 요소의 속성을 활용하여 한국어에 적합한 문화 특수적 요소로 교체함으로써 원문의 의미를 유지하면서도 자연스러운 지시문으로 번역하여 한국어 복합 지시문 벤치마크를 구축한다. 구축한 벤치마크를 활용해 7개의 한국어 및 다국어 거대 언어 모델들이 복합 지시문을 따르는지 여부를 평가하였으며, 그 결과 모든 언어 모델들이 지시문이 복잡해질수록 성능이 낮아지는 현상을 보였다. 본 논문은 한국어 환경에 적합한 복합 지시문 벤치마크를 최초로 제안함으로써, 한국어 거대 언어 모델의 지시문 활용 능력을 검증할 수 있음을 보여준다.
-
본 연구는 최근 대두되는 소버린 AI(Sovereign AI) 패러다임 속에서 기존 한국어 벤치마크의 '균형적 관점' 지향이 지닌 한계를 비판적으로 고찰하고, '주체적 관점'에 기반한 새로운 벤치마크 구축 방법론을 제안한다. 기존 데이터셋이 중립성을 강조했지만, 독도 영유권이나 고구려 역사 귀속과 같은 정체성 핵심 사안에서는 대한민국 공동체의 합의된 인식을 반영하는 명확한 입장이 필요하다. 본 연구는 나무위키의 토론 및 정리 문서를 활용해 논쟁적 주제를 추출하고, 이를 국가 공인 시험 형식을 참조한 5지 선다형 문항으로 설계하는 다단계 과정을 제시하였다. 총 475개 문항으로 구성된 본 벤치마크는 개념 확인부터 복합 추론까지 다양한 유형을 포함하며, 한국의 역사·문화·사회에 대한 언어 모델의 이해도와 가치 판단 능력을 함께 측정한다. 이로써 민감한 논쟁적 사안을 정면으로 다루는 주체적 벤치마크의 필요성과 구체적 실현 방안을 제시했다는 점에서 학술적·실용적 의의를 지닌다.
-
최근 대규모 언어모델을 활용한 대화 데이터 생성 연구는 단일 질의-응답의 한계를 넘어, 실제 응용 환경을 반영한 복합적 시나리오 생성을 요구하고 있다. 그러나 기존 연구들은 다중 도구 호출 과정에서 발생하는 상태 변화 관리, 도구 간 참조 관계를 충분히 고려하지 못하는 한계가 존재한다. 제안하는 ChainDialBench 프레임워크에서는 다수의 LLM이 사용자, 시스템, 도구, 상태 관리자의 역할을 분담하여 상호작용을 자율적으로 시뮬레이션하며, 연속적이고 의존적인 도구 호출을 대화 과정에 반영하는 데이터를 구축할 수 있다. 특히 본 연구에서는 상태 관리자를 도입하여 도구 호출에 따른 상태 변화를 추적함으로써 현실성 있고 데이터 일관적인 시뮬레이션을 가능하게 한다. 결과적으로 복합 도구를 활용하며 실세계 시나리오와 유사한 대화 데이터셋을 대규모로 자동 구축할 수 있는 프레임워크를 구축할 수 있음을 확인하였고, 이는 LLM의 복합 작업 능력 평가 및 벤치마크 데이터 구축에 기여할 수 있을 것으로 기대된다.
-
Retrieval Augmented Generation(RAG)은 대규모 언어 모델과 검색 도구를 결합한 대표적인 Artificial Intelligence(AI) Agent 중 하나이다. 이러한 AI Agent의 성능은 모델의 성능에 크게 의존하고 있다. 모델의 성능을 측정하기 위한 대표적인 방법 중 하나는 평가셋을 통한 벤치마크이지만, 기존 대규모 언어 모델 벤치마크로 모델이 RAG에 적용되었을 때 성능을 예측하기에는 한계가 있다. 우선, 범용 벤치마크 환경은 실제 RAG 사용 환경과 큰 차이가 있다. RAG 벤치마크는 필요한 기능에 대한 세부적인 평가를 수행하지 않는다. 또한, 한국어로 작성된 고품질 평가셋이 부족하다. 이러한 문제점들을 해결하기 위해 본 논문에서는 요구사항 기반 RAG Question Answering(QA) 평가셋 구축 방법을 제안한다. RAG QA를 수행하기 위한 대규모 언어 모델의 요구사항을 정의하고, 요구사항을 기반으로 엣지케이스를 정의한다. 엣지케이스 정의와 문서를 통해 질의를 생성한다. 생성된 엣지케이스 질의를 통해 모델을 평가하면 적은 양의 평가셋으로도 모델의 특정 기능에 대한 성능을 효율적으로 측정할 수 있다. 또한, 실제 적용했을 때의 성능을 정확히 예측할 수 있다.
-
본 논문은 거대언어모델(LLM)에서 한국어 입력이 내부적으로 어떻게 처리되는지를 탐구하기 위해 언어 특화 뉴런을 식별하고 분석하였다. 기존 LAPE(Language Activation Probability Entropy)의 한계를 극복하기 위해 활성화 점수와 엔트로피를 함께 활용한 새로운 뉴런 선별 방법을 제안하였다. 제안된 방법을 LLaMA-3.1-8B와 Qwen3-8B 모델에 적용하여 다국어 일반 문장과 수학 문제 데이터를 기반으로 한국어 특화 뉴런을 식별하였다. 실험 결과, 한국어 입력은 내부적으로 영어 표현으로 변환된 뒤 영어 추론 능력을 활용하여 처리되는 경향이 관찰되었다. 또한 한국어 수학 문제를 풀 때 모델은 한국어 뉴런만을 활용하지 않고, 영어에서 학습된 추론 뉴런과 강한 상관 관계를 보이며 이를 결합하는 양상을 보였다. 이러한 분석은 LLM의 한국어 능력 해석에 중요한 통찰을 제공한다.
-
기존의 문법 오류 수정 과제는 외국인 학습자가 작성한 텍스트로 구성된 언어 학습용 말뭉치에 초점을 맞추어 진행되어 왔다. 본 연구에서는 해당 과제를 특정한 도메인을 대상으로 한 전문 분야 어휘가 포함된 텍스트에서 문맥상 적절한 어휘를 선택하는 방향으로 확장한다. 관련한 데이터셋을 구축하고자 토큰 발생 확률을 기반으로 여러 사전 학습 모델의 결과를 종합해 유의어를 대체하는 방법을 사용하였다. 실험 결과, 유의어 대체 작업을 통해 구축된 자체 데이터셋은 기존 언어 학습자 말뭉치에 비해 더 어려운 작업임을 확인하였으며, 특히 대체한 유의어의 수가 증가할수록 그 성능 격차는 더욱 커졌다. 또한, 사용한 도메인별로도 도드라진 성능 편차가 나타나, 전문적인 텍스트 내에서의 유의어 대체 연구가 기존의 문법 오류 수정 과제를 보다 다양한 시나리오로 확장하는데 필요한 부분임을 강조한다.
-
본 연구는 전제와 가설 간의 함의 관계를 바탕으로 설명문을 생성하는 이중 단계 프레임워크를 제안한다. 제안된 시스템은 GRPO(Group-wise Reinforcement Policy Optimization) 기반 생성기와 리랭커로 구성된다. 생성 단계에서는 GRPO를 통해 다수의 후보 설명문을 생성하고, 보상 전략을 활용해 참조 설명문(참조 문장)과의 정합성을 강화한다. 이후 리랭킹 단계에서는 Softmax Cross-Entropy Loss 기반 모델이 후보군을 재배열하여 최적의 설명을 선택한다. 실험 결과, 본 접근법은 기존 모델 대비 설명문의 다양성을 유지하면서 정확성을 동시에 향상됨을 확인할 수 있었다. 이러한 방법론은 함의 분석뿐만 아니라 다양한 자연어 생성 및 텍스트 증강 과제로 확장 가능성을 지닌다.
-
최근 대형 언어 모델(LLM)의 성능 향상을 위해 Pretraining, Supervised Fine-Tuning(SFT), Alignment Tuning 등이 활용되고 있으며, 특히 SFT는 모델의 일반 지식을 특정 태스크에 맞춘 구조화된 답변으로 전환하는 과정이다. 그러나 효율적인 학습 데이터 선정 방법은 명확히 규정되어 있지 않으며, 데이터 양 증가만으로 성능이 보장되지 않고 전처리·샘플링·검수 과정에서 막대한 시간과 비용이 소요된다. 이를 개선하기 위해 기존 연구들은 프롬프트 기반 내재 지식 탐지 기법을 제안했으나, 다지선다에 한정되거나 프롬프트 변화에 민감하다는 한계가 있다. 본 연구에서는 이러한 한계를 극복하고자, 프롬프트에 영향이 없는 모델 레이어 벡터 간의 유사도를 기반으로 내재 지식을 탐지하는 기법을 제안한다. 이 기법은 입력에 대한 각 레이어의 출력 벡터와 최종 출력 벡터 간 유사도를 계산하여 데이터 인지도 벡터를 산출하고, 이를 바탕으로 Known/Unknown 데이터를 분류한다. 제안 기법은 다지선다를 포함한 다양한 영역에 적용할 수 있으며, 적은 데이터와 간단한 분류기 구조로도 데이터에 대한 모델의 Known/Unknown 여부를 분류한다. 다양한 평가를 통해 Unknown 데이터가 SFT 성능 향상을 유도하는 것을 확인하였으며 태스크의 특성에 따른 효과를 분석하였다.
-
대규모 언어 모델은 일반적으로 유용하고 무해하며 정직한 어시스턴트 페르소나로 설계되지만, 다양한 상황에서 의도하지 않은 페르소나 변화를 겪을 수 있다. 최근 연구에서는 자연어 특성 설명으로부터 페르소나 벡터를 자동으로 추출하여 언어 모델의 성격 특성을 모니터링하고 제어하는 방법이 제안되었으나, 실험이 영어 언어로 제한되었다는 한계가 있었다. 본 논문에서는 특정 언어에서 추출한 페르소나 벡터가 다른 언어의 프롬프트에서도 동일한 제어 효과를 나타내는지를 검증함으로써 페르소나 벡터의 언어 간 전이 가능성을 분석한다. 실험 결과는 한 언어에서 추출한 페르소나 벡터가 스티어링을 통해 다른 언어에서도 해당 특성을 효과적으로 제어할 수 있음을 보여주었다. 이는 다국어 환경에서 단일 페르소나 벡터만으로도 페르소나 제어가 가능함을 시사한다.
-
대규모 언어모델의 추론을 위한 프롬프트 엔지니어링 중 퓨샷 프롬프트는 미세조정 없이 추론할 수 있는 기법이다. 그러나 입력 프롬프트 길이의 증가는 전체 추론 과정에 요구하는 계산량과 메모리 사용량 증가를 야기해 지연을 발생시키고, 이는 사용자에게 직접적인 영향을 끼치는 치명적 요인이 된다. 따라서 본 논문은 입력 단계에서 임베딩 기반 클러스터링을 적용해 프롬프트 내 예시를 선별함으로써 길이를 줄이고, 성능과 효율 간 균형을 도모하는 기법을 제안한다. 구체적으로 k-means, spherical k-means, 응집형 계층적 클러스터링, 그리고 두 가지 PCA 기반 변형(PCA-32, PCA-95)과 결합한 spherical k-means를 포함한 네 가지 접근법을 평가하였다. 실험은 한국어 표준 평가 기반의 CLIcK 벤치마크에서 정확도, TensorRT-LLM 벤치마크 환경에서 지연, 최초 토큰 생성 시간, KV 캐시 사용량을 측정하였다. 그 결과, 원본 32-shot 프롬프트 대비 정확도 향상과 동시에 지연시간과 메모리 사용량 모두에서 절감 효과를 보였다. 본 연구는 프롬프트 최적화 관점에서 LLM의 효율적 활용 가능성을 제시하며, 향후 엔드투엔드(end-to-end) 모델 내부 임베딩 단계로의 확장 가능성을 시사한다.
-
검색증강생성(Retrieval-Augmented Generation, RAG) 시스템은 대규모 언어 모델(Large Language Model, LLM)의 지식 한계를 극복하는 방법으로 많이 사용되고 있다. 그러나 검색된 문서로부터 질문과 직접 관련된 증거 문장을 정확히 추출하는 것은 여전히 해결해야 할 도전 과제이다. 기존 연구들은 단일 문장 비교와 고정 임계치를 사용해 문맥 정보를 놓치고 불필요한 정보를 포함하는 한계를 보였다. 이를 해결하기 위해, 본 연구는 LLM이 가지고 있는 맥락 내 의미와 엔티티의 구조적 매칭을 결합한 2단계 ETC(Entity-enhanced Two-stage extractive Compression) 하이브리드 시스템을 제안한다. 1단계에서는 대규모 언어 모델로부터 전체 문장의 50%를 필터링한다. 2단계에서는 개체 인식 모델을 활용해 질문-답변 특화 엔티티 매칭을 통해 최종 증거를 선택한다. 또한, 동적 증거 문장 매칭 평가 방식을 도입하여 질문별 필요 증거 수에 맞춰 평가를 진행하였고, 멀티 홉 데이터셋 HotpotQA에서 F1-Score 기준 0.867, 단일 질문 데이터셋 TriviaQA에서 0.626을 달성해 기존 성능 대비 각각 4.6%, 17.2% 성능 향상을 보였다. 우리는 RAG 시스템의 문맥 압축 및 실용적 해결책을 제시하며, LLM의 의미적 이해와 구조적 매칭의 상호보완적 활용이 증거 추출 정확도를 크게 향상시킬 수 있음을 시사한다.
-
정보 검색에서 어휘 불일치 문제를 해결하기 위한 전통적인 질의 확장 기법은 문맥에 민감하여 성능 저하를 야기할 수 있는 한계가 있다. 이에 대한 대안으로 문서 자체를 보강하는 문서 확장 연구가 주목받고 있으나, Doc2Query와 같은 기존 방식들은 과도한 사전 처리 비용, 인덱스 크기 증가, 그리고 생성된 내용의 신뢰도 문제 등을 내포한다. 본 연구에서는 이러한 문제들을 완화하고 보다 구조적이고 효율적인 대안을 모색하기 위해, 문서를 청크 단위로 분할한 후각 청크에 대한 텍스트 데이터를 생성하여 검색의 효율성과 정확도를 동시에 향상시키는 방안을 제시한다. 제안하는 '청크지식생성모델'은 T5 기반의 멀티태스크 학습 구조를 채택하여, 각 문서 청크로부터 제목, 후보 질문을 동시에 생성하며 사용자 질의에 대한 주요 키워드를 추출한다. 이 방식은 단일 인코딩 및 두개의 디코딩 과정만으로 세 종류 의미 정보를 병렬적으로 생성 및 추출함으로써 연산 효율성을 극대화했다. 또한, 생성된 데이터는 검색 시스템의 추가 정보로 활용된다. 305개의 질의-문서 쌍에 대한 GPT 기반 평가를 수행한 결과, 제안한 모델을 적용해 검색을 수행한 결과 Top@10 기준 95.41%의 검색 정확도를 달성하며, 문서 청크 단위 검색 대비 월등한 성능을 보였다. 본 연구는 문서 청크에서 제목, 후보 질문을 동시에 생성해 검색 파이프라인에 적용하는 접근법을 제안하고, 정성 평가를 통해 검색 정확도 향상을 입증함으로써 대규모 정보 검색 시스템에 적용 가능한 실증적 근거를 제시한다는 점에서 의의가 있다.
-
본 연구는 다국어 다중레이블 혐오표현 탐지에서 언어-레이블 조합의 희소성으로 인한 성능 저하를 개선하기 위해, 공유 인코더(XLM-RoBERTa-base) 위에 언어별 분류 헤드(KO/EN)를 두는 멀티태스크 구조와 언어-레이블별 사후 보정(temperature scaling + 임계값 조정)을 결합한다. 한국어·영어 공개 데이터셋 6개를 9개 표준 타깃으로 정규화(총 225,839)하여 학습·평가하고, 평균 지표(Micro/Macro-F1)와 함께 최악 집단 지표(WG-F1:언어-레이블 최저 F1), 랭킹 지표(LRAP, PR-AUC)를 병기하였다. 동일 조건에서 제안 모델(언어별 헤드)은 공유 헤드 대비 Micro/Macro-F1=0.78/0.77(⟷0.76/0.75), WG-F1=0.37(⟷0.30)으로 적지만 일관된 우위를 보였다. 또한 사후 보정은 WG-F1을 +0.05~0.06 개선하면서 LRAP/PR-AUC의 성능 변화 없이 높아, 다중레이블 교차성에 영향을 주지 않고도 향상됨을 나타냈다. 결론적으로 언어별 헤드와 언어-레이블 보정이 다국어 환경에서 평균 성능을 유지하며 최악 집단 성능을 개선하는 실용적 대안임을 시사한다.
-
대규모 언어모델은 다양한 자연어처리 과업에서 높은 성능을 보였으나, 한국어와 같은 후치 중심 언어에서는 위치 편향과 환각 문제가 두드러진다. 본 논문은 질문 내 핵심어를 문두에 배치하는 어순 변형 전략을 제안하여, 한국어 질의응답에서 구조적 한계를 완화하고자 한다. 이를 위해 KLUE 기계독해 코퍼스를 기반으로 원본 질문과 변형 질문을 병렬적으로 구축하고, Llama-3.2-3B-Instruct 모델을 대상으로 Zero-/Few-Shot 환경에서 성능을 평가하였다. 실험 결과 전체적인 성능 개선은 제한적이었으나, 중·장문 질문에서 일관된 향상과 출력 분포 변화가 관찰되었다. 이러한 결과는 어순 변형이 한국어 질의응답에서 단순하면서도 효과적인 보완 전략이 될 수 있음을 시사한다.
-
거대 언어모델 (LLM)은 형태적 패턴과 문맥적 단서 중 어느 것에 더 의존할까? 최근 영어 중심의 철자 뒤섞임 (Typoglycemia) 실험은 특정 언어가 형태적 혹은 문맥적 정보 중 어떤 정보에 더 의존하는지 분석한다. 이는 subword를 표현 계층으로 변환하는 거대 언어모델 학습에 매우 중요한 정보이다. 본 연구에서는 철자 뒤섞임 현상 (Typoglycemia)을 한국어로 확장하여, 자모 단위 뒤섞기(scrambling)가 거대 언어모델에서의 의미 복원에 미치는 영향을 분석한다. 이를 위해 본 연구에서는 철자 뒤섞임에 따른 문맥 이해도 실험을 진행하기 위해 KorQuAD 1.0에서 1,000개 문맥-질문-정답 쌍을 추출해 뒤섞기(0-4회)와 문맥 마스킹(0-100%)을 교차 적용하고, Qwen3 계열 모델을 실험에 사용하였다. 실험 결과 한국어 LLM은 영어보다 문맥 단서에 더 크게 의존했으며, 뒤섞기는 2회 이상부터 성능 저하 폭이 포화되는 경향을 보였다.
-
대규모 언어 모델(LLMs)은 다양한 작업에서 뛰어난 추론 능력을 보여주지만, 종종 불필요한 추론 단계를 생성하여 연산 효율성을 저해하는 문제가 존재한다. 기존 연구들은 추론 과정의 '정확성' 평가에 주로 집중해왔을 뿐, 불필요한 추론 과정을 탐지하고 평가하려는 시도는 부족했다. 본 연구에서는 이러한 공백을 메우기 위해, 수학적 추론 과정에 의도적으로 불필요한 단계를 삽입한 새로운 평가 데이터셋을 구축했다. 이를 활용하여 ReasonEval, Qwen2.5-Math-PRM과 같은 최신 평가 모델들이 불필요한 과정을 식별해낼 수 있는지 그 성능을 체계적으로 검증했다. 실험 결과, 이들 모델들은 불필요한 과정과 필수적인 과정을 구분하는 데 상당한 어려움을 겪는 것으로 나타났으며, 이는 현재 평가 패러다임의 명백한 한계를 드러낸다.따라서 본 연구는 LLM의 추론 과정 평가에 있어 불필요한 과정 탐지라는 새로운 차원을 제시한다.
-
최근 언어 모델의 활용은 단순한 질의응답을 넘어 검색 증강 생성(RAG; Retrieval-Augmented Generation)과 에이전트 구조로까지 확장되면서, 복잡한 문제 해결에서의 추론 능력 향상이 중요한 과제로 부상하고 있다. 이를 위한 대표적 접근인 사고흐름(Chain-of-Thought, CoT)은 중간 추론 단계를 서술함으로써 성능 개선에 기여하지만, 기존 방식은 구조적 일관성이 부족하고 도메인 특화 문제에 취약하다는 한계를 지닌다. 본 연구에서는 이러한 한계를 극복하기 위해 *절차적 사고흐름(Procedural CoT)*을 제안한다. 본 방법은 사고 과정을 네 단계 절차로 조직화하고, 감독 강도에 따른 점진적 학습을 통해 모델이 구조화된 추론 방식을 학습하도록 유도한다. Qwen3-4B 모델을 대상으로 KMMLU 및 KMMLU-HARD 벤치마크에서 평가한 결과, 제안된 방법은 KMMLU에서 Non-Think/Think 환경 각각 0.440/0.294, KMMLU-HARD에서 0.239/0.238의 정확도를 달성하였다. 이는 기존 접근 대비 유의미한 성능 향상을 보여주며, 절차적 구조를 도입한 사고흐름 기법의 효과성을 입증한다.
-
본 연구는 한국어 텍스트의 원본 의미를 보존하면서 문체를 다양화하는 스타일 변환 기반 합성 데이터 생성 방법을 제안하고, 세 단계의 평가로 그 효과를 검증한다. 문장 재작성을 위해서는 2014-2025년 기업 기술 블로그 중 Engineering 범주에서 수집한 데이터를 사용했다. 문장 생성은 GPT-5와 Gemma-3-27B-IT로 동일한 프롬프트를 적용해 재작성 했다. 생성된 문장의 평가는 먼저, 규칙 및 유사도 기반 지표(충실도, 유창성, 길이 적절성, 정보 보존)와 종합 점수를 기준으로 기준에 도달했는가를 평가했다. 그 다음으로 GPT-4o에 의한 평가 방식(LLM-as a judge)으로 평가한 후 마지막으로 다수 참여자(280명)와 단일 참여자의 집중 평가로 나누어 구성해서 평가했다. 규칙 및 유사도 기반 평가에서는 GPT-5(0.79)가 종합과 정보 보존 등에서 Gemma-3-27B-IT(0.72)를 상회했다. GPT-4o 모델에 의한 평가에서는 Gemma-3-27B-IT가 가장 높은 점수(0.77)를 기록했으며, GPT-5(0.75)와 Human(0.73) 순으로 나타났다. 다수 참여자 평가는 더 사람과 같다고 판단하는 문장을 선택하는 설문 방식으로 이루어졌는데 Gemma-3-27B-IT모델을 425번(36.0%), GPT-5를 421번(35.6%), 사람이 작성한 문장을 336번(28.4%) 선택했다. 두 모델 모두 높은 비율로 사람이 작성한 문장보다 더 사람이 쓴 문장 같다고 평가된 것이다. 이어서 진행한 단일 참여자 비교 실험에서는 357문항을 설문했는데 Gemma-3-27B-IT를 297번(83.2%) 선택하고, GPT-5는 38번(10.6%), 사람이 작성한 문장은 22번(6.2%)를 선택하여 모델이 생성한 문장을 선택하는 경향이 더 두드러졌다. 결론적으로, 위의 실험을 통해 IT 기술 문서와 같은 전문 영역의 한국어 도메인에서 스타일 변환을 통한 합성 데이터의 실용 가능성과, 평가 설계에 따라 달라지는 모델 간 우열의 해석 틀을 제시했다는 점에 의의가 있다.
-
본 논문에서는 유학생 생활에 필요한 정보(금융, 보험, 생활지원, 학칙 등) 도메인의 원천 문서를 수집하고, 문서의 비정형·이질적인 형식을 정규화하여, 구조화된 데이터로 변환한다. 이후 GPT 모델(gpt-4o-mini)을 활용한 프롬프트 엔지니어링으로 다국어 멀티턴 질의응답 데이터셋을 구축한다. 이때 합성 파이프 라인을 설계하여 한국어·영어·우즈벡어 3개 언어로 자연스럽고 일관적인 데이터를 생성한다. 외국인 유학생의 초기 정착 지원을 위한 챗봇 시스템에 적용하여 제안하는 데이터 구축 방법론의 가능을 보였으며, 향후 다양한 언어권으로 도메인을 확장하여 실사용성을 제시하고자 한다.
-
최근 다국어 기계번역 모델은 단일 모델로 수십 개 이상의 언어를 동시에 지원할 수 있는 잠재력을 보여주고 있다. 그러나 새로운 언어를 확장하는 과정에서 기존 언어 성능이 저하되는 치명적 망각(catastrophic forgetting) 문제가 여전히 중요한 도전 과제로 남아 있다. 이러한 성능 저하는 실제 서비스 환경에서 특히 치명적이며, 모델 확장의 의미가 훼손되고 번역 시스템의 신뢰성 또한 저하될 수 있다. 본 연구는 리허설(rehearsal) 기반 학습과 모델 병합(model merging) 기법을 적용하여, 모델 구조를 변경하거나 복잡한 방법론에 의존하지 않고도 기존 언어 성능을 유지하면서 새로운 언어 확장이 가능함을 실험적으로 검증한다. 구체적으로, Qwen2.5 기반 1.5B 번역 모델을 기존 10개 언어에서 16개 언어로 확장하여 평가한 결과, Merged model은 기존 언어 성능을 COMET 기준 99.7% 유지하면서도 신규 언어에서 chrF 기준 7.7-10배, COMET 기준 31-38%의 향상을 달성하였다. 본 연구는 실제 서비스 환경에서 다국어 번역 모델의 확장 가능성과 실용성을 높이는 데 기여한다.
-
본 연구는 한국어 대규모 언어 모델(LLM)의 장문 이해(long-context understanding) 능력을 평가하기 위한 새로운 벤치마크를 제안한다. 기존의 벤치마크들은 주로 영어 데이터에 국한되어 있고, 평가 환경이 고정적이어서 모델의 잠재적 취약점을 진단하기 어렵다는 한계가 있었다. 이를 해결하기 위해 본 연구에서는 한국어와 영어를 모두 지원하는 벤치마크를 구축했으며, 특히 제어 가능한 평가 설정(controllable evaluation setting)을 핵심 기능으로 제공한다. 이 설정을 통해 문맥의 길이와 중요 정보의 위치를 자유롭게 조절하고, 모델 유형(Base, instruction-tuned)에 따라 최적화된 프롬프트 형식을 적용함으로써, 모델의 장문 이해 능력을 심층적으로 분석할 수 있다. 본 연구의 실험을 통해 제안하는 벤치마크 활용하여 다양한 한국어 모델의 장문 이해 능력을 비교 분석이 가능함을 보였다. 또한, 본 벤치마크가 문맥 길이에 따른 성능 변화를 정확히 파악하고 모델 유형별 특성에 맞는 공정한 평가가 가능함을 확인했다. 본 벤치마크와 평가 환경은 연구 커뮤니티의 발전을 위해 아래의 링크에서 공개적으로 이용 가능하다.
-
본 연구는 기술-산업 분류 체계 간 매핑의 설명 가능성을 확보하기 위해 6하 원칙 기반의 다축 근거 택소노미를 구축하고 적정 규모를 탐구하였다. 특허 분류(IPC)와 한국표준산업분류(KSIC)를 참조하여 세부 항목을 확장·정제하였으며, AI HUB 특허 데이터셋을 통해 포괄성과 최소성을 검증하였다. 분석 결과 약 10개 항목 구성이 효율성과 포괄성의 균형을 가장 잘 충족하는 것으로 나타났다. 제안된 택소노미는 블랙박스적 매핑을 넘어 설명 가능하고 검증 가능한 연계 분석 체계로의 전환에 기여할 것으로 기대되며, 향후 다양한 기술·산업 도메인에 확장 적용되어 연계 분석의 신뢰성과 활용성을 제고하는 데 중요한 토대를 제공할 것이다.
-
대규모 언어 모델(LLM)의 활용이 확산되면서, 사실적 오류 탐지 중심의 기존 평가만으로는 포착하기 어려운 편향성 (bias) 문제가 중요한 과제로 부상하고 있다. 특히 한국어 LLM 성능 향상과 소버린 AI(Sovereign AI) 구축을 위한 데이터·벤치마크 개발 논의 속에서, 편향성 문제는 기술적·사회적 신뢰성과 직결된다. 본 연구는 이러한 맥락에서 한일 간 민감한 영유권 쟁점인 '독도'를 사례로, LLM의 편향성을 질적으로 탐구하였다. 구체적으로, 특정 입장을 유도하는 78개의 프롬프트를 GPT-4o에 입력하고, 생성된 답변을 정성적으로 분석하였다. 그 결과, 답변은 표면적으로 사실에 부합하더라도 '사실 오류 및 오도하는 용어 사용', '편향된 서술', '모호한 서술', '부적절한 근거 제시', '프롬프트 프레이밍의 영향', '일방적 입장 전달' 등 다양한 유형의 편향성을 드러냈다. 본 연구는 학술적·사회적으로 민감한 주제에서 LLM 편향성의 구체적 양상을 제시했으며, 한국의 사회문화적 맥락을 반영한 새로운 편향성 탐지 데이터셋 구축 필요성을 강조한다는 점에서, 향후 신뢰도 높은 소버린 AI 개발을 위한 의의를 가진다.
-
본 연구는 대규모 언어 모델 기반 기계번역에서 한국어 성별 편향을 분석하였다. 성 중립 언어를 거친 번역 실험에서 한국어 번역은 주로 남성 대명사 '그'를 선택했으며, 일부 여성성과 연관된 단어에서만 '그녀'가 나타났다. 이러한 결과는 한국어 번역에서 성 중립 표현이 충분히 반영되지 않음을 보여주며, 성 편향을 보다 정밀하게 측정할 수 있는 보완적 실험 설계의 필요성을 나타낸다.
-
본 논문에서는 법률 도메인에 특화된 경량 RAG(Retrieval-Augmented Generation) 시스템인 KoLex를 제안한다. KoLex는 데이터 수집·정규화, 청킹·접두, 임베딩·벡터DB, 검색·재순위, 생성·근거 인용, 컨피던스 보정·사후 검증의 여섯 단계로 구성된다. 제안 시스템은 법률 데이터의 이질성을 극복하고 최신성을 유지하며, 생성 결과에 대한 출처 인용 정밀도를 향상시킨다. 실험 결과, KoLex는 한국어 법률 언어 이해 벤치마크(KBL)에서 일반적인 방법론 대비 최대 약 44.1% 성능 향상을 보이며 성능을 입증했다.
-
대규모 언어 모델의 안전성 연구에서 탈옥(Jailbreak)은 학습을 통해 부여 받은 안전 정책과 제약을 우회하여, 원래 차단되어야 할 유해한 응답을 끌어내는 공격 기법이다. 기존 AutoDAN 기반 연구는 개별 프롬프트마다 최적화된 공격 접미어를 자동으로 생성하는 연구로 영어 환경에 한정되어 있었으나, 한국어 환경에서의 취약성에 대한 실증 연구는 부족했다. 본 논문에서는 다양한 카테고리의 유해성 질의와 이에 대응하는 목표 응답으로 구성된 기존 Harmful Behaviors 데이터셋을 한국어로 번역하고 정제하여 한국어 유해 행동 데이터셋을 구축하고, 한 모델에서 최적화된 프롬프트별 공격 접미어가 다른 모델에서도 동일한 공격 성능을 보이는지를 확인하고자 하였다. 본 논문에서 구축한 한국어 유해 행동 데이터셋을 활용해 AutoDAN 방식의 탈옥 공격을 수행한 결과, Exaone-3.0/3.5/4.0 모델에서는 최종 공격 성공률(ASR)이 약 5% 수준으로 낮게 유지되었으며, Zephyr-7B는 28.1%, YanoljaNEXT는 25.96%로 상대적으로 높은 성공률을 보였다. 이는 한국어 환경에서 모델별 취약성이 상이함을 보여주며, 일부 모델은 여전히 AutoDAN 공격에 취약하다는 점을 보여주고 있다.
-
최신의 생성형 AI는 대규모 언어를 기반으로 구축되어 사용자의 질문 의도를 정확히 파악하여 해당 질문에 맞는 결과를 생성한다. 본 연구에서는 이런 생성형 AI를 이용하여 전문용어의 상위어를 추천하는 알고리듬을 연구하였다. 전문용어의 상위어를 학습하기에 앞서, 기구축된 UWordMap의 일반 어휘 및 전문용어의 뜻풀이와 단답형의 상위어 정보를 파인튜닝 학습하여 상위어 표제어와 뜻풀이를 추천하는 기반 학습 모델로 결정했다. 이 모델을 이용하여, 기 구축된 어휘망에서 3개의 상위어(부모, 조부모, 증조부모)를 상위어로 학습하고, 평가용 어휘에 대해 각각 3개 상위어의 {표제어, 뜻풀이}를 생성시켜, LLM이 생성한 뜻풀이와 상위어의 유사도를 결정하는 전문분야별 기준점을 설정하였다. 이 유사도 기준점을 이용하여 상위어가 결정되지 않은 전문용어의 상위어를 추천하는 알고리듬을 개발하였다 이 알고리듬으로 추천한 유의어 1, 2 레벨 상위어에 대해 사람이 수작업 검증한 결과 text-embedding-3-small과 KURE 임베딩모델에 대해 각각 80.5%, 82.7%가 적합하였다.
-
본 연구는 대규모 언어모형(LLMs)이 한국어 구문에서 부사절(advcl)을 처리하는 능력을 평가한다. 실험 결과, LLM은 구문분석 한계를 보이며 전통적 분석기(Stanza)에 비해 UAS, LAS 성능이 현저히 낮았다. 그러나 문장 변환과 같은 생성 과업 성능에서는 일정수준 이상의 결과를 보였으며, 특히 부사절을 명시적으로 제시했을 때 더 정확하고 의미 보존력이 높은 문장을 산출하는 부사절 단서 효과가 확인되었다. 다만 문장이 길어질수록 성능이 저하되는 경향이 나타났는데, 이는 한국어 부사절의 복잡한 장거리 의존성과 관련된 것으로 해석된다. 이러한 결과는 LLMs의 구문적 취약성과 동시에 프롬프트 설계에 따른 개선 가능성을 함께 시사한다.
-
최근 자연어처리 분야에서 가장 주목받는 연구 분야는 대규모 언어 모델과 그 응용이다. 그동안 여러 형태의 언어 모델이 등장하였지만, 현재는 주로 디코더를 기반으로 하는 생성형 언어 모델들만이 주목을 독차지하고 있다. 이로 인해 생성 NER task에 관한 연구에서도 특별한 고려 없이 디코더 기반 언어 모델을 채택하여 실험에 사용하는 모습을 발견할 수 있었다. 이 연구에서는 sequence-to-sequence 언어 모델이 디코더 언어 모델보다 정보 추출 task에서 더 잘 작동할 것이라는 가설을 검증하고자 하였다. 이를 위해 생성 NER task를 정의하고 실험을 진행하였다. 생성 NER task는 스팬 혹은 토큰을 각 NER 범주에 분류하는 기존 분류 기반 NER task와 다르게 키는 범주이고 그 키의 값은 해당 범주에 속하는 스팬의 리스트로 구성된 JSON 객체를 생성하는 task이다. 이 task에서 크기가 비슷한 flan-t5-base와 gemma-3-270M 모델을 완전 미세조정하여 성능을 비교하였으며, sequence-to-sequence 구조가 decoder-only 구조보다 이 task에서 더 효율적임을 시사하는 결과를 얻었다. 또한 인코더를 먼저 학습한 후에 전체 모델을 학습하는 2단계 학습법을 적용하면 sequence-to-sequence 모델의 성능을 높일 수 있음을 보였다.
-
대화 맥락 추론은 대화 내용에 관한 정확한 추론 결과를 구별하는 학습을 통해 인공지능 모델이 문맥을 이해하고 향상된 대화 능력을 가지도록 하는 태스크이다. 최근 대형 언어모델의 비약적인 발전은 대화 맥락 추론에서 비교적 만족스러운 성능을 달성하는데 도움을 주었으나, 여전히 복잡한 대화 흐름이 존재하는 경우를 포함해 이를 완벽히 수행하는 것은 요원한 상황이다. 본 연구에서는 대형 언어모델의 대화 맥락 추론 능력 향상을 위해 외부 모델을 활용해 리즈닝 피드백을 생성한 후, 이를 통한 학습 데이터의 점진적 개선을 통해 모델을 효율적으로 학습하는 RFL (Reasoning Feedback-Based Learning) 기법을 제안한다. RFL 방법론은 리더보드 제공 베이스라인보다 7.93%, 객관식 질의응답(Multiple-Choice Question; MCQ) 형태를 이용한 미세조정 방식보다 1.32% 향상된 95.04%의 정확도를 달성하여 그 효과를 입증하였으며, 이는 모델이 부정확한 추론을 수행하며 어려움을 겪는 케이스들을 극복하는데 있어 보다 강력한 외부 모델이 제공한 상세 피드백이 핵심적 역할을 수행할 수 있음을 보인다. 마지막으로 세부 추가 실험을 통해 RFL을 수행하는데 활용되는 데이터셋의 구성이 해당 알고리즘의 성공적인 적용에 큰 영향력을 가짐을 드러낸다.
-
대규모 언어모델(LLM)의 발전으로 기계가 생성한 텍스트는 점차 인간이 작성한 글과 유사해지고 있다. 그러나 여전히 두 집단의 텍스트 사이에는 미묘한 구조적 차이와 이질감이 존재한다. 본 연구는 담화구문분석(Discourse Parsing)을 활용하여 인간과 LLM이 작성한 글의 내재적 구조를 명시적으로 비교하고, 그 차이를 정량적으로 규명한다. 실험 결과 CNN/DailyMail 요약문을 대상으로 한 실험에서, LLM이 작성한 글은 인간의 글에 비해 더 반복적이고 획일적인 담화 패턴을 보임을 확인하였다. 추가적으로, 이러한 담화 구조 특징을 검출 모델에 통합할 경우, 인간 작성 텍스트와 LLM 생성 텍스트의 구별 성능을 향상시킬 수 있음을 논의한다. 본 연구는 담화 수준의 구조적 신호가 LLM 텍스트 탐지 과제에서 중요한 역할을 할 수 있음을 실험적으로 보여주며, 향후 다양한 언어와 장르로의 확장을 위한 기반을 제공한다.
-
본 연구는 한국어 시각적 질의응답 과제(VQA)에서 이미지 설명 활용 가능성을 검증하고 효과적인 사용 전략을 제시한다. 기존 영어 기반 연구에서는 이미지 설명 활용이 멀티모달 언어 모델(MLLMs)의 VQA 추론 성능을 향상시키는 효과적인 방법으로 입증되었으나, 한국어 연구에서는 아직 충분히 검증되지 않았다. 이를 보완하기 위해 우리는 이미지 설명만을 제공하는 Text-only 조건과 원본 이미지와 이미지 설명을 활용한 Multimodal Auxiliary 조건을 설정하여 VQA 성능을 비교하였다. 또한 단순히 설명을 추가하는 수준을 넘어, 이미지 설명 내 문장 배치 순서와 정보 밀도 수준을 조정하여 활용 방식에 따른 성능 차이를 분석하였다. 실험 결과 Text-only 조건은 MLLMs이 생성한 한국어 설명 품질의 한계로 성능 저하가 나타났으나, Multimodal Auxiliary 조건에서는 일관된 성능 향상을 보였다. 특히 질문 관련성이 높은 문장 배치와 정보 밀도는 추가적인 성능 개선을 이끌었다. 이러한 결과는 이미지 설명 활용 전략이 한국어 VQA에서도 유효함을 보여주며, 설명 품질이 제한적인 상황에서도 구조적 최적화를 통해 성능을 향상시킬 수 있음을 시사한다.
-
Rule Discovery for NLI Training Data Generation Using CoT-Based Automatically Generated Explanations본 연구는 자연어 추론(NLI) 데이터 생성을 위한 자동 규칙 발굴 과정에서 설명 데이터 의존성을 제거하는 새로운 접근법을 제안한다. 기존 연구들은 e-SNLI와 같이 사람이 작성한 설명 데이터가 포함된 코퍼스에만 적용 가능하여 확장성에 제약이 있었다. 이를 극복하기 위해, LLM과 CoT 프롬프팅을 활용하여 설명을 자동 생성하고, 이를 기반으로 신규 규칙을 발굴하는 프레임워크를 제시한다. 제안된 프레임워크는 (1) Out-of-Distribution(OOD) 탐지를 통한 신규 규칙 후보 데이터 수집, (2) Chain-of-Thought(CoT) 기반 설명 자동 생성, (2) 클러스터링 및 임계값 기반 클러스터 필터링, (4) CoT 기반 자동 규칙 생성 및 검증으로 구성된다. 실험 결과, 본 방법은 수작업 설명 기반 접근법과 비교하여 핵심 규칙(VS, CA, RG, EI)을 안정적으로 재발견하였으며, 추가적으로 CA의 하위 유형인 IG, AFR을 도출하였다. 특히, 사람이 작성한 설명이 전혀 없는 데이터셋에서도 CoT 자동 설명만으로 규칙 발굴이 가능함을 입증하였다. 이러한 결과는 제안된 프레임워크가 비용·시간 효율성을 제공할 뿐만 아니라, 다양한 도메인과 저자원 환경에서 확장성과 신뢰성을 동시에 확보할 수 있음을 보여준다.
-
생성형 AI 활용에 대한 기존 리스크 분류 체계는 범용적인 유해성을 중심으로 설계되어, 금융권에서의 도메인 특수성을 충분히 반영하지 못한다는 한계가 존재하였다. 이에 금융권 AI 서비스 환경에서 발생할 수 있는 리스크들을 체계적으로 분석하고, 금융권 특수 유해 카테고리 5가지를 제안하였다. 각 카테고리를 반영한 300개 규모의 벤치마크 데이터셋을 구축하여, 대표적인 오픈소스 생성형 AI 모델(LLaMA, Qwen)을 대상으로 안전성을 평가하였다. 평가 결과, LLaMA-3.1-8B 모델에서 비교적 높은 안전성(78.7%)을 보였으며, 두 모델 모두 '투자 자문/추천' 카테고리에서 높은 취약성을 드러냈다. 이러한 결과는 금융권에서 생성형 AI의 도입 시 범용적인 안전성 기준만으로는 충분하지 않음을 시사하며, 금융 도메인 특화 안전성 벤치마크의 필요성을 강조한다. 본 연구의 데이터셋과 소스 코드는 GitHub1)에서 확인할 수 있다.
-
대규모 언어모델(LLM) 기반 논문 검색과 요약은 본문과 불일치하는 할루시네이션으로 신뢰성에 한계가 있다. 본 연구는 논문을 facet 단위로 구조화한 Paper Facet Knowledge Graph (PaF-KG)를 제안한다. PaF-KG는 Title-Metadata-Content의 3계층 구조를 따르며, Content는 Factual(방법론, 입력/출력, 결과, 지표)과 Conceptual(배경, 문제, 연구격차, 기대효과, 결론, 한계, 향후 과제)로 구분된다. 모든 facet은 정보-근거 쌍으로 기록되어 추출된 정보와 원문 근거를 함께 제공한다. 우리는 2018년부터 2025년 4월까지 ACL, EMNLP, NAACL에 게재된 21,096편 논문을 대상으로 LLM 기반 추출 파이프라인을 통해 PaF-KG를 구축하였다. 프롬프트 개선과 정성 평가를 통해 추출 품질을 향상시켰으며, 최종 데이터셋을 공개한다. PaF-KG는 논문 구조화를 통해 연구자가 본문을 빠르게 이해할 수 있도록 지원하며, 근거 기반 검색·요약·검증, 정보추출 모델 평가, 교육 및 출판 워크플로우 등 다양한 활용 가능성을 제공한다.
-
학술 논문의 서론은 연구의 문제 정의, 배경 맥락, 기여점 제시를 담당하는 핵심 구성 요소로, 논문의 첫인상과 평가에 직접적인 영향을 미친다. 그러나 서론 작성과 개선은 연구자에게 높은 인지적 부담을 주며, 특히 비영어권 저자들은 연구 공백 (gap) 제시나 기여점 명시에서 어려움을 겪는다. 기존 문법·스타일 교정 도구나 교육용 수사 분석 시스템은 문장 수준의 오류 수정에는 효과적이지만, 서론의 논리적 구조 강화나 연구 맥락 제시까지는 지원하지 못한다. 최근에는 대형 언어모델 (LLM)을 활용한 글쓰기 지원 도구가 등장했으나, 이들 역시 일반적 초기본 작성·문장 편집 중심으로 설계되어 서론 특화 개선을 다루는 사례는 드물다. 본 연구는 학술 논문 서론 개선을 위한 새로운 데이터셋 IntroPref를 제안한다. 우리는 2020-2025년 ACL Anthology 주요 학회의 arXiv 다중 버전 논문에서 초기 버전과 최신 버전 서론을 매핑하여 총 704쌍의 서론을 구축하고, 대규모 언어모델을 활용해 초기 서론을 개선하기 위한 구체적 피드백을 자동 생성하였다. IntroPref는 단순한 편집 이력을 넘어 개선 방향을 학습할 수 있도록 설계되었으며, 선호도 학습, 피드백 기반 서론 개선 등 서론 특화 글쓰기 지원 연구의 출발점을 제공한다.
-
본 연구는 북한 로동신문에 실린 외교적 담화를 코퍼스 언어학적 방법으로 분석한 것이다. 연구의 주요 목표는 북한 외교 담화에서 나타나는 언어적 특성과 정치적 메시지를 규명하는 것이다. 이를 위해 2025년 5월부터 9월까지의 북한 외교 담화 자료를 수집하여 코퍼스를 구축했다. 분석 방법으로는 문체 분석, 담화 분석, 정보 밀도 분석을 사용하였다. 문체 분석 결과, 북한 신문은 공식적이고 반복적인 어휘 사용이 특징이며, 문장 구조는 긴 문장과 종속절 사용이 많았다. 담화 분석에서는 북한 담화가 영웅적 내러티브와 적대적 세력 구도를 강조하는 경향이 나타났다. 또한, 정보 밀도 분석에서 경제·정치 기사에서는 정치적 메시지와 이데올로기적 주장에 집중하며, 문화 기사에서는 감정적 표현이 반복되어 정보 밀도가 낮아지는 경향을 보였다. 북한은 자주성과 반제국주의의 메시지를 강조하며, 내부 독자에게 체제의 정당성과 리더십을 강조하려는 목적을 실현하고 있었다. 본 연구를 통해 북한 외교 담화의 언어적 특성을 체계적으로 분석하고, 이를 통해 북한의 정치적 메시지와 이데올로기적 목표를 명확히 확인할 수 있었다.
-
RAG(Retrieval-Augmented Generation) 시스템의 핵심인 임베딩 모델을 제한된 GPU 환경에서 미세조정시 학습 데이터의 질의 유형에 모델이 과적합되는 질의 과적합(Query Overfitting) 문제가 발생한다. 이로 인해 목표 도메인에서의 검색 성능이 오히려 저하될 수 있다. 본 논문에서는 이러한 문제의 원인을 질의-문서 간 단어 및 위치 편향으로 분석하고, 이를 해결하기 위해 검색 대상 문서만을 활용하는 새로운 데이터 증강 프레임워크를 제안한다. 제안하는 프레임워크는 문서의 어휘적, 구조적 특성을 활용하여 생성한 긍정 질의와 하드 네거티브 질의(Hard Negative Query)를 대조 학습에 사용한다. 이를 통해 모델이 단순한 단어 매칭을 넘어 질의의 의미적 의도를 파악하도록 유도한다. 제한된 GPU 환경에서 실험한 결과, 모든 벤치마크에서 제안 기법은 목표 도메인의 대화형 질의에 대한 검색 성능을 향상했으며 타 도메인에서의 성능 저하는 없음을 실험으로 보여 과적합 완화를 증명했다. 또한 본 연구는 실무 환경의 자원 제약 하에서 데이터 중심 접근법을 통해 임베딩 모델의 도메인 특화 성능을 효과적으로 향상할 수 있음을 보인다.
-
최근 정신 건강 문제의 확산으로 상담 수요가 급격히 증가하면서 의료 서비스 접근의 한계를 보완하기 위한 AI 기반 상담 시스템의 필요성이 대두되고 있다. 그러나 기존 시스템은 개인의 임상 상태를 충분히 반영하지 못해 정서적으로 부적절한 응답과 사실성이 결여된 응답을 생성할 수 있으며, 이로 인해 사용자에게 심각한 정신적 피해가 발생할 수 있다. 이러한 문제를 완화하기 위해 의료 전문가의 검토가 필요하며, 이는 추가적인 비용 부담으로 이어진다. 본 연구에서는 이러한 한계를 해결하기 위해 질환 분류, 대응 전략, 의학적 근거를 통합하여 AI 상담 응답의 안정성과 신뢰도를 향상시키는 CASCADE를 제안한다. 실험 결과, CASCADE는 공감성(Empathy), 논리적 일관성(Logical Coherence), 지도력(Guidance) 측면에서 3점 만점 기준 각각 2.95점, 2.89점, 2.72점을 받아 공감적인 톤을 유지하면서도 임상적으로 타당한 조언을 생성하였음을 입증하였다. 본 연구는 질환 인지-전략 매칭-의학 근거 결합을 통한 안전한 AI 상담의 가능성을 제시하며, 실제 임상 맥락을 고려한 책임 있는 대화형 시스템 설계의 기준을 마련한다.
-
본 논문은 한국어 실사용 맥락-특히 온라인 커뮤니티의 구어·축약·오탈자와 장문 중심의 문서 단위 구조-를 정밀 반영하는 검색 벤치마크 KomuRet를 제안한다. 우리는 나무위키 450,250개 문서를 기반으로 의미적 밀집도와 어휘 빈도를 결합한 층화·샘플링과 질의 관련성 기반 큐레이션을 통해, 1,454개 질의와 50,222개의 후보 효율성 높은 문서 풀을 구축하였다. 질의는 키워드/의문문/커뮤니티 3종 양식으로 자동 생성·재작성하고, LLM-as-judge 사후 검증으로 정답 문서의 신뢰도 및 혼동 후보를 유지하면서 난이도와 정합성을 보정하였다. 문서 단위 검색 실험에서 한국어 특화 임베딩은 전반적으로 다국어 임베딩을 상회했으나 일관된 절대 우위로 수렴하지 않았고, Recall@k와 MRR/NDCG@k 간의 상이한 순위는 회수 능력과 상위 후보 미세 순위화 능력이 분리된 축임을 시사하였다. 특히 BGE-M3-ko가 주요 지표에서 최상위권을 보였고, multilingual-e5-large는 다국어 계열에서 우수한 순위 기반 성능을 확인하였다. KomuRet는 정확도와 지연·메모리·인덱스 크기 등 효율 지표를 함께 고려해 한국어 검색기의 실사용 적합성과 분포외 일반화를 진단하는 표준 시험장으로 기능하며, 공개를 통해 한국어 임베딩·검색 모델의 공정 비교와 반복 개선을 촉진한다.
-
Seong-min Lee;He-eun Kim;Dong-young Lee;Min-seon Kang;Min-jae Kim;Soo-yeol Yang;Young-sook Hwang 625
본 논문은 복잡한 Multi-Hop(다단계 추론) 질의 처리를 효율화하기 위해 Vector RAG(Retrieval-Augmented Generation)와 Graph RAG를 유기적으로 결합하는 적응형 멀티에이전트 시스템을 제안한다. 기존의 Vector RAG 시스템은 다단계 추론 과정에서 컨텍스트 손실(contextual loss) 및 관계 정보 활용 미흡으로 인해 성능 한계를 보였다. 제안하는 프레임워크는 이러한 한계를 극복하기 위해 Graph RAG의 관계 정보를 Vector RAG 질의 정제에 활용하는 양방향 정보 전달 메커니즘과 플레이스홀더 기반 컨텍스트 전파 메커니즘을 도입했다. 또한, TriageAgent, OrchestratorAgent, DataGathererAgent, ProcessorAgent로 구성된 멀티에이전트 아키텍처를 통해 질의의 복잡도와 유형에 따라 최적의 검색 전략을 동적으로 선택하게 함으로써 시스템의 유연성을 극대화하고, 이와 더불어 사전 점검(pre-check) 메커니즘을 통해 불필요한 연산을 사전에 차단함 으로써 전체적인 시스템의 효율성을 향상시키고자 하였다. 시스템의 성능은 식품 산업 리서치 도메인을 대상으로 2-hop에서 4-hop 수준의 복잡성을 가진 200개의 테스트 질의를 사용하여 평가하였다. 특히 "집중호우가 농산물 가격에 미친 영향"과 같이 명확한 인과관계 체인 분석이 요구되는 질의에서, Vector RAG의 세부적이고 풍부한 정보와 Graph RAG의 구조적인 관계 정보가 상호 보완적으로 작용하여 기존 RAG 시스템 대비 향상된 검색 정확도와 추론 성능을 보임을 확인하였다. -
본 연구는 저자원 언어 환경에서 멀티모달 안전성 데이터셋 구축을 위한 번역 전략을 비교, 분석하였다. 기존의 영어 기반 멀티모달 안전성 데이터셋인 VLGuard를 바탕으로 구글 번역기와 Gemini 2.5 Pro 기반 현지화 번역을 수행하고 Gemini 2.5 Flash 모델을 활용해 안전성 평가를 진행하였다. 실험 결과, 영어 원시 데이터는 공격 성공률(ASR) 0%를 기록한 반면, 두 번역본에 모두에서 동일한 수준의 성능 저하가 관찰되었다. 이는 모델의 안전성 성능이 언어별로 상이하다는 것을 의미한다. 또한 구글 번역본에 대해 모델이 현지화 번역본보다 높은 적극적 응답 거부율을 보여 실제 사용자들의 문체와 비슷한 구어체, 일상어가 안전성 성능에 영향을 미칠 수 있음을 확인하였다.
-
대규모 언어 모델(LLM)의 활용 범위가 확장되면서, 모델이 단순한 텍스트 생성을 넘어 실제로 동작하는 소스 코드를 산출하는 사례가 늘고 있다. 이로 인해 모델이 생성한 코드를 안전하고 정확하게 실행·검증할 수 있는 환경의 필요성이 커지고 있다. 그러나 기존 온라인 저지나 가상 머신 기반 실행 시스템은 주로 교육이나 대회 목적에 최적화되어 있어 연구 환경에서는 한계가 있다. 특히 무거운 가상화 구조로 인한 높은 실행 오버헤드와 특정 플랫폼 및 외부 API에 대한 종속성은 대규모 반복 평가가 요구되는 강화학습 환경에서 낮은 효율성의 주요 원인으로 지적된다. 이러한 제약은 코드 생성 모델을 대규모로 학습하는 과정에서 동적 평가를 수행하는 데 큰 걸림돌이 된다. 본 논문에서는 이러한 한계를 극복하기 위해 CoEx(Code Execution Library)를 제안한다. CoEx는 Python 기반 경량 코드 실행 라이브러리로, Docker 격리 환경을 활용해 안정성을 확보하면서도 가벼운 작동 방식을 통해 반복적이고 대규모로 수행되는 코드 검증을 효율적으로 지원한다. 이를 통해 다양한 언어로 생성된 코드를 안전하게 실행·평가할 수 있으며, 코드 생성 연구와 강화학습 기반 모델 개발을 위한 대안을 제공한다.
-
유머는 개인의 경험과 상황적 맥락에 따라 다르게 해석된다. 본 연구는 이러한 유머의 주관적 특성과 사회문화적 맥락의 영향을 확인하기 위해, 시대별 한국어 유머를 대상으로 인간과 언어 모델의 선호도 평가를 진행하였다. 실험 결과, 20대는 비교적 최신 유머를 선호하며, 불일치가 뚜렷하거나 상황적 맥락이 드러나는 유머를 재미있어 하고, 50대는 다양한 시대의 유머를 전반적으로 긍정적으로 수용하는 경향을 보였다. 이는 연령과 경험이 유머 선호에 중요한 영향을 미친다는 점을 시사한다. 또한 GPT-5는 2010년대 유머를, Gemini-2.5-pro는 1960-1970년대 유머를 상대적으로 선호했으며, 두 모델 모두 1980년대 유머에 대해서는 낮은 선호도를 보였다. 본 연구는 사람과 언어 모델이 유머를 이해하는 방식의 차이를 확인하고, 시대와 경험이 만들어낸 유머 코드의 형성을 살펴보았다는 점에서 의의를 지닌다.
-
한국어 풍자 탐지는 발화자의 의도와 문맥 해석을 요구하지만, 기존 데이터셋은 규모와 도메인 다양성, 설명 능력 측면에서 한계가 있었다. 본 연구는 이를 보완하기 위해 맥락-응답-라벨 설명의 4중 구조를 갖춘 총 4,800건의 다중 도메인 데이터셋을 구축하였다. 데이터는 SNS 댓글, 리뷰, 일상 대화 등 다양한 환경을 반영하며, 짧은 맥락 기반 발화와 풍자·비풍자 설명을 포함하도록 설계되었다. 구축된 코퍼스를 활용해 KoBERT 분류기와 BLOSSOM-3B (LoRA) 생성기를 비교한 결과, KoBERT는 최고 82.45% 정확도로 안정적 판별 성능을 보였고, BLOSSOM-3B는 상대적으로 낮은 정확도를 기록했으나 설명 생성 품질에서 BLEURT 0.388, GPT-4 평균 8.49점을 달성하였다. 이는 정확도에는 경량 분류 모델, 설명성에는 LLM이 강점을 가짐을 보여주며, 두 접근의 상보적 결합이 실제 응용에 유리함을 시사한다.
-
검색 증강 생성은 질문과 관련된 정보를 검색하여 맥락으로 사용함으로써 대형 언어 모델이 학습할 때 보지 못한 질문에도 답변할 수 있게 만든다. 하지만, 일반적인 검색 증강 생성은 단 한 번의 검색과 생성을 수행하기 때문에 복잡한 질의를 효과적으로 다루는 데 한계가 존재한다. 최근 연구에서는 복잡한 질의를 하위 질의로 분해하고, 반복적으로 검색과 생성을 수행하는 학습 기반 반복적 검색 증강 생성이 뛰어난 성능을 보여주었지만, 언어 모델의 반복 호출로 인한 높은 계산 비용이 요구된다. 이에 본 연구는 외부 분류기를 활용하여 성능을 크게 저하시키지 않으면서도, 토큰 소비량을 효과적으로 줄일 수 있는 방법을 제안한다.
-
거대 언어 모델(Large Language Models, LLMs)은 방대한 학습 데이터로 축적한 내재 지식과 사용자가 제공하는 외부 문맥을 결합하여, 질문의 의도에 맞는 답변을 생성한다. 그러나 내재 지식과 외부 문맥이 상충하는 지식 충돌 (Knowledge Conflict) 상황에서는 모델이 특정 지식이나 문맥에 과도하게 의존하는 편향성을 보이거나, 주어지는 문맥에 따라 응답이 달라지는 불안정성이 발생한다. 본 논문은 이러한 문제를 완화하기 위해, LLM 내부의 뉴런 기여도를 분석하여 내재 지식을 지지하는 뉴런과 외부 문맥에 민감한 뉴런을 각각 식별하고, 이들의 가중치를 강화·억제함으로써 사용자 의도에 맞게 응답을 생성하는 뉴런 제어 방법을 제안한다. 제안 방법은 한국어 지식 충돌 평가 데이터셋 (KoConQA)과 한국어 특화 언어 모델을 통해 검증되었으며, 실험 결과 모델의 내재 지식 지지성 강화 실험에서는 내재 지식 답변률이 64.90%에서 70.98%로 향상되었으며, 외부 문맥 수용성 강화 실험에서는 외부 문맥 답변률이 32.22%에서 37.83%로 향상되었다. 이는 지식 충돌 상황에서 뉴런 단위 제어를 통해 사용자 의도에 맞는 응답을 생성하고, 모델의 의사 결정을 제어할 수 있는 가능성을 입증한다.
-
대규모 언어 모델은 수학 문제 풀이와 같은 복잡한 추론 과제에서 우수한 성능을 보이지만, 막대한 연산 자원과 학습 데이터를 요구하여 실제 환경에서 활용하기 어렵다. 최근 소규모 LLM 모델을 이용한 지도학습과 강화학습 등을 이용한 연구가 진행되고 있으나 여전히 대규모의 자원을 요구한다는 문제가 발생한다. 이에 따라 본 논문에서는 자원 제약 환경에서 소규모 LLM 모델의 수학 문제 풀이 능력을 향상시키기 위해 GRPO 기반 강화학습에 언어 보상을 적용하는 방법을 제안한다. 1.5b 규모 모델을 대상으로 한 실험 결과, 언어 보상은 정답률에 큰 영향을 주지 않았으나 영어 출력 비율을 증가시켜 출력 언어의 일관성 제약 효과를 확인할 수 있었다. 이는 소규모 모델이 한국어 표현 능력에는 제약이 있더라도, 문제를 이해하고 영어로 추론을 수행할 수 있음을 시사한다.
-
본 연구는 주요 한국어 방언(경상, 전라, 제주, 충청)과 표준어 간 번역 태스크에서 거대언어모델의 성능을 평가하고, 그 격차의 원인을 분석했다. 이를 위해 제로샷 및 맥락 내 학습 환경에서 양방향 번역 실험을 수행했으며, 기존 평가지표의 한계를 보완하고자 보조 지표 DR-Sim(Directional Relative Similarity)을 제안했다. 실험 결과, 방언 간 성능 격차는 화자 규모보다 표준어와의 형태적 거리와 강한 상관관계를 보였다. 또한, 맥락 내 학습이 제로샷과 비교해 전반적인 성능을 크게 향상시켰으나, 이 근본적인 격차를 해소하지는 못했다. 본 연구는 기존의 제주 방언 중심 연구에서 벗어나, 한국어 다방언 번역 성능을 최초로 체계적으로 측정하고 격차의 핵심 원인을 규명하여 후속 연구의 토대를 마련했다는 데 의의가 있다.
-
현재 널리 사용되는 다지선다형 질의응답 평가는 객관적인 측정이 가능하다는 장점이 있지만, 모델이 정답을 모르는 상황에서도 반드시 선택을 하도록 강제하는 근본적인 한계를 가진다. 이러한 평가 환경은 모델이 실제로는 지식이 없음에도 아는 것처럼 답변하는 '환각(Hallucination)' 현상을 유발할 수 있다. 본 연구에서는 기존 다지선다형 질의응답 벤치마크가 간과하고 있는 이러한 환각 현상을 확인하고, 이를 정량적으로 측정하는 새로운 평가 방법론을 제안한다. 제안하는 방법은 동일한 질문에 대해 "정답을 알지 못함"이라는 선택지를 추가하여, 해당 선택지가 없을 때의 답변과 비교 분석하는 방식으로 이루어진다. 만약 모델이 "알지 못함"을 선택할 수 있는 상황에서 해당 선택지를 고른다면, 선택지가 없던 상황에서의 답변은 지식에 기반한 것이 아닌, 강제된 선택에 의한 환각으로 간주한다. 본 연구는, 제안하는 방법론을 통해 Qwen3-4B와 같은 주요 언어모델을 KMMLU-Pro 데이터셋으로 평가한 결과, 26% 이상의 높은 비율로 환각 현상이 발생함을 실험적으로 증명한다. 또한, 지식 연쇄나 추론 강화와 같은 최신 방법론들도 이러한 유형의 환각을 완화하는 데는 뚜렷한 한계가 있음을 확인했다. 본 연구는 단순 정확도를 넘어 모델이 자신의 지식 한계를 인지하는 능력을 평가하는 새로운 기준을 제시하며, 향후 언어모델 벤치마크 설계에 대한 중요한 관점을 제공한다.
-
본 논문에서는 대학 입시 면접의 정성적-비정형적 질문 확대와 준비 과정의 비효율성을 해결하기 위해 거대언어모델을 활용한 맞춤형 면접 질문 생성 프레임워크를 제안한다. 생활기록부 기반으로 긍-부정 요인을 극대화한 요약과 코멘트를 도출한 뒤, 이를 토대로 layered prompting 기법을 적용하여 질의응답 데이터셋을 생성한다. 생성된 데이터는 거대언어모델 기반 평가(LLM-as-Judge) 및 Human evaluation을 통해 검증되며, 긍-부정 요인 극대화 단계를 통해 맥락 적합성과 변별력이 향상됨을 실험적으로 입증하였다. 제안 방법은 실제 면접의 맥락을 반영한 고품질 데이터셋을 구축함으로써, 대학 입시 면접 준비의 몰입도와 실효성을 높이는 기반을 제공한다.
-
거대 언어 모델(LLM)을 기반으로 한 생성형 Al의 급속한 발전과 함께 최근 AI 윤리 및 안전성 문제가 중요한 화두로 떠오르고 있다. 안전한 AI는 다양한 유해한 데이터를 탐지하고 이에 적절히 대응할 수 있어야 한다. 이러한 배경 속에서 최근 혐오 표현 탐지에 관한 연구가 활발히 이루어지고 있다. 본 연구에서는 혐오 표현 탐지를 회피하기 위해 의도적으로 노이즈가 삽입된 텍스트에 주목하여 LLM이 이에 대해 얼마나 강건한지를 검증하고자 한다. 이를 위해 에어비앤비(Airbnb) 숙박 후기 중 한국어로 작성된 노이즈 텍스트를 수집하고, 이를 LLM에 입력하여 정상 텍스트로 복원하도록 하는 노이즈 해독 작업을 수행하였다. 본 연구의 의의는 실제 환경에서 발생하는 의도적 텍스트 변형 사례를 활용해 LLM의 언어적 강건성을 평가하고 검증했다는 데 있다.
-
Seoyoon Park;Sohee Kim;Minseon Kim;Younggyun Hahm;Chunghee Lee;Junho Lim;Joeun Kang;Chanhyuk Yoon;Hansaem Kim 694
본 논문은 2025 국립국어원 인공지능(AI) 말평 경진대회를 통해 한국어 및 한국 문화이해 능력을 평가한 결과를 보고한다. 대회는 △ 한국어 어문 규범 기반 생성 과제와 △ 한국 문화 질의응답 과제로 구성되었으며, 총 255개 팀이 2,870개 모델을 제출하였다. 평가 결과, 규범 기반 생성 과제에서는 검색 전략과 근거 활용 능력이 성능 차이를 만들었고, 문화 질의응답 과제에서는 다단계 추론과 프롬프트 최적화가 효과적으로 작용하였다. 이번 대회는 한국어와 한국 문화 이해에 대한 인공지능 모델의 현황과 한계를 진단하고 향후 평가체계 개선의 방향을 제시한다는 것에 의의가 있다. -
대규모 언어 모델은 다양한 분야에 걸쳐 영향을 확대하고 있으며 이에 따라 윤리적 대응과 안전성 확보에 관한 연구의 중요성이 더욱 부각되고 있다. 다만, 안전성 평가를 위한 데이터셋의 구축은 여전히 한계가 존재한다. 본 연구는 안전성 데이터셋을 효과적으로 마련하기 위해 한국어와 한국 문화적 맥락을 반영하는 현지화(localization) 방안을 설계하고 이를 적용하여 안전성 평가에서의 유효성을 확인한다. 그 결과 단순 기계 번역을 넘어선 현지화 과정을 통해 안전성 평가 데이터셋으로서의 유효성을 검증하였으며 응답 유형 분석을 통해 잠재적 위험 가능성을 확인하였다.
-
한국어에서는 접속사·어미·생략 등 담화 표지가 다양해 암시적 관계가 빈번하고, 전통적 NLI 라벨(함의/모순/중립)만으로는 방향성 있는 연결 품질을 통제하기 어렵다. 또한 소형 LLM은 추론 안정성과 형식 일치에 취약하다. 이에 본 연구는 한국어 문장 쌍의 관계를 순접·역접·양립으로 판별하는 실전형 과제를 해결하기 위해, 담화 표지(접속사) 기반 데이터 증강, Chain-of-Thought (CoT), 라벨 스팬 중심 손실을 결합한 경량 학습 방법을 제안한다. 학습은 Unsloth 기반 LoRA 미세조정으로 수행하고, 추론 시에는 구조화된 출력을 생성한 뒤 파싱으로 최종 라벨을 확정한다. 제공된 한국어 문장 관계 코퍼스에서 정확도(Exact Match)로 평가한 결과, kanana-1.5-8B-base 모델이 원본 데이터에서 87.83으로 instruct 모델 84.58보다 높은 성능을 보였다. 관계별 접속사를 3개씩 추가해 CoT를 적용하며 base 모델이 89.78까지 성능이 향상되었고, 라벨 스팬 손실을 더했을 때 경계 사례에서의 오분류가 감소하며 가장 안정적인 성능을 보였다. 결과적으로 제안 기법은 제한된 GPU 환경에서도 재현 가능한 소형 LLM의 정확도·일관성 개선 경로를 제공하며, 요약·대화·RAG 등 한국어 응용에서 문장 연결 품질을 실질적으로 높일 수 있음을 보여준다.
-
익명성이 보장된 일부 온라인 게임과 커뮤니티에서는 무분별한 부적절 발언이 언어폭력과 범죄로 이어지는 사례가 속출하여 사회적 논쟁으로 대두되고 있으며, 건전한 소통 환경을 구축하기 위해 발화 문장에서 부적절 발언을 탐지하는 기법에 대한 연구의 필요성이 요구된다. 최근, 한국어 말뭉치를 학습하여 자연스러운 한국어를 구사하는 대규모 언어 모델과 생각의 연결고리 기법이 떠오르고 있지만, 부적절 발언 탐지 연구에서는 관련된 연구가 부족한 실정이다. 이 연구에서는 합리적인 사고를 수행하고 추론 과정에서 발생하는 문제점을 방지하기 위해 결론 도출을 위한 사고 관점을 미리 정의하는 소프트 귀납적 편향을 제안한다. 또한, 제안된 방법을 적용하여 한국어 대규모 언어 모델을 미세 조정하고, 학습 방법에 따른 모델의 성능을 정량적으로 비교 분석함과 동시에 모델의 출력을 정성적으로 평가하였다. 실험 결과, Kanana-1.5 모델에서 평균 정확도 87.0046을 달성하여 단순 지도학습 대비 약 3.89% 개선된 성능을 보였다. 이는 제안된 방법이 대규모 언어 모델의 지식을 단순 모방하는 것을 넘어, 추론 관점의 제약을 통해 정밀하고 일관된 판단을 가능하게 하는 것을 시사하며, 이러한 방법이 부적절 발언 탐지에 효과적임을 입증한다.
-
본 연구에서는 self-feedback 과정을 GRPO(Group Relative Policy Optimization) 기반 강화학습 프레임워크에 결합한 방법을 제안한다. 기존의 연구들은 주로 프롬프트 수준에서 self-feedback을 유도하는 데 그쳤으며, 이를 학습 과정에 내재화하여 정답 개선에 기여하도록 설계한 사례는 부족하였다. 본 연구에서는 초기 응답, 자기 검증, 피드백, 최종 응답으로 이어지는 4단계 출력 구조를 설계하고, 보상 함수에 구조적 일관성, 정답 정확성, 피드백 실효성을 반영하였다. 한국어 문법 질의응답 데이터셋을 활용한 실험 결과, 제안한 보상 구조를 적용했을 때 단순 프롬프트 기반 self-feedback 대비 성능이 향상되었으며, 실제 사례 분석에서도 피드백이 정답 개선으로 이어지는 양상이 확인되었다. 이러한 결과는 self-feedback을 보상 설계와 결합하여 학습에 내재화할 때, 언어 모델의 추론 능력을 보다 안정적이고 일관되게 향상시킬 수 있음을 보여준다.
-
한국어 대화는 생략, 어순 변화 등이 빈번하게 나타나는 고맥락적 특성이 있어 대규모 언어 모델(LLM)이 발화를 독립적으로 이해하기 어렵다. 이를 해결하기 위한 기존의 불완전 발화 재작성(Utterance Rewriting) 기법은 발화를 맥락에 의존하지 않고 이해할 수 있는 형태로 변환하지만, 발화 재작성 자체에만 초점을 두어 실제 다운스트림 과제 성능 향상 효과는 제한적이었다. 본 연구에서는 마음 이론(Theory of Mind; ToM)을 도입하여, 발화 재작성을 단순한 문장 보정이 아닌 과제 수행 모델이 요구하는 필수 요소를 복원하는 공감적 재구성으로 확장한다. 이를 위해 발화 재작성 모듈과 과제 수행 모듈로 구성된 TOUR(Task-Oriented Utterance Rewriting)를 제안하여, 강화 학습 기반의 다양한 보상 체계를 통해 재작성된 발화가 실제 과제 성능 향상에 기여하도록 학습한다. 실험 결과, 제안한 방법이 기존의 불완전 발화 재작성 접근법보다 다양한 다운스트림 과제에서 더 높은 성능을 달성함을 확인하였다.
-
비전-언어 모델(VLM)은 다양한 이미지-텍스트 이해에서 띄어난 성능을 보였으나 실제 환경에서 잡음이 있거나 오해를 유발하는 지시사항이 존재할 경우 일반화 성능이 저하되는 한계를 보인다. 본 연구에서는 이미지-텍스트 조합의 강건성을 향상시키기 위해 하드 네거티브 프롬프트와 LLM 기반 오류 주입과 수정을 활용한 Adversarial Correction 프레임워크를 제안한다. 제안 방법 첫 번째는 instruction prompt와 error injection prompt을 활용해 하드 네거티브 문장과 수정 근거를 체계적으로 생성하는 데이터 생성 파이프라인이고, 두 번째는 정답 캡션과 적대적으로 생성된 네거티브를 함께 활용하는 모델 파인튜닝의 두 단계로 구성된다. 실제 이미지-텍스트 태스크에서의 실험 결과 Adversarial Correction은 특히 혼란스럽거나 상충하는 텍스트 설명이 주어지는 조건에서 VLM의 일반화 성능을 크게 향상시킴을 확인하였다. 본 연구는 실제 환경에 적용 가능한 강건한 멀티모달 모델 학습에 있어 하드 네거티브 감독의 중요성을 보여준다.