2026.04.14(Mis)alignment의 기술: 파인튜닝 방법이 LLM의 안전 정렬을 해제하고 복구하는 메커니즘 -- 종합 분석 보고서
The Art of (Mis)alignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training
Rui Zhang, Hongwei Li, Yun Shen, Xinyue Shen, Wenbo Jiang, Guowen Xu, Yang Liu, Michael Backes, Yang Zhang · UESTC, Flexera, CISPA Helmholtz Center for Information Security, Nanyang Technological University
6가지 파인튜닝 기법을 4개 LLM에 적용해 오정렬(공격)과 재정렬(방어)의 비대칭 역학을 분석하고, ORPO가 공격에, DPO가 방어에 가장 효과적임을 밝힌 체계적 연구
LLM-safetymisalignmentfine-tuningDPOORPOLoRAadversarial-attack
2026.04.10ALTO: 이기종 LoRA 학습 워크로드를 위한 적응적 튜닝 및 오케스트레이션 -- 종합 분석 보고서
ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads
Jingwei Zuo, Xinze Feng, Zien Liu, Kaijian Wang, Fanjiang Ye, Ye Cao, Zhuang Wang, Yuke Wang · Rice University
다중 LoRA 하이퍼파라미터 튜닝을 통합 시스템 워크로드로 재구성하여, 조기 종료, 배치 실행, 어댑터 병렬화, 계층적 스케줄링으로 최대 13.8배 속도 향상을 달성하는 ALTO 시스템 분석
LoRAhyperparameter-tuningdistributed-trainingGPU-schedulingmulti-LoRA
2025.04.09LLM 생성 피어리뷰 탐지: 종합 분석 보고서
Detecting LLM-Generated Peer Reviews
Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah · Carnegie Mellon University, Harvard University
간접 프롬프트 인젝션과 통계적 워터마킹을 결합하여 LLM이 생성한 피어리뷰를 높은 정확도로 탐지하는 프레임워크 분석
LLMpeer-reviewdetectionwatermarking