Ohse AI LabOHSE AI LAB
RL 포트폴리오 전략 비교 차트
🤖 AI 연구

월간 종합 블로그: 2025년 9월 — RL 포트폴리오의 이론적 한계와 새로운 수학적 도구의 등장

오세에이아이연구소··29분 읽기

월간 종합 블로그: 2025년 9월 — RL 포트폴리오의 이론적 한계와 새로운 수학적 도구의 등장

매달 쏟아지는 수백 편의 AI·금융 논문 속에서 꼭 알아야 할 흐름을 골라 전달합니다. 2025년 9월, 518편의 논문 중 핵심 15편을 5가지 테마로 정리했습니다.


들어가며

"강화학습(RL)으로 포트폴리오를 관리하면 인간보다 잘할 수 있을까?"

이 질문에 대해 2025년 9월의 연구는 꽤 냉정한 답을 내놓습니다. 이번 달 최상위 논문(composite 77.3, 월간 최고점)은 "거래 비용과 현실적 마찰을 반영하면, RL 포트폴리오 전략이 단순 근시적 최적화(MO)에 진다"는 이론적 증거를 제시합니다. 무려 Malliavin 미적분이라는 고급 수학으로 증명한 결과죠.

하지만 이건 "RL은 쓸모없다"는 결론이 아닙니다. 오히려 "RL의 목적함수와 제약을 더 정교하게 설계해야 한다"는 방향을 가리킵니다. 같은 달에 샤프비율을 직접 최적화하는 MDP 틀, 레짐을 인식하는 적응형 RL, 그리고 생성 모델 기반 포트폴리오 최적화까지 — RL의 한계를 정확히 짚으면서도 그 한계를 넘으려는 시도가 동시다발적으로 등장했습니다.

이번 달은 이런 흐름을 중심으로 다섯 가지 이야기를 풀어보겠습니다.


테마 1: "RL 포트폴리오, 실전에서 왜 손실을 낼까?" — 강화학습의 한계와 대안

왜 흥미로운가?

강화학습으로 주식 포트폴리오를 관리하면 시장의 복잡한 패턴을 학습해서 더 높은 수익을 올릴 수 있을까요? 학술 논문과 실제 운용 사이에는 커다란 갭이 있습니다. 백테스트에서는 멋진 성과가 나오는데, 실제 매매를 하면 수수료·슬리피지·시장 충격 때문에 성적이 급격히 떨어지는 거죠.

2025년 9월, 이 문제를 수학적으로 정면 분석한 논문이 등장했습니다.

연구가 한 일

대표 논문(Myopic Optimality, 2509.12764)은 RL 포트폴리오 전략이 왜 실전에서 손실을 내는지를 이론적으로 증명합니다. 핵심은 현실의 '마찰'을 제대로 반영했다는 점입니다:

  • 거래 비용: 매매할 때마다 수수료·스프레드·시장 충격이 발생
  • 청산 비용: 포트폴리오를 정리할 때 가격이 밀리는 현상
  • 마크투마켓: 매일 평가손익을 현실적으로 인식하는 회계 처리

연구진은 Malliavin 미적분(Clark-Ocone 공식)이라는 고급 수학 도구를 사용해 정책 그래디언트와 리스크 섀도우 가격을 유도했습니다. 그리고 HJB(Hamilton-Jacobi-Bellman) 방정식과 KKT(Karush-Kuhn-Tucker) 조건을 통합하는 프레임워크를 구축했죠.

무엇을 발견했나?

결론은 명확합니다:

거래 비용과 현실적 마찰을 반영하면, RL은 단순 근시적 최적화(Myopic Optimization)보다 낮거나 음수의 수익률, 더 높은 분포, 더 큰 비용, 더 무거운 CVaR을 보인다.

RL이 "환상적 이익(phantom profit)"을 만들어내지만, 현실의 비용 구조를 감안하면 오히려 돈을 잃는다는 거죠.

RL을 완전히 버려야 할까?

아닙니다. 같은 달에 나온 두 논문이 RL의 가능성을 보여줍니다.

샤프비율 MDP 최적화(2509.00793)샤프비율을 MDP의 직접 목적함수로 다루는 최적화 틀을 제시합니다. 기존 RL이 단순 수익률을 maximize하면 변동성은 무시하는 문제가 있었는데, 이 논문은 "위험 대비 수익"을 정책학습의 중심 목표로 끌어올립니다. 분수형 목적함수를 M2V(Mean-to-Volatility)로 변환하고 반복 정책반개로 수렴을 보장합니다.

레짐 적응형 RL(2509.14385)거시경제 레짐 전환을 명시적으로 반영한 RL 프레임워크를 제안합니다. 시장이 '상승장'에서 '하락장'으로 전환될 때 자동으로 자본을 재배치하는 거죠. GARCH 기반 변동성 패널티를 보상 함수에 결합해 꼬리위험까지 제어합니다.

이 테마의 공통 인사이트

이번 달 RL 관련 논문들은 한 가지를 분명히 말합니다: "RL 자체가 문제는 아니다. 목적함수와 제약 설계가 문제다." 거래비용·레짐 전환·리스크 패널티를 반영하지 않으면 어떤 화려한 알고리즘도 실전에서 실패합니다. 반대로 이 구조적 제약을 RL 학습 과정에 내장하면, RL은 여전히 강력한 도구가 될 수 있습니다.


테마 2: "AI가 알파를 캐낸다" — GFlowNet과 생성 모델로 팩터 발굴

왜 흥미로운가?

퀀트 투자의 핵심은 '알파(alpha)'입니다. 시장 수익률을 초과하는 수익을 가져다주는 예측 신호죠. 전통적으로 퀀트 연구자들이 경험과 직관으로 알파를 발견했다면, 최근에는 AI가 자동으로 알파를 '발굴'하는 연구가 활발합니다.

그런데 기존 RL 기반 알파 생성에는 큰 문제가 있었습니다: 보상이 너무 희소(sparse)하다는 겁니다. 알파 공식 하나를 완성해야만 "이게 좋은 알파인지 나쁜 알파인지"를 알 수 있거든요. 마치 수학 시험을 한 번만 치르고 성적을 평가받는 것과 같습니다.

2025년 9월, 이 문제를 근본적으로 해결하려는 논문이 나왔습니다.

연구가 한 일

AlphaSAGE(2509.25055)GFlowNet(Generative Flow Network)을 이용해 알파 식 탐색을 구조적으로 유도합니다.

GFlowNet은 좀 특별한 생성 모델입니다. 일반적인 생성 모델은 "가장 높은 확률의 샘플"을 만들려 하지만, GFlowNet은 "보상에 비례하는 확률로 다양한 샘플"을 만듭니다. 이 특성이 알파 탐색에 왜 중요할까요?

알파는 "하나의 최적 공식"이 아니라 "다양한 유효한 공식들"이 필요합니다. 시장 환경이 변하면 어제의 최적 알파가 오늘은 작동하지 않을 수 있거든요. GFlowNet은 다양한 알파를 골고루 탐색하면서도, 구조적으로 의미 있는 것들에 집중합니다.

그림: AlphaSAGE의 전체 구조. (a) AlphaGenerator: 빈 상태에서 시작해 AST(추상 구문 트리)를 반복적으로 구성. RGCN 인코더가 노드와 그래프 표현을 생성하고, GFlowNet이 다음 토큰을 확률적으로 선택합니다. (b) AlphaTrainer: 생성된 알파의 예측력을 평가하고 보상을 계산해 GFlowNet을 학습시킵니다. (c) AlphaTester: 학습된 알파 후보들을 실제 데이터로 검증합니다.

무엇을 발견했나?

AlphaSAGE는 기존 RL 기반 알파 생성 대비 세 가지 개선을 달성합니다:

  1. 희소 보상 완화: 부분적으로 완성된 알파에서도 보상을 추정할 수 있어, 학습 효율이 크게 향상
  2. 구조 제약 강화: 알파의 수학적 구조(연산자 우선순위, 변수 타입 등)를 학습 과정에 내장
  3. 탐색 안정성: GFlowNet의 특성상 탐욕적(greedy) 최적화에 빠지지 않고 다양한 알파를 안정적으로 생성

같은 테마의 다른 연구

CAFPO(2509.16206)DRL(Deep RL)을 팩터 포트폴리오 구성에 적용합니다. 핵심 문제는 종목 유니버스의 변동성입니다. 주식이 상장·상폐하면서 상태공간이 끊임없이 변하는데, 이를 압축하는 Conditional Autoencoder를 제안합니다.

이 테마의 공통 인사이트

알파 발굴은 "더 똑똑한 AI가 더 좋은 알파를 찾는다"는 단순한 문제가 아닙니다. 탐색 공간의 구조를 얼마나 잘 반영하느냐, 보상 신호를 얼마나 풍부하게 만들 수 있느냐가 핵심입니다. GFlowNet과 Conditional Autoencoder는 각각 다른 방식으로 이 문제를 풀고 있지만, 공통적으로 "AI의 자유로운 탐색 능력과 금융 데이터의 구조적 제약을 결합한다"는 방향을 가리킵니다.


테마 3: "변동성 표면의 정밀 복원" — 메타러닝과 공적분으로 리스크를 읽다

왜 흥미로운가?

옵션 가격을 보면, 행사가격(strike price)과 만기(maturity)에 따라 '변동성 표면(IVS)'이라는 3차원 지형이 만들어집니다. 이 표면을 정확히 알면 옵션의 적정 가격을 매기고, 리스크를 관리하고, 헤지 전략을 세울 수 있습니다.

문제는 데이터가 항상 충분하지 않다는 것입니다. 유동성이 낮은 옵션에서는 호가가 드물게 들어오고, 매일 아침마다 이 표면을 새로 캘리브레이션해야 합니다. 이 과정이 느리고 불안정하면 리스크 관리가 흔들리죠.

연구가 한 일

VolNP(2509.11928)는 이 문제를 두 가지 원리로 해결합니다.

첫째, 메타러닝 관점: 하루하루를 개별 문제로 풀지 않고, 수많은 거래일에 걸쳐 "희소 호가 → 전체 표면"으로 가는 학습된 절차를 학습합니다. 테스트 시점에는 하루별 캘리브레이션 없이, 메타러닝된 네트워크가 바로 전체 IVS를 복원합니다.

둘째, 구조적 사전지식(Structural Prior): SABR 모형은 옵션 가격의 고전적 수학 모델입니다. 연구진은 SABR로 합성 IVS 데이터를 대량 생성하고, 이 위에서 신경망을 사전학습(pre-train)합니다. 그런 다음 실제 시장 데이터로 미세조정(fine-tune)합니다.

그림: VolNP의 학습 및 테스트 흐름. 실선은 계산 흐름을 보여줍니다: 역사적 데이터로 SABR을 캘리브레이션하고, SABR이 합성 IVS를 생성하며, VolNP가 사전학습 후 미세조정됩니다. 테스트 시점에는 희소 옵션 호가만으로 전체 IVS를 복원합니다.

무엇을 발견했나?

SABR 사전지식이 데이터 희소 구간에서 안정성을 크게 높입니다. 하루에 들어오는 옵션 호가가 10개 미만인 극단적 상황에서도 VolNP는 의미 있는 IVS를 복원합니다. 반면, 사전지식 없이 순수 데이터로만 학습하면 희소 구간에서 불안정한 표면이 나옵니다.

변동성을 더 정밀하게 읽는 두 가지 방법

변동성 공적분(2509.23533)변동성 자체를 공적분(cointegration) 관계로 봅니다. 개별 주식의 변동성과 지수 변동성이 장기적으로 같은 방향으로 움직인다는 사실을 활용해, VECM(Vector Error Correction Model)으로 포트폴리오 리스크를 예측합니다. S&P 500 데이터에서 검증한 결과, 기존 공분산 기반 추정보다 상당한 개선을 보입니다.

고유벡터 겹침(2509.25076)은 더 근본적인 질문에 답합니다: "표본 기간이 겹치면 공분산 행렬의 고유벡터가 얼마나 달라질까?" Girko linearisation과 local law라는 수학적 도구로 이 질문에 정확한 답을 제시합니다. 백테스트에서 훈련 기간과 테스트 기간이 겹칠 때 발생하는 정보 누수를 정량화할 수 있게 되는 거죠.

이 테마의 공통 인사이트

변동성 모델링에서 이번 달의 핵심 메시지는 "전통적 수리금융의 구조적 지식이 딥러닝과 결합하면 정밀도와 실용성이 동시에 향상된다"는 것입니다. SABR prior를 메타러닝에 결합하고, 공적분 구조를 변동성 예측에 활용하고, 고유벡터의 수학적 성질을 추정 오차 분석에 적용하는 — 이 모든 연구가 "AI가 금융 이론을 대체하는 것이 아니라, 금융 이론의 구조적 제약을 AI 학습에 내장하는 것"이라는 방향을 가리킵니다.


테마 4: "생성 AI가 포트폴리오를 설계한다" — 확산모델과 새로운 수학적 도구

왜 흥미로운가?

포트폴리오 최적화의 핵심은 "내일 수익률이 어떻게 될 것인가"를 추정하는 것입니다. 전통적으로는 평균과 공분산을 추정했고, 최근에는 시나리오를 생성하는 방법이 주목받고 있습니다. 2025년 9월에는 확산모델(diffusion model) — 이미지 생성 AI의 핵심 기술 — 이 포트폴리오 최적화에 직접 적용된 논문이 등장했습니다.

연구가 한 일

팩터 조건부 확산모델(2509.22088)은 자산별 팩터(기업 실적, 밸류에이션, 모멘텀 등)를 조건으로, 다음날 수익률의 교차단면 분포를 생성합니다.

핵심 구조는 Diffusion Transformer입니다. 각 자산의 팩터 벡터를 '토큰'으로 입력하면서, 토큰 간 어텐션으로 교차자산 의존성을 학습합니다. 이렇게 생성된 수익률 시나리오를 직접 포트폴리오 최적화에 연결합니다.

그림: 수정된 DiT(Diffusion Transformer) 아키텍처. 각 자산의 팩터 벡터가 토큰으로 입력되고, 확산 과정을 통해 다음날 수익률 분포가 생성됩니다.

DeFi에서도 같은 수학이

AMM 최적 철수 시점(2509.06510)은 이론적으로 더 깊은 연구입니다. DeFi(탈중앙화 금융)의 자동화 시장 조성자(AMM)에서 유동성 공급자(LP)가 언제 철수해야 최적인가를 최적 정지(optimal stopping) 문제로 정식화합니다.

LP는 거래 수수료를 벌지만, 가격 변동으로 인한 비영구적 손실(IL)에 노출됩니다. 이 논문은 LP의 가치함수가 HJB 준변분부등식을 만족함을 보이고, 점성해에서 유일성을 증명합니다. 이론적으로 깊지만, 결론은 실용적입니다: "감이 아니라 수학으로 철수 타이밍을 결정하라"는 것이죠.

그림: Euler 방법(파란색)과 Longstaff-Schwartz 방법(빨간색)으로 계산한 가치함수 비교. 왼쪽 패널은 시간 t=0에서의 가치함수 표면을, 오른쪽은 다양한 초기 준비금 Y에서의 단면을 보여줍니다.

극단 위험의 정밀한 수학

포트폴리오 크레딧 리스크(2509.19151)대편차 이론(large deviation theory)으로 포트폴리오의 극단적 손실 확률을 정밀하게 계산합니다. 다중 잠재 요인이 있는 threshold 신용위험 모형에서, 꼬리분포 형태(가우시안/정규변동/유계지지)에 따라 서로 다른 스케일링 법칙을 제시합니다. VaR과 ES(Expected Shortfall)의 2차 근사를 도출해, 스트레스 테스트와 자본요구량 계산에 직접 참고할 수 있습니다.

이 테마의 공통 인사이트

포트폴리오 최적화에서 이번 달의 큰 흐름은 "새로운 수학적 도구의 침투"입니다. 확산모델이 수익률 분포를 생성하고, 확률 제어 이론이 DeFi 철수 타이밍을 결정하고, 대편차 이론이 극단 위험을 정밀하게 계산합니다. 공통적으로, 기존의 평균-분산 프레임워크를 넘어서는 더 정교한 수학이 실전 포트폴리오 설계에 들어오고 있습니다.


테마 5: "자연어에서 실행 가능한 매매로" — LLM과 DeFi의 새로운 패러다임

왜 흥미로운가?

LLM(대형 언어 모델)은 텍스트를 이해하고 추론할 수 있습니다. 그렇다면 뉴스 기사, 재무제표, 시장 분석 리포트를 읽고 "지금 이 주식을 사야 할지 말아야 할지"를 판단할 수 있을까요?

2025년 9월, 이 질문에 대한 가장 직접적인 시도가 A티어에 진입했습니다.

연구가 한 일

Trading-R1(2509.11420)LLM의 추론 능력을 강화학습으로 금융 트레이딩 의사결정에 직접 연결합니다.

기존의 LLM 트레이딩 접근은 대개 이렇습니다: "뉴스를 읽고 감 сентим을 분석한 뒤, 그 결과를 별도의 의사결정 모듈에 전달." 그런데 Trading-R1은 end-to-end입니다. 자연어 분석 → 구조적 추론 → 실행 가능한 매매 결정까지 하나의 파이프라인으로 연결합니다.

핵심은 "해석 가능한 매매 추론"입니다. AI가 "이 종목을 산다"고 말하는 게 아니라, 왜 사는지, 얼마를 살지, 언제 팔지를 단계적으로 추론합니다. 강화학습으로 이 추론 과정을 최적화하되, 사람이 읽을 수 있는 형태로 유지합니다.

DeFi 보안: 온체인 사기 탐지

TON Rug Pull 탐지(2509.01168)는 다른 각도의 연구입니다. TON 블록체인의 DEX(탈중앙화 거래소)에서 rug pull(유동성을 빼앗아 도망치는 사기)을 조기 탐지하는 ML 프레임워크를 제시합니다.

TON은 텔레그램과 연동된 블록체인으로, 비동기 실행과 대규모 웹2 사용자 기반이 특징입니다. 이 논문은 TON의 두 대형 DEX(Ston.fi, DeDust)의 실제 거래 데이터를 분석해, 토큰 상장 직후의 유동성 패턴·소유자 집중도·거래 급증 등의 특징으로 rug pull을 조기에 감지합니다.

그림: Rug pull 문제의 일반적 개요를 보여주는 다이어그램. 정상적인 매수/매도 흐름과 rug pull에서의 악의적 유동성 이탈을 대비합니다.

이 테마의 공통 인사이트

LLM과 DeFi 연구의 공통점은 "AI가 금융 의사결정의 최종 단계까지 직접 참여하기 시작했다"는 것입니다. Trading-R1은 뉴스 분석이 아니라 매매 실행까지 end-to-end로 연결하고, Rug Pull 탐지는 온체인 데이터를 실시간으로 분석해 사기를 사전에 차단합니다. 아직 초기 단계이지만, "AI가 리서치만 하고 사람은 판단한다"에서 "AI가 판단까지 하고 사람은 검증한다"로 무게추가 이동하고 있습니다.


월 전체 Big Picture: "한계를 정확히 짚고, 그 한계를 넘는 새로운 도구들"

2025년 9월 코호트를 관통하는 하나의 큰 메시지가 있습니다.

"강화학습과 생성 AI의 한계를 정확히 이론적으로 짚으면서도, 그 한계를 넘기 위해 전통 수리금융의 구조적 지식을 AI 학습에 직접 내장하는 새로운 흐름이 시작되고 있다."

구체적으로 살펴보면:

  1. RL 포트폴리오에서는 거래비용·마찰을 반영하면 RL이 근시적 최적화에 진다는 이론적 증거가 나왔지만(77.3), 동시에 샤프비율 직접 최적화(68.8)와 레짐 적응형 RL(64.1) 같은 대안이 동시 등장했습니다.

  2. 알파 발굴에서는 GFlowNet이 보상 희소성과 탐색 안정성 문제를 구조적으로 해결하며(69.7), DRL 팩터 포트폴리오(64.0)가 상태공간 축소를 시도합니다.

  3. 변동성 모델링에서는 SABR 사전지식을 메타러닝에 결합한 IVS 복원(69.4), 변동성 공적분(67.9), 고유벡터 겹침(68.3) 등 전통 수리금융과 딥러닝의 결합이 정밀도와 실용성을 동시에 높이고 있습니다.

  4. 포트폴리오 최적화에서는 확산모델(68.2), 확률 제어(70.1), 대편차 이론(68.7) 등 새로운 수학적 도구가 기존 평균-분산 프레임워크를 넘어서고 있습니다.

  5. LLM·DeFi에서는 LLM 추론 기반 트레이딩 에이전트(67.3)가 A티어에 진입하고, 온체인 사기 탐지(65.3)가 DeFi 보안의 새로운 패러다임을 제시합니다.

이번 달 연구들은 한 가지를 분명히 말합니다. 금융 AI의 미래는 "더 큰 모델, 더 많은 데이터"가 아니라, 금융 이론의 구조적 지혜를 AI 구조에 얼마나 잘 녹여내느냐에 달려 있습니다.


함께하기

이런 최신 AI 금융 연구 소식을 매달 받아보고 싶으시다면:

  • 📬 구독: ohselab.com에서 뉴스레터를 신청하세요
  • 💬 상담: AI 기반 투자 전략에 대해 궁금한 점이 있으시면 ohselab.com에서 문의해 주세요
  • 🔔 팔로우: 최신 연구 동향을 놓치지 않도록 ohselab.com에서 팔로우하세요

더 알아보기

이 글에서 다룬 대표 논문들의 arXiv 링크입니다:

테마논문링크
RL 포트폴리오Myopic Optimality2509.12764
RL 포트폴리오Sharpe Ratio MDP2509.00793
알파 발굴AlphaSAGE (GFlowNet)2509.25055
변동성 모델링VolNP (메타러닝 IVS)2509.11928
변동성 모델링변동성 공적분2509.23533
포트폴리오팩터 조건부 확산모델2509.22088
포트폴리오AMM 최적 철수2509.06510
포트폴리오크레딧 리스크 LDP2509.19151
LLM 트레이딩Trading-R12509.11420
DeFi 보안TON Rug Pull 탐지2509.01168

📝 이 글은 2025년 9월 arXiv에 공개된 AI 금융 연구를 기반으로 작성되었습니다. 총 518편 중 관련성 필터를 통과한 193편, 그 중 최상위 등급(A) 15편을 5가지 테마로 분류했습니다.

AI 기술이 궁금하신가요?

오세에이아이연구소의 AI 연구와 제품에 대해 문의해주세요.

문의하기

관련 글

알파 자동 발굴 프레임워크
🤖 AI 연구

2026년 2월 AI 금융 연구 요약 — 알파를 자동 발굴하고 검증하는 시대

2026년 2월 arXiv에서 수집한 AI 금융 논문 중 주목할 5개 연구 테마를 정리합니다. LLM 트레이딩 에이전트 벤치마크, 자동 팩터 발굴, 베이지안 포트폴리오 최적화, 리스크 측정의 한계, 크립토 미시구조까지 — 이달의 키워드는 '자동화되고 검증 가능한 리서치 파이프라인'입니다.

18분 읽기
#AI 금융#트레이딩 에이전트#팩터 발굴
헤지 전략 누적 손익 비교
🤖 AI 연구

2025년 10월 AI 금융 연구 요약 — 더 정교한 모델이 아닌, 더 안전한 시스템

2025년 10월 arXiv에 공개된 AI 금융 연구를 5가지 테마로 정리합니다. 무차익 헤지 제어, LLM 에이전트의 정보 누수 검증, 실행 비용을 반영한 RL 포트폴리오, 비모수적 시장충격 추정, 지정학 리스크 분석까지 — 백테스트가 아닌 실거래 가능한 시스템을 향한 연구의 방향 전환을 살펴봅니다.

31분 읽기
#AI 금융#실행 가능한 시스템#무차익 헤지
공분산 추정 의사결정 기하학
🤖 AI 연구

공분산 추정, 틀리기만 하면 괜찮을까? — 포트폴리오 의사결정에 진짜 중요한 오차의 기하학

헤비테일 금융 데이터에서 최소분산 포트폴리오를 구성할 때, 공분산 추정 오차가 포트폴리오 성능에 실제로 영향을 미치는 '의사결정 기하학'을 소개합니다.

15분 읽기
#공분산 추정#최소분산 포트폴리오#헤비테일