Top 10 Emerging Technologies(WWF)

세계경제포럼(WEF)은 매년 사회와 경제에 큰 영향을 미칠 가능성이 있는 10가지 기술을 선정하여 '10대 신흥기술(Top 10 Emerging Technologies)' 보고서를 발간해오고 있다.  2024년에는 어떤 혁신적인 기술들이 소개되었는지 살펴보도록 하겠다. (보고서 원문 다운로드)  Top 10 Emerging Technologies of 2024 딥러닝 및 생성형 AI등 인공지능(AI)의 발전은 과학자들이 이전에는 불가능했던 발견을 가능하게 하며, 과학적 발견의 속도를 크게 향상시키고 있다 1. 과학적 발견을 위한 AI(AI for scientific discovery) AI의 혁신과 과학적 발견의 가속화 : 딥러닝 및 생성형 AI등 인공지능(AI)의 발전은 과학자들이 이전에는 불가능했던 발견을 가능하게 하며, 과학적 발견의 속도를 크게 향상시키고 있다. AI의 다양한 활용 가능성 : ①질병 진단・치료・예방, ②차세대 친환경기술 신소재 개발, ③생명과학발전, ④인간의 정신 이해 방식의 발전 가능성을 높게 예측하고 있다. 윤리적 고려사항과 연구 필요성 : AI 기술의 발전에 따라 개인의 프라이버시, 데이터 편향, 지적 재산권 등 윤리적 도전 과제가 존재하며, 이를 효과적으로 관리하기 위한 추가 연구가 필요다. 2. 개인정보 보호 강화 기술(Privacy-enhancing technologies) 데이터 접근과 프라이버시 문제 : 대규모 데이터셋에 대한 접근이 AI를 통해 연구와 혁신을 변화시키고 있지만, 프라이버시, 보안 및 데이터 주권 문제로 인해 고급 데이터의 공유와 사용이 제한되고 있다. 합성 데이터와 동형 암호화 기술 : 합성 데이터는 민감한 데이터의 패턴을 복제하면서 개인 정보를 포함하지 않아 데이터 공유의 새로운 가능성을 열어준다. 또한, 동형 암호화 기술은 원시 데이터에 직접 접근하지 않고도 암호화된 데이터를 분석할 수 있게 해준다. 의료 연구에서의 데이터 활용 : 특히 건강 관련 연구에서 개인과 공동체의 권리...

합성 데이터 필요성과 생성기술, 금융분야 활용 사례

1. 서론

1-1. 합성 데이터의 필요성

금융 분야에서는 개인 정보 보호와 프라이버시 이슈로 인해 실제 데이터를 활용하기가 매우 어렵다. 이러한 상황에서 인공지능을 효과적으로 활용하기 위해서는 고품질의 데이터 확보가 필수적이다. 하지만 실제 데이터를 사용하기 위한 비용과 노력이 많이 들기 때문에 많은 금융 기관들이 대안을 모색하고 있다. 이때 주목받고 있는 것이 바로 합성 데이터이다.


1-2. 합성 데이터의 정의와 특징

합성 데이터란 실제 데이터의 통계적 특성과 분포를 모방하여 생성된 완전히 새로운 데이터이다. 이 데이터는 개인 정보가 포함되지 않기 때문에 안전하게 사용할 수 있으며, 프라이버시 보호 기술로 자리 잡고 있다. 합성 데이터는 이미지, 텍스트, 수치 등 다양한 형태로 생성될 수 있으며, 특히 금융 분야에서의 활용 가능성이 크다.


2. 합성 데이터 생성 기술

2-1. 데이터 형식과 생성 기술

합성 데이터 생성 기술은 주로 테이블 형태의 데이터에 적용된다. 금융 분야에서 다루는 고객 정보와 거래 정보는 대개 수치와 텍스트 형태로 되어 있다. 이러한 형태의 데이터를 생성하기 위한 다양한 기술이 연구되고 있으며, 그 중 일부는 인공지능 알고리즘을 활용하고 있다.


2-2. 연구 동향

최근에는 합성 데이터 생성 기술이 빠르게 발전하고 있다. 특히, 머신러닝과 딥러닝 기법을 활용한 연구가 활발히 진행되고 있으며, 실제 데이터의 특성을 더욱 정교하게 모방할 수 있는 방법들이 개발되고 있다. 이러한 연구는 금융 분야에서의 데이터 활용도를 높이고 있으며, 실제 사례를 통해 그 효용성을 입증하고 있다.


3. 금융 분야의 합성 데이터 공개 사례

3-1. BAF(Bank Account Fraud)

BAF는 은행 계좌 개설 과정에서의 사기 탐지를 위해 개발된 합성 데이터로, 2022년 NeurIPS에서 발표되었다.


BAF는 개인정보 보호를 위해 노이즈를 추가하여 개인 정보를 식별할 수 없도록 하는 차등 프라이버시 기법을 사용하고 있다. 또한, 합성 데이터는 GAN 기반의 생성 모델인 CTGAN을 통해 생성되었으며, 이 과정에서 소득, 연령 등의 특정 변수를 범주화하거나 익명화하여 실제 데이터와의 연관성을 줄였다.


BAF에서는 실제 데이터를 모사하는 기본 합성 데이터뿐만 아니라 다양한 편향을 반영한 변형 합성 데이터도 생성되었다. 머신러닝 또는 딥러닝 모델을 활용하여 은행 계좌 개설 과정에서의 사기 탐지를 테스트할 경우, 이러한 다양한 변형 데이터를 통해 모델의 공정성, 강건성, 탐지 성능 등을 평가할 수 있다. 실세계의 복잡한 상황에서 모델이 사기 행위를 얼마나 잘 탐지하는지 면밀히 분석할 수 있는 기회를 제공하는 것이다.


BAF에서는 연령, 성별 등을 기준으로 데이터를 다수(majority)와 소수(minority)로 그룹핑하고, 각 그룹에 대해 실세계에서 발생할 수 있는 다양한 편향을 반영한다. BAF는 이러한 합성 데이터를 Kaggle에 공개하였으며, 생성 로직은 GitHub에 게시되었다.


합성 데이터는 사기 여부, 연간 수입, 이메일과 신청자 이름의 유사성, 이전 주소지 거주 개월 수, 현재 주소지 거주 개월 수 등 총 32개의 변수로 구성되어 있다.


BAF에서 구축한 계좌 신청 관련 합성 데이타 종류


3-2. AMLworld

AMLworld는 자금세탁 방지(anti-money laundering: AML) 모델을 평가하기 위해 생성된 합성 데이터로, 2023년 NeurIPS에서 발표되었다.


AMLworld는 자금세탁 방지를 위한 모델의 테스트 및 성능 개선을 지원하기 위해 다양한 자금세탁 시나리오를 반영한 합성 데이터를 제공한다.


예를 들어, "Fan-out"은 특정 계좌에서 여러 다른 계좌로 자금이 분산되는 패턴을 의미하며, "Fan-in"은 여러 계좌에서 특정 계좌로 자금이 모이는 패턴을 나타낸다. "Simple Cycle"은 자금이 원래의 계좌로 돌아오는 순환 경로를 가진 패턴이다. AMLworld는 이러한 다양한 자금세탁 패턴을 모델링하여 현실적인 자금세탁 시나리오를 재현하며, 이는 자금세탁 방지 모델의 성능을 확인하는 데 중요한 역할을 한다.


AMLworld는 그래디언트 부스팅(gradient boosting) 알고리즘 기반의 모델인 Light GBM 및 XGBoost와 그래프 신경망(graph neural network: GNN) 모델을 사용하여 합성 데이터에서 자금세탁을 탐지하는 실험을 진행하였다. 자금세탁 거래는 극히 드물기 때문에 데이터의 불균형이 심해, 소수 클래스의 F1-Score를 중심으로 모델 성능을 평가하였다. GNN 모델은 계좌 간의 연결성을 활용하여 자금세탁 거래를 탐지할 수 있는 능력을 보여주었다.


AMLworld에서 제안한 합성 데이터는 Kaggle에 공개되어 있으며, 출금 은행 코드 및 계좌 번호, 입금 은행 코드 및 계좌 번호, 금액, 통화 정보, 거래 방법(예: 수표) 등 총 11개의 변수로 구성되어 있다. 이러한 합성 데이터의 활용은 금융 분야에서 데이터 분석과 사기 탐지의 효율성을 높이는 데 기여하고 있으며, 앞으로도 그 중요성이 더욱 강조될 것으로 기대된다.


4. 결론

4-1. 합성 데이터의 중요성

합성 데이터 생성 기술은 금융 분야에서 인공지능과 데이터 분석을 가능하게 하는 중요한 도구로 자리 잡고 있다. 이를 통해 데이터의 프라이버시를 보호하면서도 필요한 정보를 안전하게 활용할 수 있다.


4-2. 미래 전망

앞으로 합성 데이터의 활용은 더욱 확대될 것으로 예상된다. 금융 기관들은 합성 데이터를 통해 고객 분석, 위험 관리, 사기 방지 등 다양한 분야에서 혁신적인 변화를 경험할 수 있을 것이다. 따라서 합성 데이터 생성 기술이 금융 분야에서 중요한 역할을 할 것으로 기대된다.