AI로 매출을 97.7% 맞추다 — 한 프랜차이즈 기업의 매출 예측 프로젝트

"이번에 이걸 하면, 매출이 얼마나 나올까?"

프랜차이즈 사업에서 이 질문은 매일 반복된다. 신규 출점, 마케팅 캠페인, 콜라보레이션, 계절 메뉴 — 수천만 원에서 수억 원이 걸린 의사결정을 내리면서, 대부분의 기업은 이 질문에 감으로 답한다.

"지난번에 비슷한 거 했을 때 잘 됐으니까 이번에도 되겠지."

BDM Lab은 국내 한 프랜차이즈 기업과 함께, 이 질문에 데이터로 답하는 프로젝트를 수행했다.

프로젝트 개요

이 기업은 외부 파트너와의 협업(콜라보레이션)이 매출의 핵심 동력이다. 어떤 파트너와, 어떤 형태로, 얼마 동안 협업하느냐에 따라 매출이 크게 달라진다. 문제는 사전에 예측할 방법이 없었다는 것이다.

기존 방식은 담당자의 경험과 직감에 의존했다. "이 파트너가 요즘 뜨니까 될 거야" 수준의 판단. 과거 유사 사례를 참고하더라도, 평균적인 어림짐작(naive estimation)의 오차율은 **33.6%**에 달했다.

BDM Lab은 이 기업의 실제 거래 데이터를 받아서 AI 예측 시스템을 구축했다.

결과

항목	수치
평균 적중률	97.7%
검증 건수	4,042건
분석 대상	462개
오차 2% 이내 비율	84%
기존 방식 대비 개선	93%

4,042건의 검증 데이터에서, 실제 매출과 예측 매출의 평균 오차가 **2.3%**였다. 기존에 33.6% 오차로 어림짐작하던 것과 비교하면, 예측 정확도가 93% 개선된 것이다.

어떤 데이터를 사용했나

예측에 활용한 데이터는 크게 네 가지다.

데이터	내용
거래 이력	과거 협업 횟수, 기간, 매출 추이
검색 트렌드	검색량 — 성별·연령대별 최근 9~16주
파트너 프로필	성별, 연령, 직업 유형, 소속사, 활동 기간
매장 정보	매장 유형 (상시 매장 vs 임시 매장)

네 가지 데이터 소스에서 총 353개의 변수를 생성했다. 단순히 "검색량이 높다"가 아니라, 성별·연령대별 검색 비율 변화, 검색량의 시계열 추이, 과거 매출과의 상호작용 등 세밀한 피처 엔지니어링을 거쳤다.

예측에 가장 중요한 변수는?

353개 변수 중 예측에 가장 큰 영향을 미치는 것은 무엇이었을까.

1위: 과거 거래 실적. 압도적이었다. "이 파트너가 과거에 얼마나 팔렸는가"가 미래 매출의 가장 강력한 예측 근거였다. 변수 중요도 기준으로 2위와 6배 이상 차이가 났다.

2위: 매장 유형. 상시 매장과 임시 매장은 매출 패턴이 완전히 달랐다. 상시 매장은 적중률 98.1%, 임시 매장은 96.9%. 둘 다 높지만, 매장 유형을 구분하지 않으면 정확도가 떨어진다.

3위: 검색 트렌드. 특히 특정 성별·연령대에서의 검색량 변화가 매출과 강한 상관을 보였다. 검색량이 높아지고 있는 시점에 협업을 시작하면 매출이 높았다.

프로필 정보(연령, 소속사, 활동 기간 등)도 의미 있는 변수였지만, 상위 3개에 비하면 기여도가 낮았다.

실무적 시사점:

과거에 한 번이라도 협업한 적이 있는 파트너는 매우 정확하게 예측 가능하다
처음 협업하는 파트너도 검색 트렌드 + 프로필 정보로 예측 가능하나, 정확도는 다소 낮다
매장 유형을 명확히 지정하면 예측 정확도가 올라간다

어떤 모델을 사용했나

XGBoost와 LightGBM, 두 가지 그래디언트 부스팅 모델을 각각 학습시킨 뒤 **앙상블(가중 평균)**로 결합했다. 최적 가중치는 LightGBM 65%, XGBoost 35%.

하이퍼파라미터는 5-fold 교차 검증으로 튜닝했다. 과적합을 방지하면서 최대 예측 성능을 뽑아내는 지점을 찾았다.

이 모델이 최종적으로 납품된 형태는 Streamlit 기반 웹 애플리케이션이다. 비개발자인 기업 담당자가 파트너 이름, 기간, 매장 유형을 입력하면 예상 매출이 즉시 표시된다. 모델 재학습도 버튼 하나로 가능하게 만들었다.

매장 유형별 차이

매장 유형	적중률	평균 오차	검증 건수
상시 매장	98.1%	약 5,900원	2,478건
임시 매장	96.9%	약 29,500원	1,564건

임시 매장의 오차가 금액 기준으로 더 큰 이유는, 임시 매장의 매출 규모 자체가 크기 때문이다. 비율(적중률)로 보면 둘 다 97% 내외.

오차 분포: 과대추정도, 과소추정도 없다

예측 오차의 분포를 보면 0을 중심으로 대칭이다. 이건 중요한 포인트다. 시스템이 매출을 체계적으로 높게 잡거나 낮게 잡는 편향(bias)이 없다는 뜻이다.

462개 대상 중:

약 320개 (69%): 오차 2% 미만 — 매우 정확
약 93개 (20%): 오차 2~5% — 정확
약 29개 (6%): 오차 5~10% — 양호
약 20개 (4%): 오차 10% 이상 — 개선 필요

전체의 89%가 5% 이내 오차로 예측된다.

납품물

기업에 최종 전달한 것:

예측 웹 애플리케이션 — 파트너·기간·매장 유형 입력 → 예상 매출 즉시 확인
분석 보고서 — 15페이지 + 고오류 원인 분석 보고서
학습 데이터 + 모델 — 16,695건 학습 데이터, 앙상블 모델
데이터 파이프라인 — 새 데이터 투입 → 전처리 → 재학습까지 11단계 자동화
사용자 매뉴얼 — 비개발자도 운영 가능한 가이드

다음 글에서는 이 시스템이 처음부터 97.7%가 아니었다는 이야기를 한다. 81.4%에서 시작해서 6번의 반복 개선을 거쳐 97.7%에 도달한 과정이다.

그리고 예측이 틀린 경우에 대한 솔직한 분석도 정리했다. AI가 예측을 틀릴 때, 그 원인은 무엇인가.

AI로 매출을 97.7% 맞추다 — 한 프랜차이즈 기업의 매출 예측 프로젝트

프로젝트 개요

결과

어떤 데이터를 사용했나

예측에 가장 중요한 변수는?

어떤 모델을 사용했나

매장 유형별 차이

오차 분포: 과대추정도, 과소추정도 없다

납품물

관련 아티클

멀티에이전트 시뮬레이션을 과학으로 쓰는 5가지 의무

AgentSociety: 출시 전에 100번 살아보는 시대

합성 소비자: 신상품 개발의 게임이 바뀐다