데이터 수집 자동화

경쟁사보다 3초 빨라야 이기는 시장에서

리셀 커뮤니티 플랫폼

북미 1위 쿡그룹의 수백 개 이상 한국 커머스 사이트 실시간 모니터링, 메시지 유실 0% 달성 자동화 이야기

누구보다 빨리, 한 건도 놓치지 않고

실시간 한정판 정보 수집의 극한 요구사항

'쿡(Cook) 그룹'은 한정판 상품을 구매하기 위해 정보를 공유하고 구매 대행까지 하는 대규모 구매 대행 커뮤니티입니다. 나이키, 무신사, 카시나, 아디다스 등 한정판 스니커즈나 컬래버레이션 상품이 언제 풀리는지, 재입고는 언제 되는지가 곧 돈입니다. 문제는 이 정보를 '누구보다 빨리' 알아내야 한다는 점이었습니다.

사이트별 다양한 우회 수단이 필요함을 시각화한 이미지

수백 개 이상의 사이트마다 다른 보안 정책, 각각에 맞는 우회 전략 필요

복잡한 사이트 접근 구조를 시각화한 이미지

클라우드플레어, 캡챠, 레이트 리밋 등 복잡한 접근 제한 극복 필요

이 시장에서 '3초'는 생사를 가릅니다. 경쟁사보다 3초만 늦어도 회원들에게 신뢰를 잃습니다. 그리고 수백 개 이상의 한국 커머스 사이트를 동시에 모니터링해야 하는데, 각 사이트마다 보안 정책이 다르고, 접근을 막는 방식도 제각각입니다. 클라우드플레어, 봇 감지, 캡챠, IP 차단... 단순히 데이터를 긁어오는 것과는 차원이 다른 문제였습니다.

시장의 기존 솔루션들은 모두 '자기네 솔루션에 맞춰서' 팔려고만 했습니다. 하지만 쿡 그룹의 요구사항은 달랐습니다. 단순 수집이 목표가 아니었습니다. 수집 → 분석 → 알림까지 한 번에, 그것도 경쟁사보다 빠르게, 단 한 건도 놓치지 않고. 셀레니움이나 플레이라이트 같은 브라우저 엔진을 쓰면 정확하긴 하지만 너무 느립니다. 빠르게 가려면 직접 HTTP 요청을 날려야 하는데, 그러면 사이트마다 다른 보안을 뚫어야 합니다. 그리고 메시지가 유실되면 안 됩니다. 첫 발송은 무조건 빠르게, 하지만 유실 가능성은 0%로.

구체적인 어려움

  • 수백 개 이상의 한국 커머스 사이트를 동시에 실시간 모니터링해야 함
  • 사이트마다 다른 보안 정책 (클라우드플레어, 캡챠, 봇 감지, IP 차단 등)
  • 경쟁사보다 3초만 늦어도 신뢰를 잃는 극한의 속도 경쟁
  • 브라우저 엔진(셀레니움, 플레이라이트)은 정확하지만 너무 느림
  • 직접 HTTP 요청은 빠르지만 사이트별 우회 로직이 모두 달라 개발 난이도 극상
  • 신규 릴리즈 감지, 재입고 알림, 특정 품목 가격 변동 등 다양한 모니터링 타입 필요
  • 메시지는 단 한 건도 유실되면 안 됨 - 첫 발송은 빠르게, 유실 가능성은 0%
  • 기존 시장 솔루션들은 '자기 솔루션에 맞추라'는 식으로 유연성 제로

시장에 있는 솔루션들한테 물어봤어요. 다들 자기네 솔루션에 맞춰야 된다고만 하더라고요. 근데 우리 요구사항은 그렇게 단순하지 않았어요. 수백 개 사이트를 동시에 보면서 경쟁사보다 빨라야 하고, 메시지 하나도 놓치면 안 되고. 이걸 정말로 해줄 수 있는 곳이 필요했어요.

쿡그룹 운영팀

경쟁사보다 30~50% 더 빠르게, 유실율 0%

네트워크 레이어부터 다시 설계한 맞춤형 크롤링 프레임워크

단순 수집이 목표가 아닌 만큼, 처음부터 새로 만들어야 했습니다. 시장의 범용 솔루션으로는 절대 달성할 수 없는 요구사항이었기 때문입니다. 우리는 멀티 프로세싱 기반의 경량 크롤러 프레임워크를 직접 설계하고, 사이트별 우회 전략을 모듈화하고, 카프카 기반 메시지 큐로 유실 없는 알림 시스템을 구축했습니다.

가장 먼저 마주한 건 각 사이트의 보안 장벽이었습니다. 무신사, 나이키, 카시나, 아디다스... 수백 개 이상의 사이트가 각각 다른 방식으로 봇을 차단합니다. 클라우드플레어를 쓰는 곳도 있고, 자체 캡챠를 쓰는 곳도 있고, IP 레이트 리밋을 거는 곳도 있죠. 이걸 뚫으려면 N/W 레이어에 대한 깊은 이해가 필요했습니다. 각 사이트의 인증 흐름, 세션 관리 방식, 요청 패턴을 분석해서 사이트별 최적화된 우회 전략을 설계했습니다.

그렇다고 셀레니움 같은 브라우저 엔진을 쓸 수는 없었습니다. 정확하긴 하지만 너무 느리거든요. 실제 브라우저를 띄우고 페이지를 렌더링하고 DOM을 파싱하는 과정에서 귀중한 초 단위가 낭비됩니다. 그래서 직접 HTTP 요청을 날리되, 각 사이트가 원하는 헤더와 쿠키, 인증 토큰을 정확히 맞춰서 보내는 방식으로 개발했습니다. 이를 위해 프록시 매니저, 헤더 제너레이터, 재시도 로직이 포함된 자체 경량 크롤러 엔진을 만들었습니다.

복잡한 비즈니스 로직을 체계화한 최저가 자동 계산 알고리즘

핵심은 '템플릿 메소드 패턴'이었습니다. 크롤링의 공통 로직(프록시 관리, 헤더 생성, 에러 핸들링, 재시도)은 프레임워크가 담당하고, 사이트별로 달라지는 부분(파싱 로직, 인증 로직)만 모듈로 분리했습니다. 덕분에 새로운 사이트가 추가되거나 기존 사이트가 구조를 바꿔도, 해당 모듈만 수정하면 됩니다. 전체 시스템을 건드릴 필요가 없죠. 그리고 개발자 누구든 약간의 러닝커브만으로 '수집하는 부분, 파싱하는 부분'만 수정해서 시스템에 적용할 수 있는 구조를 만들었습니다.

메시지 유실 문제는 카프카(Kafka)로 해결했습니다. 일반적인 웹훅 방식은 네트워크 불안정이나 수신 측 장애 시 메시지가 사라집니다. 하지만 카프카 기반 메시지 큐를 도입하면서, 발송은 최대한 빠르게 하면서도 수신 확인이 될 때까지 메시지를 보관하는 구조를 만들었습니다. 결과적으로 메시지 유실율 0%를 달성했습니다.

디스코드 알림 예시

실시간 디스코드 알림 - 다양한 외부 채널로 확장 가능한 구조

외부 알림 시스템은 '외부 채널'이라는 개념으로 설계했습니다. 디스코드는 그 중 하나의 채널일 뿐입니다. 슬랙, 텔레그램, 웹훅, 이메일 등 어떤 채널이든 플러그인 형태로 추가할 수 있는 구조입니다. 고객이 새로운 알림 채널을 원하면, 기존 시스템을 건드리지 않고 채널 모듈만 추가하면 됩니다.

그리고 이 모든 것을 웹 서비스에서 직접 컨트롤할 수 있게 만들었습니다. 어떤 사이트를 모니터링할지, 어떤 키워드를 감시할지, 알림은 어디로 보낼지를 개발자 없이 웹에서 설정할 수 있습니다.

모니터링 시스템 로그인 화면

보안 로그인 시스템 - 권한 관리 및 접근 제어

메인 대시보드

메인 대시보드 - 전체 모니터링 현황 한눈에 확인

실시간 수집 현황은 로깅 모니터링 화면에서 확인할 수 있습니다. 각 크롤러가 언제 실행됐는지, 몇 개의 상품을 수집했는지, 에러는 없었는지가 실시간으로 표시됩니다. 문제가 생기면 즉시 알 수 있고, 개별 크롤러를 켜고 끄는 것도 웹에서 바로 가능합니다.

실시간 로깅 모니터링 화면

상세 컨트롤 및 실시간 로깅 모니터링 - 크롤러별 상태 확인

수집된 데이터는 검색 엔진처럼 활용할 수 있습니다. 인덱싱된 제품들을 키워드로 검색하고, 가격 변동 이력을 확인하고, 특정 조건에 맞는 상품만 필터링할 수 있습니다. 단순히 '알림을 보내는 시스템'이 아니라, '데이터를 축적하고 분석하는 플랫폼'으로 확장 가능한 구조입니다.

제품 검색 엔진

수집 및 인덱싱된 제품 검색 - 검색 엔진 기능으로 데이터 활용

만들어진 시스템의 핵심

수백개+ 사이트 동시 모니터링

무신사, 나이키, 카시나, 아디다스 등 수백 개 이상의 한국 커머스 사이트를 실시간으로 모니터링합니다. 사이트가 추가돼도 모듈만 추가하면 됩니다.

경쟁사 대비 30~50% 빠른 알림

브라우저 엔진 대신 직접 HTTP 요청을 날리는 경량 크롤러로 속도를 극대화했습니다. 경쟁사보다 30~50% 빠르게 알림을 전달합니다.

메시지 유실율 0%

카프카 기반 메시지 큐로 단 한 건의 알림도 놓치지 않습니다. 빠른 발송과 완벽한 전달, 두 마리 토끼를 모두 잡았습니다.

사이트별 맞춤 우회 전략

클라우드플레어, 캡챠, IP 차단 등 사이트마다 다른 보안 정책에 맞는 우회 전략을 모듈화했습니다. N/W 레이어 수준의 깊은 이해가 담겨 있습니다.

확장 가능한 알림 채널

디스코드, 슬랙, 텔레그램, 웹훅 등 어떤 채널이든 플러그인 형태로 추가 가능합니다. 고객이 원하는 채널로 알림을 보낼 수 있습니다.

웹 기반 통합 관리

개발자 없이도 웹에서 모니터링 대상, 키워드, 알림 설정을 직접 관리할 수 있습니다. 실시간 로깅과 검색 엔진까지 제공합니다.

북미 1위 쿡그룹의 신뢰를 얻다

경쟁사를 압도하는 속도와 안정성으로 시장 지위 강화

시스템 도입 후 고객사는 확실한 경쟁 우위를 확보했습니다. 경쟁사보다 30~50% 빠른 알림 속도, 단 한 건도 놓치지 않는 안정성. 회원들의 신뢰가 높아졌고, 그 신뢰가 다시 회원 증가로 이어지는 선순환이 시작됐습니다. 무엇보다 사이트가 변경되거나 새로운 사이트가 추가될 때 대응 개발 시간이 획기적으로 줄었습니다.

30~50%↑
알림 속도
경쟁사 대비 알림 전달 속도 향상
0%
메시지 유실율
카프카 기반 큐로 완벽한 전달 보장
100s+
모니터링 사이트
한국 주요 커머스 사이트 동시 모니터링
80%↓
대응 개발 시간
사이트 변경 시 모듈만 수정하면 OK

실제로 달라진 것들

경쟁사보다 항상 먼저 알립니다

한정판 상품 알림에서 3초는 치명적입니다. 이제 고객사는 경쟁사보다 항상 먼저 알림을 보냅니다. 회원들이 '여기가 제일 빠르다'는 걸 체감하고 있고, 그게 곧 회원 유지와 신규 가입으로 이어지고 있습니다.

한 건도 놓치지 않습니다

예전엔 가끔 알림이 늦게 가거나 아예 안 가는 경우가 있었습니다. 회원들 사이에서 '저번에 알림 안 왔는데?'라는 얘기가 나오면 치명적이죠. 이제는 카프카 기반으로 모든 메시지가 확실히 전달됩니다. 메시지 유실 0%.

사이트 변경에도 빠르게 대응합니다

커머스 사이트들은 수시로 구조를 바꿉니다. 예전엔 그때마다 전체 시스템을 뜯어봐야 했는데, 이제는 해당 사이트 모듈만 수정하면 됩니다. 대응 개발 시간이 80% 이상 줄었습니다. 개발팀이 아닌 운영팀에서도 간단한 수정은 직접 할 수 있게 됐습니다.

새로운 사이트 추가도 빠릅니다

새로운 커머스 사이트를 추가해달라는 요청이 들어오면, 예전엔 몇 주가 걸렸습니다. 이제는 프레임워크에 맞춰 파서 모듈만 만들면 되니까, 며칠이면 됩니다. 개발자 누구든 구조를 이해하고 기여할 수 있는 명확한 아키텍처 덕분입니다.

시장의 솔루션들한테 계속 '우리는 안 된다'는 소리만 들었어요. 근데 OTOworks는 달랐습니다. 우리 요구사항을 듣고 '이렇게 하면 됩니다'라고 했고, 정말로 해냈어요. 경쟁사보다 빠른 건 물론이고, 메시지 하나도 안 놓치고, 사이트 변경에도 빠르게 대응하고. 이제 우리가 북미에서 1위인 이유가 확실해졌어요.

쿡그룹 운영팀
북미 1위 쿡그룹

복잡한 데이터 수집, 경쟁사보다 빠르게 할 수 있을까요?

"수백 개 사이트를 동시에? 메시지 유실 없이?"라고 생각하시나요? 이 고객사도 처음엔 시장에서 '안 된다'는 소리만 들었습니다. 함께 이야기 나눠보면 방법이 보입니다.