쉽게 쓴 데이터·AI 지식 25

FDS(이상 거래 탐지 시스템)의 동작 방식과 한계

FDS 정의 및 동작 방식 FDS(Fraud Detection System)는 전자금융거래 시 단말기 정보와 접속 정보, 거래 정보 등을 수집하여 이상 거래를 차단하는 기술을 말한다. FDS 솔루션은 90년대 초 처음 등장하여 고도화된 범죄 방식에 맞춰 꾸준히 고도화되고 있는 분야이다. 기본적으로는 위치정보, 고객정보, 평소 거래 패턴, 접속 환경 등을 이용하여 이상 거래를 탐지한다. 은행, 증권 등은 이상 거래가 탐지되면 진행을 잠시 멈추고 추가인증을 요구한다. 신용카드는 거래중인 거래는 일단 처리해주지만, 문자 등을 통해 고객에게 안내한 후, 확인 되기 전까지 추가 사용을 정지시키기도 한다. FDS의 한계 계좌이체, 카드 승인과 같은 실시간 대량 거래는 정상거래의 과부하 위험 때문에 대부분 Rule방..

비식별 데이터의 정의와 결합, 활용 방법

비식별 데이터 정의 비식별 데이터는 개인정보를 삭제하거나 식별할 수 없도록 처리한 데이터를 말한다. 비식별 처리에는 가명처리와 익명처리가 있으며 가명처리는 이름을 숫자로 대체하거나 주민번호를 암호화하여 개인을 알아볼 수 없도록 하는 것이며, 익명처리는 개인정보를 완전 삭제하는 것이다. 가명처리된 데이터는 연령, 지역 등의 정보가 남아있어서 익명처리 데이터보다 활용범위가 넓다. 비식별 처리된 데이터는 외부에 제공하거나 데이터거래소를 통해서 판매할 수 있으며, 당연히 구매도 할 수 있다. 비식별 처리는 별도의 솔루션을 도입할 수 있다. 비식별 데이터 결합 및 활용 외부데이터는 전문기관을 통해서 자사데이터와 결합할 수 있다. 단, 결합 후 비식별처리된 데이터를 받게된다. 전문기관은 데이터전문기관과 결합전문기관..

BI(비즈니스 인텔리전스)와 기업 데이터 활용

BI(Business Inteligence) 정의 Business Intelligence(BI)는 기업의 데이터를 수집, 분석, 공유, 모니터링하여 조직의 의사 결정을 지원하는 프로세스와 기술을 말한다. BI를 구축하기 위해서는 우선 재무, 영업, 고객, 운영 등의 기업 내 다양한 데이터를 표준화해야 한다. 그리고 의사결정을 위해 투입(Input), 과정(Process), 산출(Output), 결과(Outcome)로 나눠지는 경영지표를 생성해야 한다. 마지막으로 이러한 데이터와 지표를 활용하여 의사결정을 위한 분석 및 보고서를 작성한다. 데이터를 준비하기 위해서는 각 업무를 담당하고 있는 현업부서의 참여가 꼭 필요하지만, 업무가 체계화되어 있지 않거나 지표에 대한 합의가 이루어지지 않을 경우 BI 자체가..

공공데이터 조회 및 활용 방법

공공데이터 란공공데이터는 공공기관이 보유한 데이터로 소관부서는 행정안전부이다. 공공데이터법(국가법령정보센터 공공데이터법)과 시행령에 의해 관리되며 시행령에는 데이터 표준과 품질 등의 관리방법과 요청 등의 내용이 나와있으며 공공기관은 이를 따라야한다. 공공데이터는 시행령에 따라 공공데이터포털(https://www.data.go.kr/)에서 검색할 수 있으며 파일 또는 API로 제공된다. 공공데이터 활용TIP23년 5/25일 현재 공공데이터는 파일 58,398건, API 10,844건, 표준데이터셋 9,350건이다. 공공데이터포털에는 활용 및 우수사례 등이 게시되어 있으며, 경진대회도 꾸준히 개최되고 있다. ☞ 공공데이터 기업 매칭 지원사업 개방 데이터 활용 사례집 ☞ 당신을 이롭게 세상을 새롭게 만드는 공..

코호트 분석의 정의와 이론적 배경

코호트 정의 코호트는 로마 군대의 세부 조직에서 유래된 말로 같은 공간에서 훈련을 받아서 비슷한 성향을 가지게 된 것에서 유래되었다. 통계학에서는 "공통적인 특성을 가진 사람들의 집단"을 뜻하며, 오랜 시간 추적조사를 통해 출생코호트 등에서 유사한 행동을 하는 것을 연구하였다. 사회학에서는 "같은 시기를 살아가면서 특정한 사건을 함께 겪은 사람들의 집합"을 일컫는다. 코호트 활용 목적 코호트 분석의 목적은 동일한 세대, 입학, 경제 상황, 사건 등과 같은 공통 조건 또는 경험을 가진 사람들의 집단 간의 비교를 통해 시간에 따른 패턴, 트렌드, 행동 변화를 분석하는 것이다. 코호트 분석은 비슷한 시작점을 가지고 있는 여러 그룹 간의 비교 통해 발생하는 변화를 파악할 수 있다. 예를 들어 같은 연도에 동일한..

GPT4는 GPT3를 8개 합쳤다? 차세대 LLM의 해법이 된 MoE

GPT4는 GPT3 8개로 구성? 조금 지난 떡밥이지만 올해 6월 미국 천재 해커 조지 호츠가 GPT 4는 GPT 3규모의 모델 8개를 엮어서 파라미터가 1조개 인척하는 트릭을 썼다고 주장했다. 물론 이 내용은 오픈AI가 모델에 대한 세부 정보를 공개하지 않아서 공식적인 내용은 아니지만, 당시 여러 전문가들에게 이 가설을 설득력있게 받아들였다. 게다가 얼마 전 오픈AI가 지난해 말부터 GPT5에 해당하는 '아라키스(Arrakis)'라는 모델 개발을 진행했다가 올여름에 폐기했다는 소식이 나오면서 해당 모델에 MoE를 적용했었다는 사실도 함께 알려졌다.(관련 기사) MoE모델이란 MoE는 Mixture of Expert의 약자로 문장 그대로 "전문가의 혼합"을 말한다. LLM에서는 특정 분야의 지식을 집중적..

플랫폼 데이터 관점에서 API의 역할

API(Application programming interface)는 어플리케이션 간에 소통 환경으로 보통 웹 API를 의미한다. 기술적으로 API는 웹프로그램을 모듈화하여 재 활용하는 정도지만, 비즈니스적으로는 플랫폼 확대라는 중대한 목적을 가지고 있다. API에 대한 개념과 기술은 1940년대부터 시작되었으나 로컬에서 동작하는 앱에서는 데이터를 공유할 수 있으니 많이 활용되진 않고, 모듈화가 필요한 프로그램에서만 일부 적용되었다. 하지만, 온라인 비즈니스가 확대되고 모바일과 키오스크 같은 각종 단말이 추가되면서 웹프로그램 재활용하려는 필요에 따라 현재의 API가 완성되었다. 처음엔 기업 내 모듈 공유가 주 목적이라 자주 사용하는 기능을 개발하는 수준에 그쳤으나 페이스북, 구글, 네이버 등의 플랫폼기..

자연어 검색에 쓰이는 기술과 AI검색엔진

자연어 검색의 태동 게시판에서 제목이나 내용을 선택하고 검색하는 기능은 데이터베이스에서 특정한 단어가 포함되었는지 여부만 체크하여 조회하는 기능으로 만들어진다. 초창기 검색엔진도 이 기능을 이용하였으며 당시 웹사이트가 그리 많지 않았기 때문에 기술적인 한계는 그다지 문제가 되지 않았다. 사실 당시 검색엔진의 역할은 도메인을 일일이 타이핑하지 않게 해주는 역할이 대부분이었기 때문에 재밌게도 야후의 주요 검색어는 "구글", 그리고 구글의 주요 검색어는 "야후"였을 정도이다. 인터넷이 활성화되면서 새로운 사이트가 많이 생겨났고, 특히 게시판과 커뮤니티, 카페 등이 활성화되면서 사람들은 점점 사이트가 아닌 정보를 찾기 시작하였다. 웹사이트에 포함된 컨텐츠, 특히 게시판 등에 포함된 정보를 통합 검색하기 시작하면..

스마트폰에서 위치 데이터를 수집하는 방식

피처폰시절부터 위치데이터는 통신사의 주요 데이터 중 하나였다. 당시에도 GPS장비는 있었으나 가격도 비싸고 덩치도 커서 네비게이션에만 부착되었으며, 피처폰에서 GPS신호를 이용하려면 별도의 장비가 필요했다. 하지만 셀룰러(2G, 3G) 신호가 연결된 기지국 정보를 기반으로 위치를 확보할 수 있었으며, 분실폰 찾기, 미아 찾기 등의 서비스를 제공하거나 범죄 추적 등에 활용되었다. 스마트폰(3G, LTE, 5G)에는 당시 사용하던 셀룰러 뿐 아니라 GPS와 WiFi는 물론이고 블루투스, RFID(NFC)까지 다양한 네트워크 기술을 이용하여 정교한 위치데이터를 수집하고 있다. 실외 위치 데이터 측위 방식 위치 데이터 측정방식은 크게 실외와 실내 측위 방식으로 나눠지며, 연결된 네트워크에 따라 구분된다. 실외 ..

인간처럼 학습하는 AI로 가기 위한 멀티모달 기술

범용인공지능의 목표 범용인공지능(Artificial General Intelligence)이라는 영역이 있다. 통칭 AGI라고 부르는 General AI는 정해진 역할만 수행하는 이미지, 음성, 챗봇 등과 달리 다양한 기능을 수행하면서 스스로 학습하고 발전해나가는 AI를 목표로 한다. 올해 5월에 구글 AI 조직이 개편되면서 사임한 제프리 힌튼교수는 딥러닝에 역전파라는 개념을 도입한 AI의 대부라고 불리던 사람이었다. 그런 그가 구글을 떠나면서 남긴 말이 'AI가 핵보다 위험하다' 였으며, 75세의 노교수가 무엇을 두려워하는지는 모르겠지만, 현재의 추세대로라면 AGI가 5~20년이내에 완성될 것이라며 규제해야한다고 주장하였다. 인간의 센싱능력 센싱(감지)이랑 센서(감각)에 이해 입력된 데이터를 정보로 전..

반응형