전체 글 108

데이터 분석에는 복잡한 기술과 코딩이 필요한가?

한국인이 영어를 못하게 된 이유 얼마 전 유튜브 쇼츠 영상에서 우연히 여행유튜버 빠니보틀이 가진 영어에 대한 생각을 보게 되었다.(관련 동영상 보기) 영어에 대해 말하려는 건 아니지만, 데이터를 분석하려는 초급 분석가 또는 일반 직장인들과 대화하면서 느낀 점은 그들이 말하는 현장의 고충은 한국인이 영어를 사용하면서 느끼는 감정과 비슷하다는 것이다. 비대면 거래가 활성화되면서 영업점에서 고객은 사라졌고, 트렌드는 거리가 아닌 소셜에서 형성되기 시작하였다. 웹사이트를 운영하는 사람이라면 빅데이터 분석은 아니라도 유입채널과 키워드는 분석해야 하는 것이 당연해졌으며, 전문가가 아니더라도 자신의 업무에서 발생한 데이터는 모두가 분석해야 하는 시대가 되었다. 일반인이 의사소통을 목표로 영어를 배우듯이 일반 분석가들..

원하는 정보를 찾는 방법과 AI검색엔진 시대의 도래

검색엔진의 시작 초창기 검색엔진은 인터넷이라는 개방형 네트워크 기술에서 웹사이트를 찾아주는 역할을 하였다. 현재도 명맥을 유지하고는 있지만, 당시의 검색엔진들은 웹사이트 담당자가 웹사이트와 이를 소개하는 글을 등록하면 검색엔진이 일일이 심사하여 웹사이트를 종류별로 분류하고 소개 글에 있는 정보를 활용해 키워드로 검색하는 거대한 사이트맵과 같았다. 인터넷이 확산됨과 동시에 PC의 보급과 기술 보편화로 개인과 기업에서 관리가 잘 되지 않는 웹사이트를 마구잡이로 쏟아내었고, 야후와 같은 검색엔진들은 우량한 웹사이트를 선별한다는 이유로 막강한 노출 권한을 휘두르고 있었다. 그러나, 수작업에 가까운 웹사이트 선별방식은 경직된 서비스를 제공할 수 밖에 없었고, 사람들은 야후가 제공하는 정갈한 정보에서 벗어나 빠르게..

거대 플랫폼 기업들이 데이터를 모으는 방법과 규제

개인정보위 구글, 메타에 과징금 부여(22.9월) 22년 9월 개인정보위원회가 구글과 메타에 1,000억원의 과징금을 부여하면서, 구글과 메타의 개인정보 수집 방법에 대해 자세하게 보도자료를 작성하였다. 보도자료에서 지적한 내용을 토대로 플랫폼 기업의 데이터 수집 방법에 대한 중요한 내용을 간추려보면 다음과 같다. 1. 구글은 크롬, Google서비스를 이용하는 모든 웹사이트, 앱, 기기에서 고객의 활동정보를 수집하여 이용한다. 2. 메타는 소셜 플러그인, Facebook 로그인, API와 SDK(소프트웨어 개발 도구) 등을 활용해서 고객의 활동정보를 수집한다. 3. 구글은 사용자의 음성과 오디오 녹음 정보도 수집한다. 4. 메타도 타사 정보를 수집한다. 5. 구글은 광고 최적화라는 명목으로 수집한 정보..

인간처럼 학습하는 AI로 가기 위한 멀티모달 기술

범용인공지능의 목표 범용인공지능(Artificial General Intelligence)이라는 영역이 있다. 통칭 AGI라고 부르는 General AI는 정해진 역할만 수행하는 이미지, 음성, 챗봇 등과 달리 다양한 기능을 수행하면서 스스로 학습하고 발전해나가는 AI를 목표로 한다. 올해 5월에 구글 AI 조직이 개편되면서 사임한 제프리 힌튼교수는 딥러닝에 역전파라는 개념을 도입한 AI의 대부라고 불리던 사람이었다. 그런 그가 구글을 떠나면서 남긴 말이 'AI가 핵보다 위험하다' 였으며, 75세의 노교수가 무엇을 두려워하는지는 모르겠지만, 현재의 추세대로라면 AGI가 5~20년이내에 완성될 것이라며 규제해야한다고 주장하였다. 인간의 센싱능력 센싱(감지)이랑 센서(감각)에 이해 입력된 데이터를 정보로 전..

챗GPT API를 이용한 AI인터페이스 구축

대화형AI 프롬프트 활용 생성형 AI는 프롬프트(명령)를 기반으로 결과를 생성하는 방식으로 동작한다. 그래서 챗GPT와 Bard같은 대화형 AI는 프롬프트에 해당하는 질문을 입력받으면, 결과에 해당하는 답변을 생성하면서 대화를 이어나간다. 그리고 맥락을 이해하기 위해 입력된 프롬프트를 일시적으로 유지하면서 각종 인간처럼 인지적 과정(요약, 분류, 해석 등)을 수행하는데, GPT4의 경우에는 프롬프트 영역에만 약 2만 5천개의 단어(50페이지 분량)를 저장할 수 있는 것으로 알려져 있다. 현재 출시된 대화형 AI기반 앱들은 이러한 프롬프트 영역에 데이터를 입력해두고 동작시키기 위한 프롬프트를 사전에 입력해두어 AI를 실행시키며, 이를 활용하면 대화형 AI가 텍스트를 해석하고 결과를 처리하는 인터페이스역할을..

유용한 TIP 2023.07.12

OCR(광학 문자 인식)기술은 어떻게 발달하고 있을까?

생활 속에서 널리 쓰이는 OCR 최신 스마트폰은 카메라를 켜고 글자가 있는 곳에 가져가면 문서 모양 아이콘 [=] 이 나타나면서 글자를 자동으로 인식한다. 별도 앱을 활용해서 명함과 문서를 찍으면 글자 부분만 인식해 자동으로 등록해주기도하고, 자동차 주행거리를 찍으면 보험사앱에서 주행거리를 자동으로 인식하여 보험료를 할인해주기도 한다. 예전에는 프린터기 구매 시 번들로 제공되거나 유료로만 구할 수 있었으나 성능마저 형편없었던 문자인식 프로그램이 어떻게 이렇게까지 자연스럽게 녹아들 수 있었을까? OCR기술의 구조 OCR기술은 생각보다 오래되었다. 지금으로부터 무려 100여년 전인 1928년에 오스트리아에서 포토 센서를 활용한 패턴 매칭 기반 Reading Machine을 만들었으며, 이를 최초의 OCR기기..

챗GPT 제멋대로 행동을 차단하는 오픈AI 슈퍼정렬팀

챗GPT 방문자수 감소 지난 주 챗GPT 조회수와 다운로드가 감소하기 시작했다면서 구글의 점유율은 오히려 상승했다는 내용의 기사가 쏟아졌다. 시밀러웹이 공개한 월간 방문자 수에 따르면 실제 6월 방문자 수가 5월 대비 9.7%로 꽤 크게 감소했으니 세상이 바뀔 것처럼 난리 법석을 떨었던 사람들의 입장에서는 조금 실망스러울 법하다. 게다가 기사 대부분에서 구글 점유율과 저작권에 대한 시비까지 언급하는 걸 보면 챗GPT의 몰락을 은근히 기대하는 사람들도 있는 것처럼 보인다. 하지만, 애초에 업계에서 주목했던 건 오픈AI가 방문자 수로 구글을 꺾는 것이 아니었다. 애써 가장 강력한 언어모델을 가져가고도 구글과 제대로 경쟁도 못하는 빙챗에는 좀 실망스럽지만, MS가 원래 인터넷에서 그리 강한 기업은 아니었다. ..

스레드 오픈, 소셜데이터는 어떻게 분석할까?

스레드 오픈 스레드(Threads)가 오픈한지 하루반만에 가입자 7000만명을 돌파했다. 전세계를 대상으로 한 IT기업의 수장답게 때 마침 터져준 격투기 이슈를 고스란히 사업에 활용하는 수완을 보며 감탄을 금치 못했지만, 블로그 취지에 맞게 소셜 플랫폼 CEO들의 격투기 이슈보다는 소셜데이터를 분석하는 방법에 대해서 예기해보고자 한다 연결과 관심사 저커버그는 스레드를 개방형 대화 플랫폼 앱이라고 하며, 트위터를 경쟁사로 지정였다. 또한, 인스타그램의 텍스트 버전이라고 표현하기도 했다. 이는 스레드라는 소셜 앱으로 가지는 방향성을 말하는 것인데, 스레드를 통해 발생하는 데이터에도 고스란히 영향을 끼치게 될것이다. 소셜 데이터 분석은 크게 "연결"과 "관심사" 2가지로 나눠서 분석된다. 소셜 네트워크(연결)..

다양한 성격의 챗봇, 그리고 나만의 챗봇만들기 - Ora.AI

심심이는 꽤 재미있는 챗봇이었다. 사용자가 미리 입력해둔 질문과 답변을 보여주기만 하는 단순한 기능이었지만, 여러 사람들이 참여하면서 완성된 라이브러리에는 재치있는 구성과 의외성으로 답변마다 까다로운 단서를 달아두는 챗GPT와는 달리 가벼운 농담을 수시로 뱉어내면서 피식거리게 만드는 재밌는 챗봇있었다. 생성형AI라고 해서 항상 그럴듯한 문장과 이미지를 만들어야만 하는가, 오늘은 한 없이 가벼운 성격의 챗봇 2만개가 모여있는 사이트를 소개하고자 한다. Ora.AI 바로가기 다양한 성격의 챗봇 Ora.AI 첫 화면에는 1번의 클릭으로 나만의 챗봇을 만들 수 있다는 문구가 크게 표시되어있다. 이 문구만으로는 개인비서같은 걸 떠올릴지 수도 있지만, 서두에도 언급했듯이 Ora.AI는 "Chat with 1000'..

유용한 TIP 2023.07.05

금융마이데이터서비스(통합 자산 조회)와 미 가입 시 대안

금융권의 데이터 유출 사고 2011년 현대캐피탈과 삼성카드에서 대규모 고객정보 유출사고가 발생했었다. 그 이전에도 쇼핑과 포털사이트 등에서 회원정보가 유출되는 사건은 있었으나 금융데이터가 유출되는 건 피해규모가 다르기 때문에 더 큰 파장으로 번지게 되었다. 이 사건을 기점으로 금융권의 보안은 더욱 엄격하게 관리되면서, 업무와 고객 네트워크자체를 분리해버리는 망분리와 전산 시스템 접근 권한 및 기기 통제 등을 시행하고 있으며, 신용정보기관 등을 제외하고는 고객정보 공유자체를 통제하고 있다. 그러나 이러한 엄격한 통제가 시행된 후 고객이 여러 금융권에 가지고 있는 자산을 각각 인증해야 한다거나 관련 자산을 찾지도 못하는 상황까지 발생하는 등 여러 불편사항도 동반되었다. 여기에 대한 대안으로 나온 것이 당시 ..

반응형