-
빅 데이터(Big Data)-1인터넷시대와 4차산업 2023. 5. 2. 10:51반응형
빅데이터 시대의 초고속 SSD
SSD는 대용량 데이터를 처리하고 관리 하는 데이터센터, 클라우드 등에서 많은 인기를 끌고 있으며, 실제로 국내·외의 하드웨어 업체들은 소비자용 SSD를 넘어 데이터센터 기반의 기업들을 대상으로 한 기업용 SSD를 출시하여 시장의 입지를 다져가며 넓혀가 있는 중이다. 시장조사기관 IHS 마킷(IHS Markit) 에 따르면 기업용 SSD 시장은 올해 142억달러로 꾸준히 성장하여 2021년에는 176억달러로 늘어나며 연평균 7.0% 성장을 이끌어낼 전망이다.
보건의료
국민건강보험공단은 가입자의 자격·보험료, 진료·투약내용, 건강검진 결과 및 생활습관 정보 등 2조1천억건, 92테라바이트의 빅데이터를 보유하고 있고, 한편, 건강보험심사평가원은 진료내역, 투약내용(의약품 안심서비스), 의약품 유통 등의 2조2천억건, 89테라바이트의 빅데이터를 보유하고 있으며, 경제협력개발기구(OECD)는 한국의 건강보험 빅데이터 순위가 2위라고 발표했었다. 건보공단과 심평원은 빅데이터를 민간에 널리 알리고 더 많이 개방하고 있다. (연합뉴스 2016.6.14 인터넷뉴스 참조)
빅 데이터를 활용하면 미국 의료부문은 연간 3,300 억 달러(미 정부 의료 예산의 약 8%에 해당하는 규모)의 직간접적인 비용 절감 효과를 보일 것으로 전망된다.[37] 특히 임상분야에서는 의료기관 별 진료방법, 효능, 비용 데이터를 분석하여 보다 효과적인 진료방법을 파악하고 환자 데이터를 온라인 플랫폼화하여 의료협회 간 데이터 공유로 치료 효과를 제고하며 공중보건 영역에선 전국의 의료 데이터를 연계하여 전염병 발생과 같은 긴박한 순간에 빠른 의사결정을 가능케 할 전망이다.[38]
한편, 의료 분야에서 빅 데이터가 효과를 발휘하기 위해서는 대량의 의료정보 수집이 필수적이기 때문에, 개인정보의 보호와 빅 데이터 활용이라는 두 가지 가치가 상충하게 된다. 따라서, 의료 분야에서 빅 데이터의 활용과 보급을 위해서는 이러한 문제에 대한 가이드라인 마련이 필요한 상태이다.
기업 경영
대규모의 다양한 데이터를 활용한 '빅데이터 경영'이 주목받으면서 데이터 품질을 높이고 방대한 데이터의 처리를 돕는 데이터 통합(Data Integration)의 중요성이 부각되고 있다.
데이터 통합(DI)은 데이터의 추출, 변환, 적재를 위한 ETL 솔루션이 핵심인데 ETL 솔루션을 활용하면 일일이 수많은 데이터를 기업 데이터 포맷으로 코딩하지 않아도 되고 데이터 품질을 제고할 수 있기 때문에 DI는 빅데이터 환경에 꼭 필요한 데이터 솔루션으로 평가받고 있는 단계까지 진입되었다.
한편 비즈니스 인텔리전스(Business Intelligence, BI)보다 진일보한 빅데이터 분석 방법이 비즈니스 애널리틱스(Business analytics, BA)인데 고급분석 범주에 있는 BA는 기본적으로 BI를 포함하면서도 미래 예측 기능과 통계분석, 확률 분석 등을 포함해 최적의 데이터 기반 의사결정을 가능케 하는 것으로 평가받고 있기도 하다.
마케팅
인터넷으로 시작해서 인터넷으로 마감하는 생활, 스마트폰을 이용해 정보를 검색하고 쇼핑도하고 SNS를 이용해서 실시간으로 글을 남기는 등의 다양하게 인터넷을 이용하는 동안 남는 흔적같은 모인 데이터들을 분석하면 개인의 생활 패턴, 소비성향 등을 예측할 수 있고 기업들은 이런 데이터를 통해서 소비자가 원하는 것들을 미리 예측할 수 있다. 빅 데이터가 마케팅 자료로 활용되는 사례이다.
마케팅 분석의 예로써 지역축제의 SNS 분석을 들 수 있다. 기존 지역축제의 성공을 측정하는 방식은 경제적 파급효과를 통해 이루어져 왔다. 하지만 축제의 성공 지표는 개최에 따르는 경제성만으로는 평가될 수 없으며, 축제를 즐기는 관광객의 즐겁고 신나는 경험을 통해 투자와 소비로 연결되는 선순환 과정을 확보해야 한다. 이를 측정할 방법은 축제를 즐긴 관광객이 남긴 웹상의 '5Ns'의 추적을 통해 가능하다.[41] 먼저, 주목(attentioN, SNS 게시물 및 영상 조회수와 도달범위 등으로 측정) 정도와 2단계인 반응(reactioN, 좋아요, 공감, 비공감 등 표시 행위)을 통해 사람들의 축제에 대한 관심을 파악할 수 있다. 나아가 표현(expressioN, 게시물, 댓글 등 의사표현 행위)을 통해 축제에 대한 만족 및 불만족을 표현하게 되고, 온라인 공간을 넘어 오프라인 축제로의 참여(participatioN)와 소비(consumptioN)로 이어지게 된다. 5Ns 분석을 적용한 대구치맥페스티벌은 전국적 인지도와 폭넓은 대중성을 확보했음에도 마지막 단계인 소비(consumptioN)로의 연계 고리가 약한 것으로 나타났다. 일회성 행사의 한계를 극복하기 위해 축제의 상설화를 통해 축제 경험을 강화하는 물리적 공간의 확보가 제시되었다.
기상정보
한반도 전역의 기상관측정보를 활용해 일기예보와 각종 기상특보 등 국가 기상서비스를 제공하고 있는 기상청은 정밀한 기상예측을 위한 분석 과정에서 발생하는 데이터 폭증에 대응하고자 빅데이터 저장시스템의 도입을 추진하였다.
대다수 스토리지 기업들의 솔루션을 검토한 끝에 한국 IBM의 고성능 대용량 파일공유시스템(General Parallel File System, 이하 GPFS)을 적용한 스토리지 시스템을 선택하였다고 밝혔다.
한국IBM이 기상청에 제공한 GPFS 기반의 빅데이터 저장시스템은 IBM 시스템 스토리지 제품군, 시스템 x서버 제품군과 고속 네트워킹 랙스위치(RackSwitch) 등이 통합돼 있는 시스템이다.
보안관리
보안관리는 빅데이터 환경을 이용해 성장과 기술 발전을 동시에 이루는 분야로 분리한다. 클라우드 및 모바일 환경으로 접어들면서 물리/가상화 IT 시스템의 복잡성이 더욱 높아지고 있어 유무선 네트워크, 프라이빗/퍼블릭 클라우드, 모바일 애플리케이션과 기기관리 등 IT 시스템 전반에서 대대적인 변화가 예상되고 있어 막대한 양의 보안관리가 중요한 요소로 현실화되고 있다.
구글 번역
구글에서 제공하는 자동 번역 서비스인 구글 번역은 빅 데이터를 활용한다. 지난 40년 간 컴퓨터 회사 IBM의 자동 번역 프로그램 개발은 컴퓨터가 명사, 형용사, 동사 등 단어와 어문의 문법적 구조를 인식하여 번역하는 방식으로 이뤄졌다. 이와 달리 2006년 구글은 수억 건의 문장과 번역문을 데이터베이스화하여 번역시 유사한 문장과 어구를 기존에 축적된 데이터를 바탕으로 추론해 나가는 통계적 기법을 개발하였다. 캐나다 의회의 수백만 건의 문서를 활용하여 영어-불어 자동번역 시스템개발을 시도한 IBM의 자동 번역 프로그램은 실패한 반면 구글은 수억 건의 자료를 활용하여 전 세계 58개 언어 간의 자동번역 프로그램 개발에 성공하였다. 이러한 사례로 미루어 볼 때, 데이터 양의 측면에서의 엄청난 차이가 두 기업의 자동 번역 프로그램의 번역의 질과 정확도를 결정했으며, 나아가 프로젝트의 성패를 좌우했다고 볼 수 있다.반응형'인터넷시대와 4차산업' 카테고리의 다른 글
인공지능 기술의 실용적인 응용 (2) 2023.05.03 인공 신경망 (artificial neural network, ANN) (0) 2023.05.02 알파고(AlphaGo) (0) 2023.05.02 빅 데이터(Big Data) 플렛폼 (0) 2023.05.02 빅 데이터(Big Data) 정의 (0) 2023.05.02