세미나 & 교육 & Tech

Google Cloud Summit 2024 후기

jih0ssang 2024. 7. 6. 18:55

첫 Google Cloud Summit에 방문하였습니다. ㅎㅎ

특히, 신라 호텔에서 진행한다고 해서 떨리는 마음으로 방문했지만 생각보다 내부가 좁아서 실망스러웠습니다....

 

Google Cloud Summit은 총 3 개의 트랙을 주제로 강연을 진행했습니다.

저는 여기서 "Track 1 - AI"를 듣고 왔는데요.

왜 AI를 들었냐 하면... 사실 구글하면 떠오르는 게 ChatGPT 밖에 없어서 Generative AI 를 들었습니다.

 

 

* 사진 순서는 시간순이 아니라 이해를 돕기 위해 개념 → use case 순으로 재구성하였습니다.

 

 

현재 Gen AI의 수준은?

요즘 대학생들이 chatGPT 없이 과제하기 힘든 것처럼...

genAI는 사람보다 많은 데이터들을 학습되어 있어 사람의 수준보다 월등히 뛰어날거라고 생각했습니다.

근데 특정 업무에 숙련된 성인과 비슷한 수준이라고 합니다.

몇년 전 이세돌을 이긴 AlphaGo는 99%이고 그보다 더 높은 능력치를 지닌 AlphaZero, AlphaFold가 있는 걸 보고 놀랐습니다..

 

 

1. Inaccuracy

작년에 논란된 chatGPT의 역사 왜곡하는 모습

 

chatGPT랑 대화하면서 간혹 자주 잘못된 정보를 제공받은 경험이 있으실 것 같습니다..

학습할 데이터들의 양이 늘어남에 따라 불필요한 데이터들을 버리고 필요한 데이터만 뽑는 "정제" 과정이 복잡해진 것 같습니다.  

 

 

2. Latency

PTSD 생기는 화면

 

네트워크 에러도 있었고 아예 안되는 경우도 많아서 불편했을 때가 많았습니다.

심지어 작년 출시한 GPT-4가 GPT-3.5보다 느려서 논란이었습니다.  (더 정확한 정보 출력을 위함이라네요..)

 

 

이 두 가지 문제는 AI 업계 종사자 분들에게는 끝까지 풀어야 할 큰 숙제 같아보입니다...

 

 

 

그라운딩 서비스(Grounding Service) 등장 배경

 

chatGPT의 불편한 점 중 하나는 "최신 데이터를 알 수 없다" 입니다.

최신 정보를 물어보면 늘 돌아오는 대답이 "저는 2021년 9월까지의 데이터만 학습되어 그 이후 데이터는 알 수 없습니다." 였습니다. 

대부분 상용 LLM 모델은 몇 개월 전까지의 데이터로 훈련되므로 그 이후의 최신 정보를 반영하지 못한다는 한계가 있었습니다.

 

그라운딩 서비스란, 쉽게 말하면 "검색 서비스" 입니다. 

사용자가 질문한 내용이 학습되지 않은 내용이면 AI가 그때 실시간으로 검색 후 결과를 반환해줍니다.

 

chatGPT 적용

그라운딩 서비스 도입으로 현재 chatGPT는 최신 데이터 관련 질문 받을 때마다 구글 검색 엔진을 통해 응답하고 있습니다.

 

 

기업 내부 적용

 

기업 내부 기밀정보를 대상으로 검색할 수 있고 pdf, Video, Audio 등 다양한 데이터 유형을 지원합니다.

입력받은 데이터(이미지, 차트, 테이블)를 기반으로 분석도 가능하다고 합니다.

이외에도 외부 시스템과 API 연계도 가능합니다.

 

 

Use Case

당근, LG U+ 등등 여러 회사에서 Use case를 소개했지만 기억에 가장 남는 포스코홀딩스 세션을 적어보도록 하겠습니다.

 

포스코홀딩스는 신소재, 에너지 기타 등등 빠르게 기술이 발전하는 유럽과 중국 등 여러 국가들의 속도에 따라가기 위해

일간 및 주간 단위로 국가별 뉴스 및 기사들을 수집하기 원했습니다.

 

그래서 위의 프로세스를 따르면

1. Preprocessing

국가별 여러 기사들 수집

 

2. 번역

국가별로 수집한 기사이므로 언어가 다양합니다.

 

다국어 → 영문

영문 → 국문

순서로 번역을 진행합니다.

 

3. 유사도 필터링

왼쪽은 이차전지 주제의 기사들만 추린 것이고, 오른쪽은 수소 주제의 기사들만 추린 것입니다.

유사한 주제들은 묶어서 볼 수 있습니다.

 

4. 추천여부 태깅

구독자가 의미있는 기사라고 생각이 들면 추천하도록 합니다.

 

5. 일간 이슈 생성

중복인 기사들만 추린 후 일간 이슈를 생성합니다.

 

6. 주간 이슈 생성

일간 이슈 중 특히 더 의미있는 기사들만 추려서 주간 이슈를 생성합니다.

 

 

AI에게 Q&A

 

위의 추려진 자료들을 토대로 그라운딩 서비스(Grounding Service)를 한다면 AI가 최신 기사를 빠르게 요약해서 정보를 전달할 수 있습니다.

 

 

적용 실패 사례

 

아까 기업 기밀 문서들을 대상으로도 그라운딩 서비스가 가능하다고 했었는데, 포스코 홀딩스에서는 문서가 정형화되어있지 않고 gen AI가 수용할 수 있는 데이터의 양보다 훨씬 많은 양이어서 적용하지 못했다고 합니다.

 

 

자체 개발 서비스로 대체하여 적용

Simple RAG( Retrieve-Augmented Generation )  --- 그라운딩 서비스 같은 검색 시스템

없으면 만드는 대단한 사람들...

 

1. 모든 데이터들을 다 모아 데이터를 쪼개고 (Chunks)

2. Vector DB에 저장

위의 사진은 Vector DB. LLM DB로 많이 쓰임. 유사도별로 데이터 묶기 쉬운 구조인듯...

 

3. Chunks 검색 (가져오기)

4. 가져온 Chunks를 기반으로 AI는 사용자에게 응답 생성

 

최근 ElasticSearch 공부하면서도 느꼈는데

데이터가 많을 수록 쪼개는 건 필수도 DB 저장할 때 최적화된 알고리즘으로 저장하여

인덱싱 속도를 향상시키는 방법을 쓰고 있는 것 같다고 느꼈습니다.

 

 

최종 후기

구글에서는 genAI에 "의존" 하기보다는 동료처럼 "같이 배우는(co-work)" 자세로 대해달라고 하였습니다.

앞으로의 AI의 발전을 응원합니다.