Aeca를 활용하여 상품 검색을 위한 데이터 수집 및 가공, 검색과 서비스 개발 과정을 설명합니다. 정형, 비정형 데이터가 혼합되어 있을 때 어떻게 색인하고 LLM을 활용하여 어떻게 쿼리를 변환하여 검색하는지를 알아봅니다.

Read post

RAG(검색 증강 생성)을 복잡한 인프라 구축 없이 AI 데이터베이스 하나로 쉽게 만들 수 있습니다.

Read post

벡터데이터베이스(VectorDB)를 활용해 대규모 언어모델(LLM)의 한계를 극복하고자 하는 방안이 주목받고 있습니다. 전문 분야나 학습되지 않은 도메인 데이터, 예를 들어 로펌의 판례나 회사의 커뮤니케이션 기록 등 특화된 정보에 대해 정확한 답변을 제공하기 위해, 모든 종류의 데이터를 벡터임베딩으로 변환하여 저장하고 검색할 수 있는 벡터 데이터베이스를 LLM의 장기기억 저장장치로 사용하는 것입니다. 이를 위해 위키피디아를 사용한 Q&A 시스템을 예로 들어 데이터 전처리, 벡터화, 저장, 검색 등의 과정을 통해 벡터 데이터베이스가 어떻게 LLM을 보완할 수 있는지에 대한 구체적인 사례를 살펴봅니다.

Read post

현대 애플리케이션에서 사용자의 체류 시간을 늘리기 위해 많은 서비스는 추천 시스템을 도입하고 있으며, 이는 특히 콘텐츠와 이커머스 분야에서 매출과 직접적인 연관이 있는 중요한 요소입니다. 추천 시스템은 사용자의 행동을 분석하여 관심사를 파악하고 관련 아이템을 제공함으로써 체류 시간을 늘리고 구매를 유도합니다. 여기에 어떻게 벡터데이터베이스가 활용될 수 있을까요?

Read post

우리가 사용하는 모바일 애플리케이션이나 웹서비스에는 검색기능이 있습니다. 대부분은 데이터베이스에서 제공하는 기본적인 텍스트 검색이나 Elasticsearch 같은 검색 엔진에서 제공하는 전문 검색(Full-Text Search)을 사용하여 개발 합니다. Full-Text Search는 주로 텍스트 데이터 검색에 사용되는 전통적인 방법 중 하나로 문서, 웹 페이지, 데이터베이스 등에서 특정 키워드, 단어, 구문 등을 찾아내는 데 중점을 두고 있습니다. 주로 키워드 또는 짧은 문장을 입력하여 텍스트 데이터를 검색 하고, 키워드와 일치하는 문서를 찾는 과정을 거치는데, 문맥이나 의미적 유사성을 고려하지는 않습니다.

Read post

벡터 임베딩은 다양한 형태의 데이터(문서, 이미지, 음성, 영상 등)를 숫자 배열로 변환하여 유사성을 측정하는 개념입니다. 예를 들어, 색깔은 RGB 형식으로 나타내는 3차원 벡터 데이터로 표현될 수 있습니다. 이러한 벡터 임베딩을 통해 데이터 간의 거리를 계산하여 유사성을 판단할 수 있습니다. 이는 자연어 처리, 추천 알고리즘 등에서 중요한 역할을 합니다. Transformer 모델을 통해 다양한 데이터를 벡터로 변환할 수 있으며, 이를 활용해 서로 다른 형태의 데이터 간의 유사성도 측정할 수 있습니다. 예를 들어, "고양이"라는 텍스트와 고양이 사진 사이의 유사성을 벡터 공간에서 측정하는 것이 가능합니다.

Read post