호돌찌의 AI 연구소
728x90
article thumbnail
[Vector DB] 4. Milvus 튜토리얼 (2) - Collection에 데이터 insert 하기
AI/Vector Database 2023. 10. 12. 20:24

이전 글에서는 Collection을 생성하는 부분에 대해 짧게 다루었습니다. 2023.10.10 - [AI/Vector Database] - [Vector DB] 3. Milvus 튜토리얼 (1) - 설치, 변수 정의, Collection 생성하기 이번 글에서는 샘플 텍스트 데이터를 임베딩하고 insert를 수행하고 적재가 제대로 되어있는지 확인하는 과정까지 다루어 보겠습니다. 샘플 데이터 준비 Milvus에 삽입할 데이터로는 과거 뉴스 데이터들을 활용할 예정입니다. 여기 문서 분류 application에 사용되는 샘플 데이터를 아래 명령어로 다운로드합니다. wget --no-check-certificate 'https://docs.google.com/uc?export=download&id=1Lg2jL8..

article thumbnail
[Vector DB] 3. Milvus 튜토리얼 (1) - 설치, 변수 정의, Collection 생성하기
AI/Vector Database 2023. 10. 10. 00:00

이전 글들에서는 Vector Database의 전체적인 그림을 그리는 내용이었습니다. 이번 글부터는 여러 Vector Database 들 중 에서 "Milvus"에서 기초적인 내용들(Collection 생성, 데이터 및 임베딩 값 적재, 검색 등)에 대해 튜토리얼 형식으로 글 포스팅을 하고자 합니다. 2023.06.10 - [AI/Vector Database] - [Vector DB] 1. Vector Database 배경 & 필요성 2023.07.24 - [AI/Vector Database] - [Vector DB] 2. Vector Database 종류 & 한계점 Milvus 설치방법 설치법은 영상이나 아래 Documents를 참고하시는 것을 권장합니다. 가장 많이 설치하는 방식으로는 Milvus S..

article thumbnail
[Vector DB] 2. Vector Database 종류 & 한계점
AI/Vector Database 2023. 7. 24. 19:33

이전 글에서는 Vector DB가 떠오르고 있는 배경과 왜 필요한지에 대해 글을 작성하였습니다. 2023.06.10 - [AI/Vector Database] - [Vector DB] 1. Vector Database 배경 & 필요성 [Vector DB] 1. Vector Database 배경 & 필요성 올해 상반기 AI sector에서 핫한 토픽은 AI를 보다 일반인들에게 쉽게, 친숙하게 접근할 수 있는 ChatGPT였습니다. 여기서 같이 수혜주로 받은 것은 Vector Database 분야입니다. 이미 Faiss, Redis, ScaNN 기존 hotorch.tistory.com 이번 글에서는 Vector DB 종류들을 (아주) 간단하게 알아보겠습니다. Vector Database 종류 먼저 한 번에 알..

article thumbnail
[Vector DB] 1. Vector Database 배경 & 필요성
AI/Vector Database 2023. 6. 10. 12:27

올해 상반기 AI sector에서 핫한 토픽은 AI를 보다 일반인들에게 쉽게, 친숙하게 접근할 수 있는 ChatGPT였습니다. 여기서 같이 수혜주로 받은 것은 Vector Database 분야입니다. 이미 Faiss, Redis, ScaNN 기존 Vector Database 도 있었지만 작년 중순부터 스멀스멀 이야기가 나오던 Pinecone, Chroma, Weaviate, Qdrant 등 새로운 Vector Database가 나타나고 있습니다. 심지어 새롭게 뜨고 있는 Vector Database들에 대해서는 투자 금액이 쏠리고 있습니다. 참고로 Chief AI Officer의 트위터에서 4월 말 기준 투자 금액 기준으로 Top tools를 소개하면 다음과 같습니다. 왜 이렇게 갑자기 많은 Vector..

article thumbnail
ChatGPT를 활용한 Application Framework - LangChain
AI/NLP 2023. 4. 5. 22:11

ChatGPT가 출시되고 나서 AI 산업계에서 많은 지각변동이 일어났습니다. 작년 말에 ChatGPT가 출시되고 간단하게 사용한 후기 글을 아래와 같이 썼었습니다. 2022.12.22 - [AI/NLP] - ChatGPT 사용법 A-Z, 예시, 한계점 및 시사점 ChatGPT 사용법 A-Z, 예시, 한계점 및 시사점 OpenAI에서 Text를 Input으로 하여 이미지를 생성하기 위한 모델 DALL-E(2021), DALL-E 2(2022.04) 를 출시했을 때에도 신선한 충격을 받았었지만, 또 많은 사람들을 충격받게 한 Model이 2주 전에 출시되었습니 hotorch.tistory.com 4개월 전에 관련 글을 지금 다시 보니, 정말 활용을 못하고 글만 올렸다는 느낌이 드는데요. 제가 이전에 작성했던..

article thumbnail
한국어 자연어처리(NLP) 데이터셋 모음
AI/NLP 2023. 2. 27. 00:01

AI 분야를 공부하거나 업계에서 종사한다면, 항상 문제 되는 이슈는 데이터 셋입니다. 요리를 만들어서 내놓으라고 하지만, 요리사 입장에서는 재료부터 없다면 머리가 뜨끈해지기 때문입니다. 이번 글은 제가 알고 있는 오픈된 자연어처리(Natural Language Processing) 한국어 데이터만을 다루고자 합니다. 현업에서도 어떤 모델이나 실험 설계 시, 간단하게 테스트를 해보거나 벤치마크 용으로 많이 활용하는 것이 오픈된 데이터입니다. 그럼 시작해 보겠습니다. Hugging Face 첫번째로는 허깅페이스(Hugging Face) 입니다. Transformers 라이브러리와 User가 Pre-trained 모델 및 데이터셋을 공유할 수 있는 자연어처리 플랫폼으로 가장 유명합니다. 우측 상단 데이터셋 탭..

article thumbnail
ChatGPT 사용법 A-Z, 예시, 한계점 및 시사점
AI/NLP 2022. 12. 22. 21:25

OpenAI에서 Text를 Input으로 하여 이미지를 생성하기 위한 모델 DALL-E(2021), DALL-E 2(2022.04) 를 출시했을 때에도 신선한 충격을 받았었지만, 또 많은 사람들을 충격받게 한 Model이 2주 전에 출시되었습니다. 뜨거운 감자인 Topic이고 출시하고 1주일 만에 100만 명이 가입을 한 ChatGPT입니다. 어원은 우리가 익히 아는 ChatBot과 언어 생성 모델의 대표 모델인 GPT를 결합한 대화형(+그 이상) 언어모델 ChatGPT입니다. 옛날에는 궁금한 것을 네이버 지식인에 물어본 시절이 있었고 지금까지는 구글을 이용하여 우리가 모르는 정보를 알아내서 문제를 해결을 했었습니다. ChatGPT는 모르는 정보나 궁금한 내용에 대한 질의를 달면 실시간으로 답변이 달리는..

article thumbnail
Dependency Parsing (1)
AI/NLP 2022. 4. 17. 18:52

NLP에서 분류와 생성, 키워드 추출, NER, MRC 등 다양한 Task들이 존재합니다. 하지만 이번에 또 다른 영역인 "Parsing"이라는 영역을 공부하게 되었고 그중 단어 간 관계를 파악하는 것이 목적인 "Dependency Parsing"에 대해 공부한 것을 정리하고자 합니다. 우선적으로 컴퓨터과학에서 "Parsing"의 정의를 점검하자면, 각 문장의 문법적인 구성 또는 구문을 분석하는 과정"이라고 표현합니다. 일련의 문자열을 의미있는 Token으로 분해하고 이들로 이루어진 Parse Tree를 만드는 과정을 뜻합니다. parse tree의 예는 아래와 같습니다. 위와 같은 구문분석 트리를 구성하는 것이 "Parsing" 이라고 부릅니다. Tokenizing은 의미를 잘게 쪼개어주고, Pos-T..

article thumbnail
오프라인(인터넷이 안되는)환경에서 Pre-trained Language Model 모델 부르기 with PORORO
AI/NLP 2022. 4. 2. 12:15

NLP을 활용한다고 하면 Pre-trained Language Model(PLM)은 필수인 시대인데, 온라인 환경에서는 그냥 README.md나 튜토리얼 코드를 그냥 그대로 따라 하면 쉽게 실습을 할 수 있습니다. 하지만 오프라인 환경에서는 이를 수행할 수 없습니다. 그 이유는 PLM model들이 huggingface hub(공식 doc)에서 모델을 다운받아 활용하기 때문입니다. 외부 온라인 환경에서 다운로드하여 오프라인 환경에 맞게 실행이 되는 경로에 배치를 해야 합니다. 이번 글에서는 카카오브레인에서 옛날에 개발한 NLP 관련 플랫폼 패키지인 PORORO를 예시로 두고 활용하고자 합니다. (PORORO 관련 Reference는 아래에 기술하였으니 참고하시면 됩니다.) 1. 온라인 환경에서 우선 Te..

article thumbnail
[패스트캠퍼스 챌린지 최종 미션] 머신러닝서비스구축을위한실전MLOps 강의 후기
AI/MLOps 2022. 3. 21. 23:14

공백 제외 4000자 후기를 작성해보겠습니다. 1. 강의 신청 배경 및 이유 3년 가까이 ML 관련 컨설팅 프로젝트하면서 불편하고 고생했던 점들을 나열하면 상당하다고 자부할 수 있습니다. 석사, 주니어 때(지금도 실력이 전혀 뛰어나진 않지만)부터 지금까지 논문을 작성하거나 기존 ML 프로젝트 진행을 하면서 느꼈던 것들을 서술해보면 다음과 같습니다. - 석사 때(바야흐로 2017년 말) 성능이 가장 좋았던 모델이나 데이터 정보 기억은 나지만 n번째 좋은 모델이나 다른 데이터들을 Tracking하기 어려웠습니다. 또한 수많은 실험을 진행하면서 데이터와 모델 관리가 쉽지 않았습니다. 매일매일 코드를 보면 그러려니 하겠지만, 오랜만에 다시 보려면 기억을 더듬는데 시간 cost가 꽤 컸습니다. - 석사 때 R 코..