'AI&ML' 카테고리의 글 목록

Triplet Loss Triplet Loss단어에서 힌트를 얻을 수 있듯이 총 3가지 부류의 데이터를 학습을 한다.이 Loss는 2010년대에 많이 사용되었던 loss인데, 주로 Metric Learning을 위해 사용되었다. Triplet Loss는 기준이 되는 Anchor 데이터, Anchor 데이터와 다른 class에 속하는 Negative 데이터, Anchor 데이터와 같은 class에 속하는 Positive 데이터를 가지고 학습을 한다.Anchor와 다른 class인 Negative point는 Anchor와 같은 class인 Positive point 보다 'α만큼 더' 멀리 떨어져있어야한다를 학습시키는 전략이다. 이때, 단순히 더 멀리 떨어져있어야한다가 아닌 'α만큼 더' 멀리 떨어져있어야한다라는 조건을 주는 이..

차원의 저주 (curse of dimensionality) 🧩 차원의 저주예전 Lab실에서 차원 축소 기법인 PCA에 대해 고민을 할때부터 알고있다고 착각했던 적이 있어서 정확히 알아보는 시간이 필요했다. 🖼️ 이미지는 "고차원 데이터" 다800x600 픽셀의 RGB 이미지를 예로 들어보면, 이 이미지를 데이터로 표현할 때는 800x600x3, 즉 총 1,440,000차원으로 나타낼 수 있습니다. 이때 "이미지가 2차원 데이터가 아닌가?"라는 의문이 들 수 있다. 🔍 이미지는 왜 고차원 데이터일가? (생략가능)더보기하지만 여기서 말하는 "2차원"은 기하학적인 관점에서의 공간적 구조를 뜻한다. 이미지를 생각해보면, 각 픽셀은 (x, y)라는 2차원 좌표를 가지고 있다. 그리고 각 픽셀의 R, G, B 값은 각각 (0~255) 사이의 값을 가지며, 이 세 가..

Mocking을 통해 Test Code 작성하기 모킹이란모킹(mocking)은 외부 서비스에 의존하지 않고 독립적으로 실행이 가능한 단위 테스트를 작성하기 위해서 사용되는 테스팅 기법이다. 단위 테스트를 작성할 때 외부에 의존하는 부분을 임의의 가짜로 대체하는 기법이 자주 사용되는데 이를 모킹(mocking)이라고 한다.unittest.mock 모듈의 patch() 데코레이터Mock 객체 설정하기mocking은 mock이라고 불리는 가짜 객체를 생성하는 것부터 시작한다.이 mock 객체가 어떻게 작동을 할지를 지정해줄 수 있으며, 이 mock 객체는 자신을 상대로 어떤 작업이 일어났는지를 기억한다.먼저 호출되었을 때 특정 값을 리턴하는 mock 객체는 return_value 옵션을 이용해서 생성할 수 있다.>>> from unittest.mock im..

왜 가중치(w)의 크기를 줄이면 Overfitting을 막을 수 있을까? 1. Overfitting의 정의overfitting은 모델이 학습데이터에 대해 과도하게 맞춰져, 새로운 데이터에 대해 일반화 능력이 떨어지는 현상이다. 이는 모델이 데이터의 본질적인 특성보다 복잡할때 발생한다.2. 가중치(W)와 모델 복잡성의 관계가중치는 모델의 각 특성이 예측에 미치는 영향력을 나타낸다. 가중치의 절대값이 크면 해당 특성이 예측에 강한 영향을 미친다.데이터의 본질적인 특성에 비해 모델의 각 특성(feature) 수가 증가하면 모델이 고려해야 할 정보와 관계가 늘어나 모델이 복잡해진다. 모델이 복잡해지면 데이터를 표현할 수 있는 방법이 더 다양해진다는 의미로, 학습 데이터의 작은 변화에도 민감하게 반응을 하는 등 학습 데이터에 과도하게 맞춰질 가능성이 높아 모델의 variance가 커진..

[Debug] 디버깅하느라 print해놨는데 어디에 해놓았는지 모르는 경우 말 그대로이다. 디버깅하느라 print해놨는데 code 어디에 해놓았는지 모르는 경우 사실 패키지를 직접 수정하는 것은 일반적으로 권장되지 않는다.하지만 내가 건들였다가 계속 쓸데없는 부분들이 함께 logging되고있는 경우 grep을 사용하면 된다. 눈에 보이는 코드 상에서 찾을때는grep -R "{print문에서 나오는 string부분: 내가 적었던 부분이라고 확신이 있는 부분}" . 또는 가상환경 패키지 내부를 수정했던 것 같다는 경우에는 grep -R "{print문에서 나오는 string부분: 내가 적었던 부분이라고 확신이 있는 부분}" {가상환경 폴더} 이렇게 찾으면 된다.

[Train] ControlNet 학습시키기 https://github.com/lllyasviel/ControlNet/blob/main/docs/train.md ControlNet/docs/train.md at main · lllyasviel/ControlNetLet us control diffusion models! Contribute to lllyasviel/ControlNet development by creating an account on GitHub.github.com ControlNet을 학습시켜보자. 이 문서에 잘 나와있긴하지만, 몇가지 디버깅했던 내용을 포함해서 적어보려한다. ControlNet은 github, huggingface 모두 다 올라와있는데, github에는 코드 중심으로, huggingface에는 데이터 중심으로 나..

[paper review] 3Difftection: 3D Object Detection with Geometry-aware diffusion features 0. Paper Linkhttps://arxiv.org/abs/2311.04391 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion FeaturesWe present 3DiffTection, a state-of-the-art method for 3D object detection from single images, leveraging features from a 3D-aware diffusion model. Annotating large-scale image data for 3D detection is resource-intensive and time-consuming. Recently, pretrarxiv.org1. Introduction..

[paper review] ARES: An Automated Evaluation Framework for Retrieval-AugmentedGeneration Systems 논문 리뷰 https://arxiv.org/abs/2311.09476 ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation SystemsEvaluating retrieval-augmented generation (RAG) systems traditionally relies on hand annotations for input queries, passages to retrieve, and responses to generate. We introduce ARES, an Automated RAG Evaluation System, for evaluating RAG systems along thearxiv.org2023.11Jon Saad-Fa..

[paper review] RAG의 시작 Retrieval-Augmented Generation for Knowledge-Intensive NLP TasksRAG Paper Review [link]Abstractpretrained parametic보통 GPT3나 T5같은 Parametric Impricit knowledge기반의 모델들은 모델 내부에 지식을 암시적으로 저장한다. 대형 데이터셋으로 사전 학습된 언어모델로 학습과정에서 획득한 지식은 내부 parameter에 저장된다. 학습 과정을 거쳐 이미 셋팅된 파라미터들이기에 재학습없이 생성과정에서 사용자가 지식 수정이 불가능하고 모델이 학습시에 보지 못한 정보를 추론해야할때 실제 지식과 관련없는 할루시네이션 문제가 발생한다는 문제점이 존재한다.non-parametric그런 반면 DrQA, OR..

[ML/DL] 소프트맥스 회귀/다항 로지스틱 회귀 소프트맥스 회귀는 다중 클래스에서 회귀를 사용할때 많이 사용되는 방법이다. 각 특징값에 해당하는 가중치들을 각 특징값과 곱해준 값들을 더해주어 각 클래스 k에 대한 점수를 계산한다. 그러면 점수가 클래스 마다 1개씩 나오므로 총 k개가 나올 것이다. 이 k개의 점수들을 softmax 함수에 넣고 softmax값을 획득한다. 이렇게 되면 k개의 softmax값의 합은 1이 되는 다중 클래스 회귀가 된다. 로지스틱 회귀와 마찬가지로 기본적으로 소프트맥스 회기 분류기는 추정 확률, 즉 softmax값이 가장 높은 클래스를 선택한다.

[ML/DL] Entropy, CrossEntropy, KL divergence 개념 정리 KL divergence 예측 분포의 엔트로피와 실제 분포에 대한 엔트로피간의 차이 측정 measure Entropy 불확실성을 수식으로 나타냄 (엔트로피가 높다는 것은 불확실한 정보가 많다는 것) (주사위의 엔트로피가 동전의 엔트로피보다 높음.) CE Loss 내가 예측한 분포와 실제 분포로 구성된 함수로 내가 예측한 분포에 대한 엔트로피 Reference https://velog.io/@rcchun/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%ED%81%AC%EB%A1%9C%EC%8A%A4-%EC%97%94%ED%8A%B8%EB%A1%9C%ED%94%BCcross-entropy [머신러닝] 크로스 엔트로피(cross entropy) 엔트로피는 불확실성의 척도로 정보이론에서의 엔..

[NLP] 라마(LLaMA) 정리 Introduction 라마는 메타(Meta)가 만들어낸 초거대 Language model로 2023년 2월 24일에 공개되었다. Meta가 만든 Langauge model 의 첫 시작은 아니었다. 첫 시작은 OPT라는 모델이었는데, GPT3와 모델 크기가 같지만 성능은 그만큼 잘 나오지 않아서 논문에 자랑보다는 왜 성능이 안나오는지에 대한 고민이 많다. 그렇게 OPT이후에 나온 모델이 라마이다. 라마와 OPT가 나온 시기적 차이사이에는 딥마인드의 친칠라 모델 논문에서 언어모델이 학습 데이터를 충분히 투입하지 않아 덜 학습된 것 같다는 주장이 있었다. 라마도 이 아이디어를 적용해 GPT3의 모델 크기는 반도 안되지만 데이터를 4배 더 투입하여 이전보다는 좋은 성능을 내는 모습을 보여주었다. 라마1은 4가..

이전 1 2 3 다음

라이브러리 브랜드 그룹 | moonshot

티스토리툴바