인공지능 기초 / 머신러닝 1. 퍼셉트론의 과제 - 직선을 하나 그어서 직선의 한쪽 편에는 검은 점, 다른 한쪽에는 흰 점만 있도록 해보시오. - 이것이 퍼셉트론의 한계를 설명할 때 등장하는 XOR(exclusive OR) 문제 2. SVM - 서포트 벡터 머신은 여백(Margin)을 최대화하는 지도 학습 알고리즘 - 여백(Margin)은 주어진 데이터가 오류를 발생시키지 않고 움직일 수 있는 최대 공간 - 분류를 위한 서포트 벡터 머신 SVC (class) - 회귀를 위한 서포트 벡터 머신 SVR (regression) 3. Decision Tree - 분류와 회귀 문제에 널리 사용하는 모델 - 기본적으로 결정 트리는 결정에 다다르기 위해 예/아니오 질문을 이어 나가면서 학습 - scikit-learn..
1. Tokenizer [설명] Tokenizer는 자연어 처리에서 텍스트를 분석할 수 있는 형태, 주로 '토큰(token)'이라는 단위로 분리하는 작업을 수행하는 도구입니다. '토큰'은 문맥에 따라 다르지만, 대부분의 경우 단어, 문장, 문단 등을 의미합니다. 토큰화의 주 목적은 원시 텍스트 데이터를 머신러닝 알고리즘이 처리할 수 있는 구조로 변환하는 것입니다. [코드] from keras.preprocessing.text import Tokenizer text = '나는 진짜 매우 매우 매우 매우 맛있는 밥을 엄청 많이 많이 많이 먹어서 매우 배가 부르다.' token = Tokenizer() token.fit_on_texts([text]) # fit on 하면서 index 생성됨 index = to..
자연어처리(NLP) 기초 1. 워드 임베딩 x (Word Embedding) - 텍스트를 컴퓨터가 이해할 수 있도록 숫자로 변환 - 단어를 표현하는 방법에 따라서 자연어 처리의 성능이 크게 달라짐 - 워드 임베딩은 각 단어를 인공 신경망 학습을 통해 벡터(Vector)화하는 방법 - 케라스에서 제공하는 Embedding() => 단어를 랜덤한 값을 가지는 벡터로 변환한 뒤에, 인공 신경망의 가중치를 학습 2. 인공지능에서 벡터 x (vector)란 vector (50000,32,32,3) 60000,28,28) # reshape가 필요한 형태 이러한 형태를 '벡터'라고함. - 인공지능 분야에서 벡터는 대개 고차원의 숫자 배열(array)을 의미함 - 이미지 데이터의 벡터는 각 픽셀(pixel)의 색상 값..