공부 (95) 썸네일형 리스트형 Voting, Bagging, Boosting Voting 하드 보팅, Hard Voting 다수결 원칙과 비슷하다. 예측한 결괏값들 중 다수의 분류기가 결정한 예측값을 최종 보팅 결괏값으로 선정한다. 소프트 보팅, Soft Voting 분류기들의 레이블 값 결정 확률을 모두 더하고 이를 평균해서 이들 중 확률이 가장 높은 레이블 값을 최종 보팅 결괏값으로 선정한다. 위와 같이 예측값이 확률로 산출될 경우 Hard Voting과 Soft Voting의 최종 예측 Class가 다르게 나올 수 있다. 일반적으로 하드 보팅보다는 소프트 보팅이 예측 성능이 좋아서 더 많이 사용된다. Bagging, 배깅 배깅은 훈련 세트에서 중복을 허용하여 샘플링하는 방식, bootstrap aggregating의 줄임말이다. (↔페이스팅(pasting) : 중복을 허용하.. [NLP] Text Vectorization (작성중) 말뭉치(Corpus) : 특정한 목적을 가지고 수집한 텍스트 데이터 문서(Document) : 문장(Sentence)들의 집합 문장(Sentence) : 여러 개의 토큰(단어, 형태소)으로 구성된 문자열, 마침표, 느낌표 등의 기호로 구분 어휘집합(Vocabulary) : 코퍼스에 있는 모든 문서, 문장을 토큰화 하고 중복을 제거한 토큰의 집합 토큰(Token) : 의미를 가진 가장 작은 단위 토큰화(Tokenization) : 토큰단위로 나누는 것 자연어 처리(Natural Language Processing, NLP) 자연어(사람들이 일상적으로 사용하는 언어를 인공적으로 만들어진 언어인 인공어와 구분하여 부르는 개념)를 컴퓨터로 처리하는 기술 Text Vectorization 자연어 처리에서는 기계가.. 상관계수의 종류 상관분석(Correlation Analysis)은 데이터 안의 두 변수 간의 관계를 알아보기 위해서 한다. 주 변수의 상관관계를 알아보기 위해서 상관계수(Correlation coefficient)를 이용한다. • Pearson r: - 연속 변수들 간의 상관계수 - 선형적 관계를 가정. - 만약에 0이라면 상관관계가 없는 것이 아닌, 선형적 관계가 없다는 의미. • Spearman's r. - 서열척도들간의 상관계수 - 연속변수라 하더라도 극단적인 값들이 존재하면 Pearson Correlation 대신 Spearman 상관계수를 사용할 수 있음. - 계산 방법은 자료의 서열을 정한 다음, 이 서열간의 Pearson 상관계수를 계산하면 됨. • 파이 상관계수, Phi(φ) coefficient. - 두.. [NLP] 식물 아닌 모델 관찰일지 보호되어 있는 글입니다. [NLP] 모델 정확도 향상(keras.preprocessing vs nltk.tokenize) 토큰화 ? 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 함. 문제상황 Keras로 다중 클래스 분류 문제에서 모델 정확도 향상에 전처리 단계를 검토하는 중 현 개발중인 모델에서는 from keras.preprocessing.text import Tokenizer 를 사용하고 있지만, keras.preprocessing과 nltk 두개의 tokenizers 둘 중에 어떤 토큰화가 좋을까? 의문에서 시작. keras.preprocessing vs nltk.tokenize 기본적으로 둘 다 일부 정규식 기반 토큰화를 사용하고 있음. 차이점은 복잡성(complexity)에 있음. Keras Tokenizer : 특정 구두점 문자를 대체하고.. 내가 보려고 쓰는 python 다룰 때 사소하지만 계속 찾아보는 것들 csv 파일 불러오기 {pandas dataframe 이름}.read_csv('{파일 이름.csv}') ex) goemotion_train = pd.read_csv('data/goemotions_train_with_guid.csv') tsv 파일 불러오기 {pandas dataframe 이름}.read_csv('{파일 이름.tsv}', sep="\t") ex)goemotion_test = pd.read_csv('data/goemotions_test.tsv', sep="\t", header=None, names=['context','emotion', 'w']) 불필요한 열 지울때 {pandas dataframe 이름}.drop(labels = '{열 이름}', axis=1) ex) goemotion_tes.. [BEAKJOON] 백준 1016번 : 제곱 ㄴㄴ 수 문제 : https://www.acmicpc.net/problem/1016 1016번: 제곱 ㄴㄴ 수 어떤 정수 X가 1보다 큰 제곱수로 나누어 떨어지지 않을 때, 그 수를 제곱ㄴㄴ수라고 한다. 제곱수는 정수의 제곱이다. min과 max가 주어지면, min보다 크거나 같고, max보다 작거나 같은 제곱ㄴㄴ수 www.acmicpc.net 문제 설명 어떤 수 X가 1보다 큰 제곱수로 나누어 떨어지지 않을 때, 제곱ㄴㄴ수라고 한다. 제곱수는 정수의 제곱. min과 max가 주어지면, min과 max를 포함한 사이에 제곱ㄴㄴ수가 몇 개 있는지 출력한다. 삽질? [첫번째 삽질(원초적)] - 알고리즘 분류중에서 에라토스테네스의 체를 보고 처음에는 하나씩 지워가면 되겠다. 제곱수를 카운트를 하자 해서 내가 생각한 제.. [BEAKJOON] 백준 24039번 : 2021은 무엇이 특별할까? 문제 : https://www.acmicpc.net/problem/24039 24039번: 2021은 무엇이 특별할까? 백준 온라인 저지의 송년대회 Good Bye BOJ, 2021!의 개최일은 2021년 12월 31일이다. 원이는 대회가 개최된다는 사실이 기뻐 제목을 뚫어져라 보다가 2021이 무언가 특별하다는 사실을 깨달았다. 그렇 www.acmicpc.net 문제 연속한 두 소수의 곱으로 이루어져 있으면 특별한 수라 부른다고 약속한다. 주어진 수 N보다 큰 특별한 수 중 가장 작은 수를 구한다. 소수란? 1과 자기자신 이외의 수로 나눠지지 않는 1보다 큰 양의 정수 왜 틀렸었나? 소수는 1부터가 아니다. 2부터이다..! 1을 넣었으면 2 x 3 = 6 을 출력해야 되는데, 1 x 2 = 2 를 출력.. 이전 1 ··· 6 7 8 9 10 11 12 다음