전체 글 (155) 썸네일형 리스트형 머신러닝 강의 1편 보호되어 있는 글입니다. Voting, Bagging, Boosting Voting 하드 보팅, Hard Voting 다수결 원칙과 비슷하다. 예측한 결괏값들 중 다수의 분류기가 결정한 예측값을 최종 보팅 결괏값으로 선정한다. 소프트 보팅, Soft Voting 분류기들의 레이블 값 결정 확률을 모두 더하고 이를 평균해서 이들 중 확률이 가장 높은 레이블 값을 최종 보팅 결괏값으로 선정한다. 위와 같이 예측값이 확률로 산출될 경우 Hard Voting과 Soft Voting의 최종 예측 Class가 다르게 나올 수 있다. 일반적으로 하드 보팅보다는 소프트 보팅이 예측 성능이 좋아서 더 많이 사용된다. Bagging, 배깅 배깅은 훈련 세트에서 중복을 허용하여 샘플링하는 방식, bootstrap aggregating의 줄임말이다. (↔페이스팅(pasting) : 중복을 허용하.. 멀티레이블.... MultiOutputClassifier sklearn.multioutput.MultiOutputClassifier : 다중 출력 데이터 분류가능 Multi target classification, 다중 대상 분류 기본적으로 다중 대상 분류를 지원하지 않는 분류기를 확장하기 위한 전략. Parameters(파라미터) estimator - estimator object : 모델 객체 넣기 n_jobs - int or None, optional (default=None) : 병렬로 실행할 작업 수. from sklearn.multioutput import MultiOutputClassifier classifier = MultiOutputClassifier([estimator NAME], n_jobs=n) Attributes(속성) classes_ .. [NLP] Text Vectorization (작성중) 말뭉치(Corpus) : 특정한 목적을 가지고 수집한 텍스트 데이터 문서(Document) : 문장(Sentence)들의 집합 문장(Sentence) : 여러 개의 토큰(단어, 형태소)으로 구성된 문자열, 마침표, 느낌표 등의 기호로 구분 어휘집합(Vocabulary) : 코퍼스에 있는 모든 문서, 문장을 토큰화 하고 중복을 제거한 토큰의 집합 토큰(Token) : 의미를 가진 가장 작은 단위 토큰화(Tokenization) : 토큰단위로 나누는 것 자연어 처리(Natural Language Processing, NLP) 자연어(사람들이 일상적으로 사용하는 언어를 인공적으로 만들어진 언어인 인공어와 구분하여 부르는 개념)를 컴퓨터로 처리하는 기술 Text Vectorization 자연어 처리에서는 기계가.. 상관계수의 종류 상관분석(Correlation Analysis)은 데이터 안의 두 변수 간의 관계를 알아보기 위해서 한다. 주 변수의 상관관계를 알아보기 위해서 상관계수(Correlation coefficient)를 이용한다. • Pearson r: - 연속 변수들 간의 상관계수 - 선형적 관계를 가정. - 만약에 0이라면 상관관계가 없는 것이 아닌, 선형적 관계가 없다는 의미. • Spearman's r. - 서열척도들간의 상관계수 - 연속변수라 하더라도 극단적인 값들이 존재하면 Pearson Correlation 대신 Spearman 상관계수를 사용할 수 있음. - 계산 방법은 자료의 서열을 정한 다음, 이 서열간의 Pearson 상관계수를 계산하면 됨. • 파이 상관계수, Phi(φ) coefficient. - 두.. [NLP] embedding 기법(GloVe vs ?) 보호되어 있는 글입니다. [NLP] 식물 아닌 모델 관찰일지 보호되어 있는 글입니다. [NLP] 모델 정확도 향상(keras.preprocessing vs nltk.tokenize) 토큰화 ? 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 함. 문제상황 Keras로 다중 클래스 분류 문제에서 모델 정확도 향상에 전처리 단계를 검토하는 중 현 개발중인 모델에서는 from keras.preprocessing.text import Tokenizer 를 사용하고 있지만, keras.preprocessing과 nltk 두개의 tokenizers 둘 중에 어떤 토큰화가 좋을까? 의문에서 시작. keras.preprocessing vs nltk.tokenize 기본적으로 둘 다 일부 정규식 기반 토큰화를 사용하고 있음. 차이점은 복잡성(complexity)에 있음. Keras Tokenizer : 특정 구두점 문자를 대체하고.. 이전 1 ··· 9 10 11 12 13 14 15 ··· 20 다음