본문 바로가기

반응형

전체 글

(128)
데이터 스케일링 (Data Scaling), 어떤 스케일러를 쓸 것인가? 데이터를 모델링하기 전에는 반드시 스케일링 과정을 거쳐야 한다. 특히 k-means 등 거리-기반의 모델에서는 넓은 범위의 값을 가지는 변수가 거리 측도를 지배하는 상황을 방지하기 위해 스케일링이 매우 중요하다. 스케일링 개념 데이터 스케일링(Data Scaling) 데이터의 값의 범위를 조정하는 것, 데이터 수치를 일정한 수준으로 변환하는 것 왜? ex) 키(height)와 몸무게(weight) 변수가 있다고 하면 단위는 각각 (cm, kg)이며 표본이 성인이라고 가정하면 범위는 (150cm - 190cm), (40kg - 100kg) 정도로 다른 단위가 범위를 가진다. 이러한 단위 차이는 몇몇 회귀 모형이나 머신러닝 기법에서 문제를 일으킬 수 있다. 거리 기반의 모델링(distance based mo..
언제 MSE, MAE, RMSE를 사용해야 하는가? 선형 회귀의 목적은 모든 데이터 포인트의 예측 오류를 최소화하는 선을 찾는 것이다. MSE, MAE, RMSE는 모두 오차함수이다. 어떤 모델이 학습 데이터를 받아 아래 테이블 내 수치들을 예측했다고 생각하면, target : 맞춰야할 정답 epoch : 학습의 횟수 Epoch 2에서 prediction의 3번째 값인 2는 Target의 3번째 값인 7와 크게 벗어나게 예측한 Outlier이다. 이들 값을 가지고 MSE, RMSE, MAE를 계산해보면 아래와 같다. MSE(Mean Square Error) 평균 제곱 오차는 데이터 세트의 원래 값과 예측 값 간의 제곱 차이의 평균을 나타낸다. 가장 일반적이고 직관적인 에러 지표, 낮을수록 좋다. 잔차의 분산을 측정한다. 장점 - 지표 자체가 직관/단순 예..
파이썬 선형 회귀 분석 결과 해석(OLS) 파이썬의 statsmodels에 있는 OLS Model에 대해서 포스팅을 해보겠습니다. from statsmodels.formula.api import ols OLS (Ordinary Least Sqaures, Ordinary Least Sqaure Method) 오차를 전제로 최소제곱법에 의해 추정하는 방법 No. Observation : 총 관측치 Df Residuals : DF는 Degree of Freedom으로 잔차의 자유도를 의미한다. (No, Observation) – (종속변수 수) – (독립변수 수) F-ratio 계산 시 잔차제곱평균이 사용되며, 잔차제곱평균은 (잔차/잔차 자유도)로 계산 Df Model : 독립변수의 개수 R squared : R의 제곱, 결정계수를 의미한다. 전체 데..
워드투벡터(Word2Vec) 임베딩은 텍스트를 단순하게 표현할 수 있어 다양한 통계적 자연어 처리기법에 적용되고 있습니다. 이번 컨텐츠에서는 Word2Vec에 대해서 알아보겠습니다. 1. 워드 임베딩(Word Embedding) 임베딩이란, 비정형화된 텍스트를 숫자로 바꿔줌으로써 사람의 언어를 컴퓨터 언어로 번역하는 것을 뜻한다. 1.1 희소표현(sparse representation) : 원-핫 인코딩(one-hot encoding)을 통해 나온 원-핫 벡터(One-hot Vector) 처럼 벡터 또는 행렬의 값이 대부분이 0으로 표현되는 방법이다. 예를 들어 ‘나는 임베딩 공부를 하고 있다’는 문장을 희소 표현으로 나타내면 의 (좌)과 같이 나타낼 수 있다. - 고차원에 각 차원이 분리된 표현 방법 이는 표현하고자 하는 단어는 ..
[WFK 월드프렌즈코리아 IT봉사단] 소양교육 및 발대식 2023 world friends korea IT Volunteers, 2023 월드프렌즈코리아 IT봉사단 소양교육 및 발대식 2023년에서는 홍익대학교 국제연수원에서 6월 28일 ~ 6월 30일, 총 2박 3일로 진행했습니다. 오송역 3번 출구로와서 주최 측에서 준비해준 단체 버스를 타고 홍익대학교 국제연구원에 도착합니다. 오송역 3번 출구로 나오면 팜플렛이 있어서 쉽게 찾을 수 있어 좋았습니다. :) 도착!! 교육장으로 바로 가줍니다. 홍익대학교 국제교육원인가로 도착해줍니다. 각자 참가자 등록을 해주고, 필요한 지원 물품 배부 확인해서 물품 수령증을 작성해주고, 각자 동의서를 작성해줍니다. 바로 소양교육 및 발대식을 시작합니다. 방에서 짐을 풀고, 점심을 먹어줍니다. 점심은 낫뱃! 저는 냐미냐미 😝 ..
[BEAKJOON] 백준 14698번 : 전생했더니 슬라임 연구자였던 건에 대하여 - 파이썬 제목이 너무 재미있다. https://www.acmicpc.net/problem/14698 14698번: 전생했더니 슬라임 연구자였던 건에 대하여 (Hard) 각 테스트 케이스마다 슬라임을 끝까지 합성했을 때 청구될 비용의 최솟값을 1, 000, 000, 007로 나눈 나머지를 출력한다. 전기 에너지가 전혀 필요하지 않은 경우엔 1 을 출력한다. www.acmicpc.net 입력 첫 번째 줄에 테스트 케이스의 수 T 가 주어지고, 이어서 T 개의 테스트 케이스가 주어진다. 각 테스트 케이스의 첫 번째 줄에는 슬라임의 수 N (1 ≤ N ≤ 60)이 주어지고, 두 번째 줄에는 N 개의 자연수가 주어진다. i번째 자연수 Ci (2 ≤ Ci ≤ 2 × 1018) 는 i번째 슬라임의 슬라임 에너지를 나타낸다. ..
[BEAKJOON] 백준 1112번 : 진법 변환 - 파이썬 https://www.acmicpc.net/problem/1112 1112번: 진법 변환 우리는 10진수를 사용한다. 10진수는 0부터 9까지 숫자를 사용한다. 12345가 10진수라면, 이 값은 1×104 + 2×103 + 3×102 + 4×101 + 5×100이다. 자 이제 -10진법을 보자. 이 수도 0부터 9까지 숫자를 사용하고, www.acmicpc.net 문제 입력 첫째 줄에 두 정수 x와 b가 주어진다. 출력 첫째 줄에 문제의 정답을 출력한다. 접근 음수 예제 입력 2를 보면, 8265, -10는 12345의 값이다. 1*(-10)^4 + 2*(-10)^3 + 3*(-10)^2 + 4(-10)^1 + 5(-10)^0 = 10000 - 2000 + 300 - 40 + 5 = 8265 문제는 "..
[BEAKJOON] 백준 10451번 : 순열 사이클 - 파이썬 https://www.acmicpc.net/problem/10451 10451번: 순열 사이클 1부터 N까지 정수 N개로 이루어진 순열을 나타내는 방법은 여러 가지가 있다. 예를 들어, 8개의 수로 이루어진 순열 (3, 2, 7, 8, 1, 4, 5, 6)을 배열을 이용해 표현하면 \(\begin{pmatrix} 1 & 2 &3&4&5&6&7&8 \\ 3 www.acmicpc.net 문제 입력 첫째 줄에 테스트 케이스의 개수 T가 주어진다. 각 테스트 케이스의 첫째 줄에는 순열의 크기 N (2 ≤ N ≤ 1,000)이 주어진다. 둘째 줄에는 순열이 주어지며, 각 정수는 공백으로 구분되어 있다. 출력 각 테스트 케이스마다, 입력으로 주어진 순열에 존재하는 순열 사이클의 개수를 출력한다. 접근 그래프 내에 ..

반응형