Practical Statistics for Data Scientists - 통계적 실험과 유의성 검정
3. 통계적 실험과 유의성검정 실험설계는 어떤 가설을 확인하거나 기각하기 위한 목표를 갖고 있다. 특히나 데이터 과학자들은 종종 사용자 인터페이스나 제품 마케팅 실험과 같이 지속적으로 어떤 실험을 수행해야 하는 상황에 있다. 추론이라는 용어는 제한된 데이터로 ...
3. 통계적 실험과 유의성검정 실험설계는 어떤 가설을 확인하거나 기각하기 위한 목표를 갖고 있다. 특히나 데이터 과학자들은 종종 사용자 인터페이스나 제품 마케팅 실험과 같이 지속적으로 어떤 실험을 수행해야 하는 상황에 있다. 추론이라는 용어는 제한된 데이터로 ...
알고리즘 복잡도 표현 방법 1. 알고리즘 복잡도 계산이 필요한 이유 1.1 하나의 문제를 푸는 알고리즘은 다양할 수 있음 정수의 절대값 구하기 1, -1 → 1 방법1 : 정수값을 제곱한 값에 다시 루트를 씌우기 방법2...
스택 (Stack) 1. 스택 구조 스택은 LIFO, FILO 데이터 관리 방식을 따름 2. 용어 push() : 스택에서 데이터를 넣기 pop() : 스택에서 데이터를 빼기 3. 스택의 장단점 장점 구조가 단순...
Colab run time 끊김 방지!!! colab을 사용하다 보면 정확한 시간은 모르지만 대략적으로 1시간 이상 아무런 동작이 없으면 run time이 끊기게 되어 3시간에 걸쳐 돌려놓은 model 결과가 날라가고…. 날라가고… 현상이 있게 된다. 그것을 방지 하기 ...
큐 (Queue) 1. 큐 구조 선입선출(FIFO), 후입후출(LILO) 2. 용어 enqueue : 큐에 데이터를 넣는 기능 dequeue : 큐에 데이터를 빼는 기능 3. 파이썬 queue 라이브러리 활용해서 큐 자료 구조 사용하기 ...
평균-분산 포트폴리오 이론 # 경기 국면별 확률과 주식 기대수익률을 리스트로 저장한다. stock_a = [0.09, 0.05, 0.03] stock_b = [0.22, -0.09, 0.05] prob = [1/3, 1/3, 1/3] # 주식 a와 b의 경기 국면에 ...
1. 자산배분과 포트폴리오 자산배분은 효율적 포트폴리오를 찾아내는 과정이다. 자산배분은 샤프의 CAPM 모델에 기초한다. 수학/통계적인 방법으로 자산들을 분류하고 조합해 원하는 목적에 부합하는 자산군을 만들어내는 것이다. 자산배분에는 리밸런싱 작업이 필요하...
1. 자주 사용하는 통계량 : 기댓값, 분산, 공분산, 상관계수 1.1 평균과 기댓값 보통 평균이라고 하면 산술평균을 가리키는데, 산술평균은 모든 자료 값을 더한 합계를 자료 개수로 나눈 값이다. $average = \frac{1}{n} \sum x_i$ ...
1. NPV와 IRR 투자 세계에서 순현재가치(Net Present Value, NPV)와 내부수익률(Internal Rate of Return, IRR)은 그들만의 언어다. NPV나 IRR만 보고 투자 여부를 결정하는 것은 아니지만, 사업을 계획하거나 투자 제안을 받는...
Deep Learning 첫번째 신경망(딥러닝) 학습의 효율과 정확도를 높일 수 있는 여러가지 기법들을 알아보겠습니다. 1. 매개변수 갱신 신경망 학습의 목적은 손실 함수의 값을 가능한 한 낮추는 매개변수를 찾는 것입니다. 이는 곧 매개변수의 최적값을 찾는 문제이며...
스물한번째 Diary 관계형 데이터베이스에서의 관계 (1:1 / 1:N / N:N) 관계형 데이터베이스(MySQL, SQLite 등)는 엔티티(객체)끼리 관계를 맺을 수 있다. 관계는 두 엔티티가 서로 관련이 있을 때를 말하는데, 다음과 같은 관계를 맺을 수 있다....
스무번째 Diary Ridge Regression ridge regression 은 다항회귀분석의 다중공선성과 over-fitting(과적합) 문제를 방지하기 위해 정규화 방식이 적용되었다. 여기서 다중공정성이란 독립변수 x들간의 강한 상관관계가 나타나서, 독립변...
열아홉번째 Diary Multiple Linear Regression # library import import pandas as pd import numpy as np from collections import Counter from sklearn.preproc...
1월 31일에 하게된 나의 포스팅 리뷰 시작은 12월 4일에 하게 되었지만 실질적으로는 12월 28일 codestates 부트캠프가 시작하면서, 제대로된 포스팅도 시작하게 된거 같다. 하지만 나의 안일함 때문인지 무조건 포스팅을 남겨야 되겠다는 마음인지는 모르겠으나, 그냥 정말...
AI Bootcamp Section1 Review4 K-Means Clustering(K 평균 군집화) Clustering은 가장 널리 알려진 비지도학습 중 한 가지 기법으로, 비슷한 유형의 데이터를 그룹화함으로써 unlabeled 데이터에 숨겨진 구조를 파악한다....
열여덟번째 Diary Linear Regression Codestates에서 이번 section에서는 머신러닝, 딥러닝을 배우게 되었다. 그러면서 처음으로 어제 오늘 linear regression 우리말로 선형회귀분석에 대해서 배웠다. 짤막하게 예제를 통해서 남겨...
AI Bootcamp Section1 Review3 PCA week3을 하면서 내가 아직도 이해가 잘가진 않지만 음… 그러니깐 내용이 머리로는 이해가 가는데 python의 모듈이 돌아가는 과정이 이해가 가진 않지만 그래도 해볼순 있는데 까진 해보려고 한다. 어차피 ...
AI Bootcamp Section1 Review2 2. Statistics(Hypothesis Test) week2에서는 통계학을 배웠는데 그 중에서도 가설검정 하는걸 위주로 배웠기 때문에 소제목을 Hypothesis Test라고 지었다. 그중에서도 특히...
AI Bootcamp Section1 Review1 내가 section 1 을 학습하며 배운 내용을 토대로 백지복습을 하려 한다. 알고 있는 내용들은 이미 블로그에 포스팅을 해 놓았고, github에 fork했으니, 내가 모르고 있었거나 좀 더 공부 하고 싶은 내용들...
연속확률변수의 확률분포함수 연속확률변수는 확률변수가 특정 구간의 모든 값을 다 가질 수 있기 때문에 가질 수 있는 값들을 일일이 지칭할 수 없는 확률변수를 의미한다. 이는 앞서 설명한 “첫번째 통계학 - 이산확률변수, 확률분포함수”에서 확인할 수 있다. 따라서 연속확...
열일곱섯번째 Diary 프로젝트의 1주일이 지나가고 피드백을 받았다. 물론 부족한 부분이 많았다. 제일 부족한 부분은 내가 배운 군집분석, PCA등 여러가지의 수학적 분석 방법을 배웠는데 정작 어디에 써야 할지 감이 안오는 거였다. 물론 많이 보고 많이 해보면 감이...
ADsP 독학 합격 후기에요!
네번째 Diary
세번째 Diary
두번째 Diary
AI Bootcamp 1기 시작 첫번째 Diary
MathJax를 사용하면, 수학식을 표현할 수 있어요.
Github blog Start!