Scatch note
Tag – datascience
5 posts tagged with "datascience" (See all tags)

[Kaggle 커널분석 notebook] House price prediction -2

2021-10-129 Min Read — In howto

kaggle house price prediction EDA 필사. 1. 무엇을 해야할까? 아래의 값을 엑셀 스프레드시트에 저장하자. Variable: 변수명 Type: 변수의 타입값, 컬럼의 값들이 수치를 나타내는 'numerical'타입과, 범주형 변수를 나타내는 'categorial' 값 두개만 들어갈 수 있음 Segment: 변수의 구분값. building, space, location값이 들어갈 수 있음 Expectation…

[Kaggle 커널분석 notebook] House price prediction

2021-10-043 Min Read — In howto

House price prediction (top4% kernel) 참고. House price prediction 분석 아래는 캐글 집값예측 샘플데회에 대한 나의 코드이다. 보시다시피 EDA도 안하고 무작정 전처리 / 모델링이 끝이며, 스코어도 발산하는 코드이다. House price prediction 분석 -2 부터는 나의 기본코드를 개선할 것이다. House price prediction (top4% kernel…

Datascience 패키지 메서드 사용법 정리

2021-09-202 Min Read — In howto

Pandas DataFrame.select_dtypes() dtype이 맞는 컬럼만 골라낸다. p.s 아래와 같이 구현할수도 있다. read_csv() csv파일을 Pandas.DataFrame으로 읽어들인다. index_col : index로 사용할 컬럼을 지정한다 DataFrame.copy 기존 데이터프레임을 새로 만들어 반환한다. Series.unique 컬럼의 유니크 요소 반환 결과 DataFrame.nunique, Series…

XGBoost 파라미터 설명 요약

2021-08-224 Min Read — In howto

Machine Learning XGBoost 파라미터 설명_kaggle XGBoost 파라미터 설명 정규화된 선형회귀(ratsgo님 블로그) XGBoost 파라미터 설명_kaggle 번역 및 정리 General params 2.1.1 booster 부스터 파라미터는 어떤 부스터를 사용할것인지에 대한 파라미터 각각의 iteration에 어떤 부스터를 사용할지 지정할 수 있도록 함 gbtree, gblinear, dart…

Pandas 기초 사용법

2021-05-151 Min Read — In howto

공통코드 loc: label이나 쿼리를 통해 선택하는 방법 label orientied : inclusive of end Location iloc: 행번호로 선택하는 방법 position oriented : exclusive of end Index location