본문 바로가기

판다스/함수 cheat sheet71

[pandas] dropna 결측값(null)이 있는 열이나 행을 삭제하는 함수 import pandas as pd data = [[88, 66, None], [None, None, 69], [69, 82, None], [71, 89, 98]] df = pd.DataFrame(data, index=list('ABCD'), columns=['국어', '영어', '수학']) pandas dropna df.dropna(axis=0, how='any', subset=None) axis 행을 삭제하는지 열을 삭제하는지 지정하는 매개변수. 기본값은 0이고 결측값이 존재하는 행을 삭제한다. how 어떤 기준으로 NaN을 보유한 열이나 행을 어떻게 삭제할지 지정하는 매개변수. 'any'는 하나라도 NaN이 있으면 삭제하고, 'all'은 모두 Na.. 2023. 2. 13.
[pandas] pivot 집계 함수 없이 피벗 테이블을 만드는 함수. 주로 문자열 피보팅에 쓰인다 import pandas as pd data = {'반': ['A', 'A', 'A', 'B', 'B', 'B'], '등수': ['1등', '2등', '3등', '1등', '2등', '3등'], '이름': ['김판다', '강승주', '조민영', '최진환', '박상현', '권보아']} df = pd.DataFrame(data) df.pivot(index=None, columns=None, values=None) index (열의 레이블) 행으로 그룹을 나눌 열의 레이블 columns (열의 레이블) 열로 그룹을 나눌 열의 레이블 values (열의 레이블) values에 위치하게 될 열의 레이블. 집계함수가 없기에 복수인 그룹이 하나.. 2023. 2. 12.
[pandas] pivot_table 원시 데이터(raw data)로 피벗 테이블을 생성하는 함수 import pandas as pd data = {'이름': ['김판다', '강승주', '조민영', '안지선', '최진환', '박연준'], '성별': ['남', '여', '여', '여', '남', '남'], '반': ['A', 'A', 'A', 'B', 'B', 'B'], '점수': [97, 88, 78, 64, 85, 89]} df = pd.DataFrame(data) df.pivot_table(values=None, index=None, columns=None, aggfunc='mean') values 집계할 대상 열을 지정하는 인자. 그림의 경우 점수 열을 집계했다. index (열, 또는 grouper) 그룹을 나누는 기준 열. 그림의 .. 2023. 2. 12.
[pandas] to_numeric 단일 값 또는 1차원 배열의 자료형을 수치형으로 변환하는 함수. 이 함수를 쓰는 가장 큰 이유는  errors='coerce' 이다  import pandas as pds = pd.Series(['1', '2', '3', '-'])        pandas to_numeric pd.to_numeric(arg, errors='raise', downcast=None) arg: 변환할 대상을 지정한다. 스칼라 또는 1차원 배열.errors: 변환 불가능한 데이터를 처리하는 방법을 지정하는 매개변수.'raise': 에러를 발생시킨다 (기본값)'coerce': NaN으로 변환한다.'ignore': 변환하지 않고 원본을 유지한다. (변환할 수 있는 다른 데이터도 전혀 변환하지 않는다.)         그외 많은 인.. 2023. 2. 8.
[pandas] apply 데이터 프레임이나 시리즈의 개별 요소 각각에 함수를 적용해주는 함수 데이터 프레임은 시리즈 단위로 함수를 적용하고, 시리즈는 셀단위로 함수를 적용한다 import pandas as pd s = pd.Series(['mom', 'get', 'pandas', 'level']) pandas apply df.apply(func, axis=0) func (인수는 함수) 개별 요소에 적용할 함수를 입력하는 인자 axis (인수는 0 or 1 / 기본값은 0) 데이터 프레임에 apply를 적용하면 시리즈별로 함수를 적용되는데 그 때 개별 시리즈를 결정하는 축을 지정하는 인자 0 : 열마다 함수를 적용한다 1 : 행마다 함수를 적용한다 그외 많은 인자들이 있다. 더 궁금하면 아래 링크를 참고 https://pandas.. 2023. 2. 7.
[pandas] sort_index 데이터프레임이나 시리즈의 인덱스(index & columns)를 정렬하는 함수  import pandas as pds = pd.Series([1, 2, 3, 4], index=list('ACBD'))     pandas sort_index df.sort_index(axis=0, level=None, ascending=True)  axis (0 or 1 / 기본값은 0)index를 정렬할 것인지 columns를 정렬할 것인지 지정하는 매개변수. level (level의 로케이션  or 인덱스명)멀티 인덱스일 때 정렬할 인덱스의 level을 지정하는 매개변수. ascending (bool or bool의 리스트 / 기본값은 True)오름차순인지 내림차순인지 결정하는 .. 2023. 2. 6.