본문 바로가기

판다스/함수 cheat sheet71

[pandas] expanding 데이터 프레임이나 시리즈에서 현 시점까지의 누적 집계를 수행 import pandas as pd s = pd.Series([1, 2, 3, 4, 5]) s.expanding.mean() 2024. 3. 30.
[pandas] rolling 데이터 프레임이나 시리즈의 이동 집계를 수행하는 함수 주가의 20일 이동 평균선을 연상하자. 예제: import pandas as pd s = pd.Series([1, 2, 3, 4, 5]) rolling 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.rolling(window, min_periods=None, center=False, on=None) window 이동 집계를 위한 이동 창 크기를 지정하는 매개변수. min_periods 최소 관측 수를 지정하는 매개변수. 충족하지 못하면 NaN을 반환. center 창을 인덱스의 중앙으로 설정할지에 대해 지정하는 매개변수. on 창의 기준 열을 설정하는 매개변수. 2024. 3. 30.
[pandas] wide_to_long 판다스 wide_to_long 가로 형식(wide) 데이터 프레임을 세로 형식(long)으로 변환하는 함수. 예제 import pandas as pd data = {'이름': ['김판다', '강승주', '조민영'], '가형_국어': [60, 69, 83], '나형_국어': [63, 79, 66], '가형_영어': [63, 81, 84], '나형_영어': [99, 96, 84]} df = pd.DataFrame(data) pd.wide_to_long( df, i='이름', stubnames=['가형', '나형'], j='과목', sep='_', suffix=r'.+' ) wide_to_long 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) pd.wide_to_l.. 2024. 3. 15.
[pandas] date_range date_range고정된 주기를 가진 datetime 자료형 배열(DatetimeIndex)를 생성한다.   pd.date_range(start=None, end=None, periods=None, freq='D') - start : 시작 시점을 지정한다. start, end, period 셋 중에 둘만 지정해도 된다.- end : 끝 시점을 지정한다.- period : 생성할 배열의 개수를 지정한다. - freq : 배열에 적용될 고정된 주기를 지정한다.    예시) import pandas as pd# 2025-01-03부터 2025-01-14까지 모든 날짜를 배열로 생성하기pd.date_range('2025-01-03', '2025-01-14') DatetimeIndex(['2025-01-03', .. 2024. 2. 29.
[pandas] groupby + transform 주로 집계 결과로 시리즈를 생성하는 함수. groupby 함수에 사용자 정의 함수를 적용해 열을 생성할 때도 쓰인다. 예제: import pandas as pd data = {'제품': ['A', 'A', 'B', 'B', 'C', 'A'], '판매량': [10, 20, 20, 30, 10, 60]} df = pd.DataFrame(data) df.groupby('제품')['판매량'].transform('sum') 2024. 2. 22.
[pandas] str.extractall 단일 패턴으로 복수의 문자열을 추출하는 함수. str.extract 함수는 단일 패턴으로는 맨 처음 문자열만 추출하기에 str.extractall 함수가 필요하다 import pandas as pd s2 = pd.Series(['A반박연준/A반권보아', 'A반임재범']) s2.str.extract('A반([가-힇]+)') # 아래의 1번 그림 s2.str.extractall('A반([가-힇]+)') # 아래의 2번 그림 s2.str.extractall('A반([가-힇]+)')[0].unstack() # 아래의 3번 그림 str.extactall의 결과는 멀티 인덱스를 가진 데이터 프레임이 반환되므로, 멀티 인덱스에 취약하다면 인덱싱과 unstack 함수를 활용해 단일 인덱스인 데이터 프레임으로 변환하자. 2024. 2. 9.