본문 바로가기

전체 글263

[pandas] str.strip 시리즈의 각 셀에서 문자열의 좌우 공백을 제거하는 함수 import pandas as pd data1 = {'col1':[' 205', '12 '], 'col2':['00205', '12000']} df = pd.DataFrame(data1) 공백(white space)뿐만 아니라 제거할 문자를 지정할 수 있다. df의 col2 열은 문자열의 좌우가 ‘0’으로 둘러싸여 있다. str.len 함수에 제거할 문자인 ‘0’을 인수로 입력하면 해당 문자가 제거된다. 이 때 문자열 좌우측의 ‘0’만 제거하고, ‘205’와 같이 중간에 위치한 ‘0’은 제거하지 않는다. col2 열은 수치형으로 처리할 때 문자열 좌측의 ‘0’은 제거해야 하지만, 우측의 ‘0’은 유지해야 한다. str.lstrip 함수를 사용하면 좌.. 2024. 2. 7.
[pandas] str.len 시리즈에서 문자열의 길이 반환하는 함수 import pandas as pd s = pd.Series(['mom', 'get', 'pandas', 'level']) 2024. 2. 7.
[pandas] 시리즈의 각 셀의 인덱싱과 슬라이싱 str 속성에 인덱싱과 슬라이싱을 하면 시리즈의 각 셀의 인덱싱과 슬라이싱을 수행한다 예제 import pandas as pd data = {'문자열': ['A0', 'B1', 'C2', 'D3'], '문자열2': ['물리01', '물리02', '화학01', 99], '리스트': [['물리', 1], ['물리', 2], ['화학', 1], ['화학', 2]]} df = pd.DataFrame(data) 먼저 각 셀의 인덱싱을 수행하는 방법은 다음과 같다. 슬라이싱도 수행이 가능하다. 문자열이 아닌 리스트의 인덱싱과 슬라이싱도 가능하다 2024. 1. 30.
[pandas] ffill, bfill 전 후방의 데이터로 결측값을 대체하는 함수  import pandas as pds = pd.Series([0, 1, None, 3], index=list('ABCD'))    df.ffill(axis=0, limit=None)  axis 축을 지정하는 매개변수. 0이 기본값이며 열의 전방값으로 NaN을 대체한다  limit 대체할 최대 연속 NaN의 개수를 제한하는 매개변수. 2024. 1. 6.
[pandas] update 입력된 데이터 프레임의 null이 아닌 값으로 기존 데이터 프레임을 수정하는 함수. 실행 즉시 원본을 덮어 쓴다 import pandas as pd data1 = {'국어': {'A': 25, 'B': 72, 'C': 13, 'D': 78, 'E': 25}, '영어': {'A': 45, 'B': 94, 'C': 92, 'D': 70, 'E': 18}} data2 = {'국어': {'A': 64, 'E': 75, 'C': 94}, '영어': {'A': 76, 'E': 85, 'C': float('nan')}} df1 = pd.DataFrame(data1) df2 = pd.DataFrame(data2) df.update(other=None) 2024. 1. 2.
[pandas] sample 데이터 프레임에서 무작위로 행을 추출하는 함수 import pandas as pd data1 = {'이름': ['김판다', '강승주', '최진환', '조민영', '권보아', '임재범'], '점수': [62, 77, 61, 75, 90, 92]} df = pd.DataFrame(data1) df에서 무작위로 행을 추출해 보자. df.sample(2) 위 코드를 사용하면 두 개의 행이 무작위로 추출이 된다. 랜덤 추출이라 시행마다 결과가 다르다. df.sample(n=None, frac=None, replace=False) sample 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) n : 추출할 행의 개수를 지정하는 매개변수. 정수로 지정하며, frac과 동시 사.. 2023. 12. 28.