본문 바로가기

전체 글263

[pandas] str.extractall 단일 패턴으로 복수의 문자열을 추출하는 함수. str.extract 함수는 단일 패턴으로는 맨 처음 문자열만 추출하기에 str.extractall 함수가 필요하다 import pandas as pd s2 = pd.Series(['A반박연준/A반권보아', 'A반임재범']) s2.str.extract('A반([가-힇]+)') # 아래의 1번 그림 s2.str.extractall('A반([가-힇]+)') # 아래의 2번 그림 s2.str.extractall('A반([가-힇]+)')[0].unstack() # 아래의 3번 그림 str.extactall의 결과는 멀티 인덱스를 가진 데이터 프레임이 반환되므로, 멀티 인덱스에 취약하다면 인덱싱과 unstack 함수를 활용해 단일 인덱스인 데이터 프레임으로 변환하자. 2024. 2. 9.
[pandas] str.startswith, str.endswith 시리즈의 각 셀이 특정 문자열로 시작 또는 종료 여부를 확인하는 함수 import pandas as pd s = pd.Series(['cat01', 'cat02', 'dog01', '03cat', '01cow']) 2024. 2. 9.
[pandas] str.extract 시리즈의 각 셀에서 지정한 문자열을 추출하는 함수 import pandas as pd s = pd.Series(['cat01', 'cat02', 'dog01', '03cat', '01cow']) s1 = pd.Series(['A반김판다/B반강승주', 'A반최진환/B반안지선']) s.str.extract('(cat)') 정규 표현식을 활용하면 다양한 문자열 추출이 가능하다 s1.str.extract('A반([가-힇]+)/B반([가-힇]+)') 2024. 2. 9.
[pandas] str.contains 시리즈의 각 셀이 특정 문자열을 포함하고 있는지 확인하는 함수 import pandas as pd s = pd.Series(['cat01', 'cat02', 'dog01', '03cat', '01cow']) str.startswith 함수와 str.endswith 함수를 사용하면 특정 문자열로 시작과 종결여부를 확인할 수 있다. 2024. 2. 9.
[pandas] str.replace 시리즈의 각 셀에서 문자열 치환하기 import pandas as pd data1 = {'col1': ['cat01', 'cat02', 'pig03'], 'col2': ['cat', 'cat', 'pig'], 'col3': ['1,234', '1,456,234', '67,890']} df = pd.DataFrame(data1) 2024. 2. 7.
[pandas] str.split 시리즈의 각 셀에서 문자열 분할하는 함수. 결과는 셀안의 리스트로 반환하는 것이 특징이다. (기본값) import pandas as pd s = pd.Series(['a-001', 'b-002', 'cd-003']) data1 = {'주소': ['서울특별시 용산구 독서당로', '경상남도 남해군 옥천로12길 302호', '경상남도 김해시 가야로47길']} df = pd.DataFrame(data1) expand=True를 활용하면 데이터 프레임으로 확장할 수 있다. 2024. 2. 7.