본문 바로가기
판다스/판다스 팁

[pandas] 정규표현식에서 그룹명을 지정하기

by 김판다t 2023. 8. 6.

다음과 같은 시리즈 s가 있다

 

import pandas as pd
s = pd.Series(['AAAAA-BB-CCCCCC-DD-EEE', 'CCCCCC-AA-BBB-DD-EEE'])

 

s

 

0    AAAAA-BB-CCCCCC-DD-EEE
1      CCCCCC-AA-BBB-DD-EEE
dtype: object

 

 

s에서 A-와 그 다음에 존재하는 첫번째 - 사이의 문자열만 추출해보자

 

첫째 행에서는 BB를 추출하고 두번재 행에서는 BBB를 추출해야 한다

 

 

정규 표현식을 이용해 다음과 같이 추출할 수 있다

 

s.str.extract(r'A-(.*?)-')

 

 

 

 

 

이 때 정규표현식으로 그룹명을 지정하면 column의 이름이 바뀐다

 

그룹명을 keyword로 작성해보자

 

s.str.extract(r'A-(?P<keyword>.*?)-')

 

 

 

열 이름이 keyword로 바뀌었다.

 

 

물론 판다스 함수로 rename이나 set_axis등으로 열이름을 바꿔주는 것도 가능하다.

 

 

 

 

유튜브에서 판다스 강의 중입니다

 

https://www.youtube.com/@KimPandas