본문 바로가기

전체 글263

[pandas] 정규표현식에서 그룹명을 지정하기 다음과 같은 시리즈 s가 있다 import pandas as pd s = pd.Series(['AAAAA-BB-CCCCCC-DD-EEE', 'CCCCCC-AA-BBB-DD-EEE']) s 0 AAAAA-BB-CCCCCC-DD-EEE 1 CCCCCC-AA-BBB-DD-EEE dtype: object s에서 A-와 그 다음에 존재하는 첫번째 - 사이의 문자열만 추출해보자 첫째 행에서는 BB를 추출하고 두번재 행에서는 BBB를 추출해야 한다 정규 표현식을 이용해 다음과 같이 추출할 수 있다 s.str.extract(r'A-(.*?)-') 이 때 정규표현식으로 그룹명을 지정하면 column의 이름이 바뀐다 그룹명을 keyword로 작성해보자 s.str.extract(r'A-(?P.*?)-') 열 이름이 keyw.. 2023. 8. 6.
구글 코랩 사용하기 영상과 함께 슬리드 노트로 보시려면 다음 링크를 클릭하세요 구글 코랩 사용하기(링크) 여러분은 어떤 프로그램으로 파이썬 코딩을 하고 계신가요? 주피터 노트북이나, vscode, 파이참 등을 많이 사용하십니다 구글 코랩으로도 가능합니다! 구글 코랩의 장점과 단점 구글 코랩 실습 구글 코랩 시작하기 설치가 따로 필요없기 때문에 다음 링크를 클릭하면 사용할 수 있다 https://colab.research.google.com/ 구글 코랩 주요 단축키 셀 실행 : Ctrl + Enter 셀 추가(현재 셀 아래로) : Ctrl + M + B 셀 추가(현재 셀 위로) : Ctrl + M + A 셀 삭제 : Ctrl + M + D 셀 복사 : Ctrl + Shift + S 코드 한줄 복사 : Shift + Alt +.. 2023. 8. 6.
[pandas] crosstab 빈도수를 집계해 교차표로 만든다. import pandas as pddata = {'반': ['A', 'A', 'A', 'B', 'B', 'B'], '성별': ['남', '여', '여', '여', '남', '남']}df = pd.DataFrame(data)     인자(parameter) index (시리즈 또는 시리즈의 리스트)행으로 구분될 그룹 columns (시리즈 또는 시리즈의 리스트)열로 구분될 그룹  공식문서 https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html  유튜브에서 판다스 강의 중입니다 https://www.youtube.com/@KimPandas 2023. 7. 30.
동영상 강의 예습 및 복습 자료 보호되어 있는 글 입니다. 2023. 7. 29.
[pandas] clip 임계값을 적용해 이상치(outlier)를 처리하는 함수 import pandas as pd data1 = {'국어': {'A': 89, 'B': 29, 'C': 40, 'D': 29}, '영어': {'A': 4, 'B': 46, 'C': 19, 'D': 91}, '수학': {'A': 74, 'B': 83, 'C': 60, 'D': 76}} df = pd.DataFrame(data1) df.clip(lower=None, upper=None) 인자(parameter) lower (실수 혹은 배열) 최솟값으로 적용할 임계값. 배열을 입력하면 열마다 다르게 적용한다. upper (실수 혹은 배열) 최댓값으로 적용할 임계값. 배열을 입력하면 열마다 다르게 적용한다. 공식문서 https://pandas.pydata.. 2023. 7. 16.
[pandas] duplicated 중복 여부를 확인하는 함수 (중복일 때 True, 아닐 때 False를 반환한다) import pandas as pd data1 = {'회차': [1, 1, 1, 2, 2], '이름': ['김판다', '김판다', '강승주', '조민영', '김판다'], '점수': [680, 680, 880, 620, 750]} df = pd.DataFrame(data1) drop_duplicates 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.duplicated(subset=None, keep='first') subset (열 이름 또는 열이름의 배열) 중복을 체크할 열을 지정하는 매개변수. 기본값은 모든 열에서 중복이어야 중복으로 처리된다. keep ('first', .. 2023. 7. 16.