본문 바로가기

판다스168

[pandas] merge_asof 범위를 기준으로 병합을 수행하는 함수. 엑셀의 index와 match 조합과 비슷하다. import pandas as pddata1 = {'이름': ['라', '나', '다', '가', '마'], '점수': [60, 72, 80, 88, 95]}data2 = {'점수': [0, 70, 80, 90], '학점': ['F', 'C', 'B', 'A']}df1 = pd.DataFrame(data1)df2 = pd.DataFrame(data2)pd.merge_asof(df1, df2, on='점수')       pandas merge_asof pd.merge_asof(left, right, on=None, by=None, allow_exact_matches=True, direction='backward')   .. 2022. 12. 29.
[pandas] merge 엑셀의 vlookup 방식과 유사한 병합을 수행하는 함수 import pandas as pd data1 = {'이름': ['김판다', '조민영', '강승주', '최진환', '박연준'], '제품': ['아이스티', '카페라떼', '카페라떼', '아이스티', '녹차']} data2 = {'제품': ['카페라떼', '아이스티', '녹차'], '가격': [4500, 4600, 4800]} df1 = pd.DataFrame(data1) df2 = pd.DataFrame(data2) df1.merge(df2, how='left', on='제품') # 기본값으로 on='제품'은 생략가능 pandas merge merge 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df... 2022. 12. 29.
[pandas] read_excel pd.read_excel(io, sheet_name=0, header=0, index_col=None) 엑셀파일을 데이터프레임으로 불러오는 함수 io 파일의 경로명 sheet_name (인수는 문자열, 정수, 리스트 / 기본값은 0) 불러올 시트를 지정하는 인자 예) 지정하지 않을 때: 첫번째 시트를 불러온다 1: 2번째 시트를 불러온다 "Sheet1": 문자열을 입력하면 해당 이름을 가진 시트를 불러온다. 여기서는 "Sheet1"이라는 이름의 시트를 불러온다 [0, 1, "Sheet5"]: 첫번째 시트와 두번째 시트 그리고 "Sheet5"라는 이름의 시트 세개를 딕셔너리로 통합해 가져온다. None: 모든 시트를 딕셔너리로 통합해 가져온다. header (인수는 정수, 정수의 리스트 / 기본값은 0) .. 2022. 12. 29.
[pandas] 숫자로 바꿀 때 to_numeric과 astype의 차이 판다스에서 수치형 데이터로 변환할 때 to_numeric과 astype의 차이데이터 분석에서 수치형 데이터는 중요한 역할을 차지합니다. 특히 판다스 라이브러리는 연산과 처리에 강점을 발휘하며, 이를 위해 비 수치형 데이터를 수치형으로 변환하는 작업은 데이터 정제 과정에서 자주 요구됩니다. 판다스는 이러한 변환을 위해 두 가지 함수를 제공합니다. astype과 to_numeric입니다.이 두 함수는 겉보기에는 비슷한 기능을 수행하는 것처럼 보이지만, 실제로는 각기 다른 목적과 용도를 지니고 있습니다. astype 함수는 대부분의 자료형으로 변환을 지원하는 범용성을 갖추고 있고 수치형으로도 변환이 가능하지만, 모든 데이터가 해당 형식으로 변환할 수 있어야만 올바르게 작동합니다. 반면, to_numeric 함.. 2022. 6. 13.
[pandas] #02 iloc 인덱싱 loc인덱싱은 판다스에서 데이터프레임을 인덱싱과 슬라이싱하는 방법입니다 파이썬의 리스트에서 list[0] 혹은 list[1:5] 와 같이 인덱싱과 슬라이싱을 하는데 마찬가지로 데이터프레임도 인덱싱과 슬라이싱을 할수 있는겁니다 loc 인덱싱은 레이블로 인덱싱을 했는데 데이터 프레임도 리스트처럼 위치(인덱스의 숫자)로 인덱싱을 할수있는데 그게 바로 iloc인덱싱입니다 먼저 데이터프레임의 위치를 넘버링 하는 방식은 다음과 같습니다 행은 위에서부터 0부터 넘버링이 되고 열은 왼쪽열부터 0부터 넘버링이 됩니다 데이터프레임은 2차원이기때문에 인덱싱할때 [ , ] 대괄호안에 콤마로 구분해서 각각의 차원의 인덱싱을 2차원 평면의 (x, y) 좌표처럼 설정합니다 df.iloc[행위치(숫자), 열위치(숫자)] loc 인덱.. 2022. 2. 19.
[pandas] #01 loc 인덱싱 loc인덱싱은 판다스에서 데이터프레임을 인덱싱과 슬라이싱하는 방법입니다 파이썬의 리스트에서 list[0] 혹은 list[1:5] 와 같이 인덱싱과 슬라이싱을 하는데 마찬가지로 데이터프레임도 인덱싱과 슬라이싱을 할수 있는겁니다 다만 리스트에서 위치(인덱스)로 인덱싱했던 것과는 달리 데이터프레임은 레이블이 붙어있는 구조라서 레이블로 인덱싱을 할수있는데 그게 바로 loc인덱싱 입니다 또한 데이터프레임은 2차원이기때문에 [ , ] 대괄호안에 콤마로 구분해서 각각의 차원의 인덱싱을 2차원 평면의 (x, y) 좌표처럼 설정합니다 df.loc[행레이블, 열레이블] loc 인덱싱은 대상이 단수면 "레이블1"로 가능하고 복수면 ["레이블1", "레이블2",..,"레이블n] 같은 리스트 형식으로 가능합니다 슬라이싱은 "시.. 2022. 2. 17.