본문 바로가기

판다스/중급 판다스11

[pandas] replace 함수와 map 함수의 차이점 제목: 판다스에서의 replace 함수와 map 함수의 차이점데이터 분석에서 특정 값의 변환 작업은 필수적입니다. 판다스에서 셀의 값을 대체하는 데 사용되는 주요 함수로는 replace와 map이 있습니다. 둘을 모두 매퍼를 활용해 값을 대체하는 함수이지만, 일반적으로 replace는 특정 값을 치환하는 함수로 map은 값을 매핑하는 함수로 알려져 있습니다.  그렇다면 치환과 매핑은 어떻게 다른 것일까요? 이 둘은 엄밀하게 구분되지는 않지만, 흔히 일부 값을 변환하는 것을 치환이라 부르고, 전체 값을 변환하는 것을 매핑이라고 합니다. 따라서 전체 값을 치환할 때는 매핑과 큰 차이가 없다고 할 수 있습니다. 공통점 이해를 돕기 위해 간단한 예시를 살펴보겠습니다.import pandas as pd # 예시 .. 2024. 10. 24.
[pandas] agg 함수 개념 정립 판다스의 agg 함수  agg 함수란? 데이터 분석을 할 때 여러 통계량을 한 번에 계산해야 하는 경우가 많습니다. 판다스의 agg 함수는 이러한 작업을 손쉽게 처리할 수 있는 함수입니다. agg 함수는 여러 집계 함수를 동시에 적용할 수 있으며, 사용자 정의 함수도 지원합니다. 이번 글에서는 agg 함수의 기본적인 사용법과 사용자 정의 함수의 활용법을 알아보겠습니다. 예시와 함께 설명을 제공하는 것이 이해를 돕는 데 효과적이므로 간단한 데이터프레임을 만들어보겠습니다. import pandas as pdpd.options.display.float_format = '{:.3f}'.format # 소수점 셋째 자리 출력# 예시 데이터프레임 생성df = pd.DataFrame({ 'A': [1, 2, .. 2024. 10. 20.
[pandas] transform 함수 개념 정립 판다스의 transform 함수  transform 함수란? 판다스의 transform 함수는 데이터 프레임의 각 열에 여러 개의 함수를 동시에 적용하고, 그 결과를 동일한 행의 데이터로 반환하는 데 사용됩니다. 이 함수는 여러 열에 여러 함수를 동시에 적용해야 할 때 매우 유용하지만, 몇 가지 제한 사항도 존재합니다. 예시와 함께 설명을 제공하는 것이 이해를 돕는 데 효과적이므로, 우선 가상의 주가 데이터인 간단한 예시 데이터 프레임을 생성해 보겠습니다.  df는 2024년 10월 21일부터 4일 동안 가상의 삼성전자와 카카오의 주식 데이터입니다. import pandas as pdpd.options.display.float_format = '{:.3f}'.format # 소수점 셋째 자리 출력# 날짜.. 2024. 10. 20.
[pandas] 두 데이터 프레임에 공통으로 존재하는 행 추출하기 두 데이터 프레임에 공통으로 존재하는 행 추출하기 때때로 두 데이터 프레임에서 공통으로 존재하는 행을 추출해야 하는 상황이 발생합니다. 예를 들어, 아래 코드에서 생성된 df1과 df2는 몇 가지 공통된 데이터를 포함하고 있습니다.import pandas as pd# 첫 번째 데이터 프레임 생성df1 = pd.DataFrame({ 'colA': [10, 20, 50, 30], 'colB': [50, 60, 20, 70], 'colC': [90, 100, 80, 90]})# 두 번째 데이터 프레임 생성df2 = pd.DataFrame({ 'colA': [55, 30, 20, 70], 'colB': [15, 70, 60, 10], 'colC': [95, 90, 100, 30.. 2024. 10. 16.
[pandas] period 자료형의 장점 판다스에서 period 자료형의 장점세 종류의 시계열 데이터 판다스는 다음 세 종류의 자료형으로 시계열 데이터를 처리합니다.그림 출처 : 파이썬의 엑셀, 판다스 라이브러리  Timestamp는 시점이며, Period는 기간이고, Timedelta는 시간 차이를 나타내는 자료형입니다. 판다스의 period dtype의 장점 일반적으로 중급 이상의 숙련된 판다스 유저들도 period 자료형을 사용에 어려움을 느끼지만, 이 자료형도 유저의 편의를 위해 설계된 만큼, 제대로 활용하면 코드의 간결성을 크게 높일 수 있습니다. 예시1)예시를 위해 period 자료형의 배열을 생성해 변수 prd로 지정합니다.import pandas as pdprd = pd.period_range('2021Q1', periods=3,.. 2024. 10. 16.
[pandas] 특정 열의 값을 기준으로 행을 선택하는 방법 판다스에서 특정 열의 값을 기준으로 데이터 프레임의 행을 선택하는 방법데이터 분석에서는 특정 열의 값을 기준으로 필요한 행을 선택하는 것이 자주 요구됩니다. 이러한 작업은 데이터의 특성에 따라 다양한 필터링 방식으로 이루어질 수 있습니다. 판다스는 이러한 행 선택 작업을 매우 간편하게 처리할 수 있도록 다양한 기능을 제공합니다.  예시 생성아래의 예시 데이터 프레임을 활용하여, 특정 열의 값을 기준으로 데이터를 필터링하는 여러 방법을 설명하겠습니다. import numpy as npdata = { 'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'], 'B': ['one', 'one', 'two', 'two', 'three', 'fou.. 2024. 5. 22.