본문 바로가기

판다스168

[pandas] 그룹별로 오름차순과 내림차순을 다르게 설정해 순위 매기기 판다스에서 그룹별로 오름차순과 내림차순을 다르게 설정해 순위를 매기는 방법 데이터 분석 과정에서 그룹별로 상이한 순위 적용 방식을 요구하는 경우가 자주 발생합니다. 특히 주식이나 선물과 같은 금융 포지션을 분석할 때, 포지션에 따라 오름차순과 내림차순을 다르게 설정하여 그룹내 순위를 매기는 것이 필요합니다. 목표이해를 돕기 위해 예시 데이터 프레임으로 설명하겠습니다.import pandas as pd# 예시 데이터 프레임 생성data = {'position': [1, 1, 1, 0, 0, 0], 'value': [10, 20, 30, 40, 50, 60]}df = pd.DataFrame(data) df에서 우리는 position 열을 기준으로 각 그룹의 순위를 서로 다른 방향으로 적용하고자.. 2024. 10. 24.
[pandas] 집계 함수 판다스의 집계 함수 집계 함수란? 집계 함수(aggregation function)는 데이터를 군집으로 묶어 요약된 통계 정보를 제공하는 함수입니다. 주로 사용하는 집계 함수로는 합(sum), 평균(mean), 표준편차(std), 최댓값(max), 최솟값(min), 중간값(median) 등이 있으며, 이러한 함수들은 데이터의 특성을 파악하는 데 유용합니다.  판다스의 집계 함수 판다스에서 제공하는 다양한 집계 함수는 아래와 같습니다.     함수기능함수기능sum전체 합cumsum누적 합prod전체 곱cumprod누적 곱max최댓값cummax누적 최대min최솟값cummin누적 최소count개수cumcount누적 개수(그룹화)mean평균first첫 번째 값(그룹화)std표준편차last마지막 값(그룹화)var.. 2024. 10. 21.
[pandas] 수학적 연산 데이터 프레임에서 수학적 연산을 수행하는 방법 판다스에서의 수학적 연산 데이터 분석을 할 때, 다양한 수학적 연산이 필요할 때가 많습니다. 판다스는 기본적으로 이러한 수학 연산을 직접 제공하지 않지만, 파이썬의 강력한 수학 라이브러리인 넘파이(NumPy)를 활용하면 이러한 문제를 쉽게 해결할 수 있습니다. 특히, 판다스는 넘파이 기반으로 제작된 라이브러리이기 때문에, 넘파이의 다양한 수학 함수들을 판다스 객체에 쉽게 적용할 수 있으며, 두 라이브러리 간에 높은 호환성을 갖고 있습니다. 넘파이의 수학 함수 넘파이(NumPy) 라이브러리는 다음과 같은 다양한 수학 함수를 지원합니다.  함수설명np.log자연로그(밑이 e)np.log2밑이 2인 로그np.log10밑이 10인 로그np.sin삼각함수 sinnp... 2024. 10. 20.
[pandas] agg 함수 개념 정립 판다스의 agg 함수  agg 함수란? 데이터 분석을 할 때 여러 통계량을 한 번에 계산해야 하는 경우가 많습니다. 판다스의 agg 함수는 이러한 작업을 손쉽게 처리할 수 있는 함수입니다. agg 함수는 여러 집계 함수를 동시에 적용할 수 있으며, 사용자 정의 함수도 지원합니다. 이번 글에서는 agg 함수의 기본적인 사용법과 사용자 정의 함수의 활용법을 알아보겠습니다. 예시와 함께 설명을 제공하는 것이 이해를 돕는 데 효과적이므로 간단한 데이터프레임을 만들어보겠습니다. import pandas as pdpd.options.display.float_format = '{:.3f}'.format # 소수점 셋째 자리 출력# 예시 데이터프레임 생성df = pd.DataFrame({ 'A': [1, 2, .. 2024. 10. 20.
[pandas] transform 함수 개념 정립 판다스의 transform 함수  transform 함수란? 판다스의 transform 함수는 데이터 프레임의 각 열에 여러 개의 함수를 동시에 적용하고, 그 결과를 동일한 행의 데이터로 반환하는 데 사용됩니다. 이 함수는 여러 열에 여러 함수를 동시에 적용해야 할 때 매우 유용하지만, 몇 가지 제한 사항도 존재합니다. 예시와 함께 설명을 제공하는 것이 이해를 돕는 데 효과적이므로, 우선 가상의 주가 데이터인 간단한 예시 데이터 프레임을 생성해 보겠습니다.  df는 2024년 10월 21일부터 4일 동안 가상의 삼성전자와 카카오의 주식 데이터입니다. import pandas as pdpd.options.display.float_format = '{:.3f}'.format # 소수점 셋째 자리 출력# 날짜.. 2024. 10. 20.
[pandas] AttributeError: DataFrame' object has no attribute 'str' 에러 판다스에서 AttributeError: DataFrame' object has no attribute 'str' 원인과 해결판다스에서 문자열을 처리할 때 자주 사용하는 str 메서드를 데이터 프레임 전체에 적용하려 하면, AttributeError: DataFrame' object has no attribute 'str' 에러가 발생하게 됩니다. 본 글에서는 이 에러의 원인과 해결 방법을 살펴보겠습니다. str 메서드 중 가장 빈번하게 사용되는 str.contains 메서드를 예로 들어 설명하겠습니다. AttributeError란? AttributeError의 일반적인 원인과 해결 방법에 대해 궁금하신 분은 링크 내용을 참고하세요. 요약하자면, AttributeError는 객체가 호출하려는 속성이나 메서.. 2024. 10. 20.