본문 바로가기

전체 글263

[pandas] 그룹별로 오름차순과 내림차순을 다르게 설정해 순위 매기기 판다스에서 그룹별로 오름차순과 내림차순을 다르게 설정해 순위를 매기는 방법 데이터 분석 과정에서 그룹별로 상이한 순위 적용 방식을 요구하는 경우가 자주 발생합니다. 특히 주식이나 선물과 같은 금융 포지션을 분석할 때, 포지션에 따라 오름차순과 내림차순을 다르게 설정하여 그룹내 순위를 매기는 것이 필요합니다. 목표이해를 돕기 위해 예시 데이터 프레임으로 설명하겠습니다.import pandas as pd# 예시 데이터 프레임 생성data = {'position': [1, 1, 1, 0, 0, 0], 'value': [10, 20, 30, 40, 50, 60]}df = pd.DataFrame(data) df에서 우리는 position 열을 기준으로 각 그룹의 순위를 서로 다른 방향으로 적용하고자.. 2024. 10. 24.
[pandas] 집계 함수 판다스의 집계 함수 집계 함수란? 집계 함수(aggregation function)는 데이터를 군집으로 묶어 요약된 통계 정보를 제공하는 함수입니다. 주로 사용하는 집계 함수로는 합(sum), 평균(mean), 표준편차(std), 최댓값(max), 최솟값(min), 중간값(median) 등이 있으며, 이러한 함수들은 데이터의 특성을 파악하는 데 유용합니다.  판다스의 집계 함수 판다스에서 제공하는 다양한 집계 함수는 아래와 같습니다.     함수기능함수기능sum전체 합cumsum누적 합prod전체 곱cumprod누적 곱max최댓값cummax누적 최대min최솟값cummin누적 최소count개수cumcount누적 개수(그룹화)mean평균first첫 번째 값(그룹화)std표준편차last마지막 값(그룹화)var.. 2024. 10. 21.
[matplotlib] 이름이 지정된 색상 목록 Matplotlib에서 이름이 지정된 색상(named colors) 목록Matplotlib에서는 다양한 이름이 지정된 색상(named colors)을 제공하여 사용자가 보다 직관적으로 색상을 선택할 수 있습니다. Matplotlib에서 지원하는 대표적인 색상들을 소개해 드리고자 합니다. 기본 색상 Matplotlib에서 기본적으로 제공하는 색상(base colors)입니다. 가장 기본적인 색상입니다. CSS 색상 CSS에서 사용되는 표준 색상 목록(CSS Colors)도 Matplotlib에서 지원됩니다. CSS 색상은 웹 디자인과 시각적 표현에 널리 사용됩니다. 헥스 코드 이름이 지정된 색상은 아니지만, Matplotlib에서 그래프의 색상을 지정할 때 헥스 코드(hex code)를 사용하여 맞춤형 색.. 2024. 10. 21.
[구글 코랩] 깃허브의 ipynb 파일을 구글 코랩으로 불러오기 깃허브의 ipynb 파일을 구글 코랩으로 불러오기 1. 먼저 구글 코랩을 열고 [파일] - [노트 열기]를 클릭한다. 2. [노트 열기]에서 "GitHub" 탭을 클릭하고, 깃허브 주소를 입력한다.실습할 저자의 깃허브 주소: https://github.com/panda-kim/book1/ 3. 맞는 ipynb 파일을 불러온다. 4. [런타임]-[모두 실행]으로 불러온 ipynb 파일을 실행한다.위 과정으로 깃허브의 ipynb 파일을 구글 코랩에서 편하게 실습에 사용할 수 있다. 판다스 책이 출판되었습니다. 교보문고 구매 페이지, 알라딘 구매 페이지, yes24 구매 페이지 2024. 10. 20.
[pandas] 수학적 연산 데이터 프레임에서 수학적 연산을 수행하는 방법 판다스에서의 수학적 연산 데이터 분석을 할 때, 다양한 수학적 연산이 필요할 때가 많습니다. 판다스는 기본적으로 이러한 수학 연산을 직접 제공하지 않지만, 파이썬의 강력한 수학 라이브러리인 넘파이(NumPy)를 활용하면 이러한 문제를 쉽게 해결할 수 있습니다. 특히, 판다스는 넘파이 기반으로 제작된 라이브러리이기 때문에, 넘파이의 다양한 수학 함수들을 판다스 객체에 쉽게 적용할 수 있으며, 두 라이브러리 간에 높은 호환성을 갖고 있습니다. 넘파이의 수학 함수 넘파이(NumPy) 라이브러리는 다음과 같은 다양한 수학 함수를 지원합니다.  함수설명np.log자연로그(밑이 e)np.log2밑이 2인 로그np.log10밑이 10인 로그np.sin삼각함수 sinnp... 2024. 10. 20.
[pandas] agg 함수 개념 정립 판다스의 agg 함수  agg 함수란? 데이터 분석을 할 때 여러 통계량을 한 번에 계산해야 하는 경우가 많습니다. 판다스의 agg 함수는 이러한 작업을 손쉽게 처리할 수 있는 함수입니다. agg 함수는 여러 집계 함수를 동시에 적용할 수 있으며, 사용자 정의 함수도 지원합니다. 이번 글에서는 agg 함수의 기본적인 사용법과 사용자 정의 함수의 활용법을 알아보겠습니다. 예시와 함께 설명을 제공하는 것이 이해를 돕는 데 효과적이므로 간단한 데이터프레임을 만들어보겠습니다. import pandas as pdpd.options.display.float_format = '{:.3f}'.format # 소수점 셋째 자리 출력# 예시 데이터프레임 생성df = pd.DataFrame({ 'A': [1, 2, .. 2024. 10. 20.