본문 바로가기

분류 전체보기242

[numpy] np.where 함수로 불리언 마스킹 np.where 함수를 이용해 조건에 따라 값 부여하기 np.where 함수와 불리언 마스킹 불리언 마스킹(Boolean Masking)은 조건에 따라 값을 부여하는 작업을 의미합니다. 넘파이의 np.where 함수는 불리언 마스킹 작업에 있어 유용한 함수입니다. 판다스는 넘파이를 기반으로 개발되었기에 판다스 객체에서도 넘파이 함수 대부분을 사용할 수 있으며, 특히 np.where 함수는 판다스의 불리언 마스킹에 자주 사용됩니다. 판다스에서 불리언 마스킹을 수행하는 함수는 mask나 where 등이 있습니다. 그러나 이 함수들은 True인 경우와 False인 경우의 값을 각각 별도로 설정해야 합니다. 반면 np.where 함수는 단 한 번의 설정으로 True일 때의 값과 False일 때의 값을 동시에 부.. 2024. 10. 26.
[numpy] 난수 생성 함수 넘파이의 난수 생성 함수 데이터 분석 및 처리 과정에서 랜덤 샘플 데이터를 생성하는 것은 유용한 기법입니다. 특히 판다스(Pandas)와 넘파이(Numpy)를 결합하면 다양한 방식으로 난수를 생성하여 데이터 프레임을 쉽게 구성할 수 있습니다. 초심자는 샘플을 만들어서 코드를 점검하지 않기 때문에, 이 함수들의 가치를 알기 어렵지만 여러분의 코딩이 성장하면 가치를 알게 됩니다. 넘파이의 난수 생성 함수 넘파이는 다양한 난수 생성 함수를 제공하며, 이를 활용하면 특정 분포에 따라 난수 배열을 만들 수 있습니다. 판다스 데이터 프레임을 생성할 때 자주 사용되는 주요 함수는 다음과 같습니다. 참고로 아래 함수들은 모두 np.random으로 시작합니다. rand: 0부터 1 사이의 균일 분포를 따르는 난수를 생성.. 2024. 10. 26.
[pandas] replace 함수와 map 함수의 차이점 제목: 판다스에서의 replace 함수와 map 함수의 차이점데이터 분석에서 특정 값의 변환 작업은 필수적입니다. 판다스에서 셀의 값을 대체하는 데 사용되는 주요 함수로는 replace와 map이 있습니다. 둘을 모두 매퍼를 활용해 값을 대체하는 함수이지만, 일반적으로 replace는 특정 값을 치환하는 함수로 map은 값을 매핑하는 함수로 알려져 있습니다.  그렇다면 치환과 매핑은 어떻게 다른 것일까요? 이 둘은 엄밀하게 구분되지는 않지만, 흔히 일부 값을 변환하는 것을 치환이라 부르고, 전체 값을 변환하는 것을 매핑이라고 합니다. 따라서 전체 값을 치환할 때는 매핑과 큰 차이가 없다고 할 수 있습니다. 공통점 이해를 돕기 위해 간단한 예시를 살펴보겠습니다.import pandas as pd # 예시 .. 2024. 10. 24.
[pandas] 그룹별로 오름차순과 내림차순을 다르게 설정해 순위 매기기 판다스에서 그룹별로 오름차순과 내림차순을 다르게 설정해 순위를 매기는 방법 데이터 분석 과정에서 그룹별로 상이한 순위 적용 방식을 요구하는 경우가 자주 발생합니다. 특히 주식이나 선물과 같은 금융 포지션을 분석할 때, 포지션에 따라 오름차순과 내림차순을 다르게 설정하여 그룹내 순위를 매기는 것이 필요합니다. 목표이해를 돕기 위해 예시 데이터 프레임으로 설명하겠습니다.import pandas as pd# 예시 데이터 프레임 생성data = {'position': [1, 1, 1, 0, 0, 0], 'value': [10, 20, 30, 40, 50, 60]}df = pd.DataFrame(data) df에서 우리는 position 열을 기준으로 각 그룹의 순위를 서로 다른 방향으로 적용하고자.. 2024. 10. 24.
[pandas] 집계 함수 판다스의 집계 함수 집계 함수란? 집계 함수(aggregation function)는 데이터를 군집으로 묶어 요약된 통계 정보를 제공하는 함수입니다. 주로 사용하는 집계 함수로는 합(sum), 평균(mean), 표준편차(std), 최댓값(max), 최솟값(min), 중간값(median) 등이 있으며, 이러한 함수들은 데이터의 특성을 파악하는 데 유용합니다.  판다스의 집계 함수 판다스에서 제공하는 다양한 집계 함수는 아래와 같습니다.     함수기능함수기능sum전체 합cumsum누적 합prod전체 곱cumprod누적 곱max최댓값cummax누적 최대min최솟값cummin누적 최소count개수cumcount누적 개수(그룹화)mean평균first첫 번째 값(그룹화)std표준편차last마지막 값(그룹화)var.. 2024. 10. 21.
[matplotlib] 이름이 지정된 색상 목록 Matplotlib에서 이름이 지정된 색상(named colors) 목록Matplotlib에서는 다양한 이름이 지정된 색상(named colors)을 제공하여 사용자가 보다 직관적으로 색상을 선택할 수 있습니다. Matplotlib에서 지원하는 대표적인 색상들을 소개해 드리고자 합니다. 기본 색상 Matplotlib에서 기본적으로 제공하는 색상(base colors)입니다. 가장 기본적인 색상입니다. CSS 색상 CSS에서 사용되는 표준 색상 목록(CSS Colors)도 Matplotlib에서 지원됩니다. CSS 색상은 웹 디자인과 시각적 표현에 널리 사용됩니다. 헥스 코드 이름이 지정된 색상은 아니지만, Matplotlib에서 그래프의 색상을 지정할 때 헥스 코드(hex code)를 사용하여 맞춤형 색.. 2024. 10. 21.