본문 바로가기

전체 글263

[pandas] drop_duplicates 중복된 행을 삭제하는 함수 import pandas as pd data1 = {'회차': [1, 1, 1, 2, 2], '이름': ['김판다', '김판다', '강승주', '조민영', '김판다'], '점수': [680, 680, 880, 620, 750]} df = pd.DataFrame(data1) drop_duplicates 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.drop_duplicates(subset=None, keep='first') subset (열 이름 또는 열이름의 배열) 중복을 확인할 열을 지정하는 매개변수. 기본값은 모든 열에서 중복이어야 중복으로 처리된다. keep ('first', 'last', False / 기본값 'first.. 2023. 7. 16.
[pandas] replace 데이터 프레임이나 시리즈의 각 셀을 치환하는 함수 import pandas as pd data1 = {'홈팀': ['서독', '대한민국', '브라질', '소련', '대한민국'], '원정팀': ['대한민국', '서독', '소련', '브라질', '브라질'], '홈팀골': [3, 1, 4, 2, 0], '원정팀골': [0, 2, 1, 2, 2]} df = pd.DataFrame(data1) replace 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.replace(to_replace=None, value=None, regex=False) to_replace 이전 값을 입력하는 매개변수. 이전 값과 새로운 값의 매퍼(여기서는 딕셔너리)도 입력 가능하다. valu.. 2023. 7. 16.
[pandas] 포괄적인 규칙성을 찾는 이들에게 드리는 조언 판다스를 학습하는 과정에서 수강생들은 전체에 적용할 수 있는 포괄적인 규칙성에 대해 자주 질문합니다. 이번 글에서는 규칙성을 찾으려는 시도보다 더 중요한 것을 배워가시기 바랍니다. 강의하다 보면 전체에 적용할 수 있는 포괄적인 규칙성에 대해 많은 질문을 받습니다. 어떤 질문을 의미하는지, 다음 예시를 통해 확인해 봅시다. 규칙성을 찾는 질문의 예시 학생들의 점수가 포함된 데이터 프레임 df에 sum 함수를 적용하면, 수강생들이 이렇게 질문합니다.왜 sum 함수는 axis=0이 '열'의 합을 반환하나요? 이번에는 데이터 프레임 df에서 학생 A와 B에게 각각 1점과 2점을 가산해 보겠습니다. 브로드캐스팅의 축 방향 기본값은 axis=1입니다. 따라서 원하는 결과를 얻으려면 단순한 연산자를 사용할 수 없으며.. 2023. 7. 16.
[slack] 슬랙에서 코드블럭 사용하는 방법 두가지 방법으로 코드블럭을 만들 수 있다. 창에서 코드블럭 아이콘을 누르면 코드블럭이 생성된다. 창에서 backtick을 세번 눌러도 코드블럭이 생성된다 유튜브에서 판다스 강의중입니다 https://www.youtube.com/@KimPandas/videos 2023. 7. 10.
TypeError: Index(...) must be called with a collection of some kind, 'col1' was passed TypeError: Index(...) must be called with a collection of some kind, 'col1' was passed 이 에러는 단일 열의 데이터프레임을 생성할 때 주로 발생한다 import pandas as pd pd.DataFrame([1, 2, 3], columns='col1') DataFrame 함수를 사용해 데이터 프레임을 만들 때 columns 인자에 'col1'이라는 문자열을 입력했기에 발생하는 에러이다. index나 columns가 입력받는 인수는 다음과 같다. columns : Index or array-like Index의 자료형이거나 array와 유사한 자료형만 인수로 입력받지 문자열은 인수로 입력받지 않기 때문이다. array-like를 인수로 .. 2023. 7. 10.
[pandas] qcut 백분위수를 기준으로 구간을 나누어 범주화(categorization)하는 함수  import pandas as pds = pd.Series({'가': 90, '나': 10, '다': 50, '라': 95})      pandas qcut pd.qcut(x, q, labels=None) 인자 x 백분위수로 나눠 범주화를 수행할 배열을 입력. 반드시 1차원이어야 한다. q 구간을 나누는 백분위수 기준을 입력받는 매개변수정수 : 정수만큼의 균등한 구간으로 분할한다. ex1) 2를 입력하면 하위 50%와 상위 50%의 2개의 구간으로 분할한다.정렬된 배열 : ex2) [0, 0.25, 0.75, 1] 이라면 백분위로 최소 ~ 25%, 25% ~ 75%, 75% ~ 최대 까지의 3개의 구간으로 분할 labels각.. 2023. 7. 6.