본문 바로가기

분류 전체보기242

ValueError: Cannot subset columns with a tuple with more than one element. Use a list instead. import pandas as pd df = pd.DataFrame({'name': ['a', 'b', 'a', 'c'], 'colA': [ 3, 2, 5, 1], 'colB': [ 1, 2, 3, 4]}) df 예의 데이터 프레임을 name으로 그룹화 해서 colA와 colB를 모두 합산을 하고 싶다면 아래와 같은 코드를 사용하면 된다 df.groupby('name')[['colA', 'colB']].sum() groupby를 복수의 열에 적용하려면 대괄호 안에 리스트를 넣는 이중 대괄호가 되어야 한다. [['colA', 'colB']] 이것을 단일 대괄호 안에 넣으면 판다스 +2.0 부터 아래의 에러가 발생하니 반드시 이중대괄호에 넣자 df.groupby('name')['colA', 'colB'].s.. 2023. 5. 3.
[pandas] 24시를 넘는 시간표기를 정상적인 datetime으로 바꾸는 방법 가끔 24시를 넘는 시간표기를 하는 곳이 있다 (특히 영화관)가령 2023-01-02 00:20:00의 타임스탬프를 전일인 2023-01-01을 기준으로 24:20:00으로 표현한다이런 데이터를 정상적인 datetime으로 바꿔보자  import pandas as pds1 = pd.Series(['2022-01-01 23:50:00', '2022-01-01 24:10:00'])s1     s1은 24시가 넘는 시간을 갖고 있는 문자열 데이터이다.아래와 같은 코드를 사용하면 쉽게 해결된다  spl = s1.str.split(' ')pd.to_datetime(spl.str[0]) + pd.to_timedelta(spl.str[1])  2022-01-01 24:10:00 -> 2022-01-02 00:10:0.. 2023. 5. 2.
ValueError: unconverted data remains: 4 import pandas as pd pd.to_datetime('24', format='%H') ValueError: unconverted data remains: 4 %H로 시간 format을 변형할때 24 이상의 시각이 있을 때 발생하는 에러 24를 오버하는 시각이 있는 데이터를 정상적인 datetime으로 바꾸는 법 https://kimpanda.tistory.com/111 참고문헌 : https://stackoverflow.com/questions/61052483/valueerror-unconverted-data-remains-4 2023. 5. 2.
ValueError: ('Lengths must match to compare' ValueError: ('Lengths must match to compare'는 비교 연산에서 양측의 길이가 다를 때 나타나는 에러이다. 다만 아래와 같은 오타가 생성되었을 때도 자주 나타난다.  import pandas as pddata = {'colA': {0: 2, 1: 1, 2: 3}, 'colB': {0: 1, 1: 2, 2: 3}}df = pd.DataFrame(data)     colA와 colB를 비교해보자 df['colA'] > df['colB']  열을 인덱싱해서 간단한 비교연산자를 쓰는 것으로 비교가 가능하다  이 때 df['colA'] 처럼 열을 인덱싱해야 하는데 변수를 빠뜨리고 ['colA']만 입력해도 비교 대상의 길이가 달라지기에 아래와 같은 에러가 난다. ['colA'] >.. 2023. 5. 2.
python 코딩 에디터: 구글 코랩(google colab) 사용법 python 코딩 에디터: 구글 코랩(google colab) 사용법구글 코랩(google colab)이란? 구글 colaboratory의 줄임말입니다. 웹에서 텍스트 기반의 코딩을 할 수 있도록 구글에서 제공하는 코딩 에디터 입니다.별도의 설치 없이 브라우저에서 python을 작성하고 실행 가능합니다.   구글 코랩의 장점설치가 필요 없습니다.데이터 분석에 필요한 주요 라이브러리 또한 설치되어 있습니다. (pandas 등)개발환경이 통일됩니다.(강의를 들을 때 강사의 개발환경과 통일되기에 개발환경에 따른 문제가 없습니다.) 구글 코랩의 단점경로명만으로 내 컴퓨터의 파일을 사용할 수 없습니다. (별도의 업로드가 필요)클립보드 관련 함수를 사용할 수 없습니다. (read_clipboard 등)특정 시간이 .. 2023. 4. 20.
[pandas] date_range 특정 주기의 DatetimeIndex를 만드는 함수 pd.date_range(start=None, end=None, periods=None, freq=None) start 배열의 시작 end 배열의 끝 periods 생성할 배열의 개수 freq (주기 / 기본값 ‘D’) 생성할 데이터의 주기 https://pandas.pydata.org/docs/user_guide/timeseries.html#timeseries-offset-aliases 판다스 공식 문서 https://pandas.pydata.org/docs/reference/api/pandas.date_range.html 유튜브에서 판다스 강의 중입니다 https://www.youtube.com/@KimPandas 2023. 3. 16.