본문 바로가기

분류 전체보기263

[pandas] transform 함수 개념 정립 판다스의 transform 함수  transform 함수란? 판다스의 transform 함수는 데이터 프레임의 각 열에 여러 개의 함수를 동시에 적용하고, 그 결과를 동일한 행의 데이터로 반환하는 데 사용됩니다. 이 함수는 여러 열에 여러 함수를 동시에 적용해야 할 때 매우 유용하지만, 몇 가지 제한 사항도 존재합니다. 예시와 함께 설명을 제공하는 것이 이해를 돕는 데 효과적이므로, 우선 가상의 주가 데이터인 간단한 예시 데이터 프레임을 생성해 보겠습니다.  df는 2024년 10월 21일부터 4일 동안 가상의 삼성전자와 카카오의 주식 데이터입니다. import pandas as pdpd.options.display.float_format = '{:.3f}'.format # 소수점 셋째 자리 출력# 날짜.. 2024. 10. 20.
[pandas] AttributeError: DataFrame' object has no attribute 'str' 에러 판다스에서 AttributeError: DataFrame' object has no attribute 'str' 원인과 해결판다스에서 문자열을 처리할 때 자주 사용하는 str 메서드를 데이터 프레임 전체에 적용하려 하면, AttributeError: DataFrame' object has no attribute 'str' 에러가 발생하게 됩니다. 본 글에서는 이 에러의 원인과 해결 방법을 살펴보겠습니다. str 메서드 중 가장 빈번하게 사용되는 str.contains 메서드를 예로 들어 설명하겠습니다. AttributeError란? AttributeError의 일반적인 원인과 해결 방법에 대해 궁금하신 분은 링크 내용을 참고하세요. 요약하자면, AttributeError는 객체가 호출하려는 속성이나 메서.. 2024. 10. 20.
[python] unhashable type 에러 unhashable type 에러 unhashable type 에러는 파이썬에서 해시 가능하지 않은 자료형을 부적절하게 사용하려 할 때 발생하는 에러입니다. 이 에러의 의미는, 리스트와 같은 자료형이 해시 가능(hashable)하지 않기 때문에 특정 상황에서 사용할 수 없다는 것을 나타냅니다. 참고로 리스트, 딕셔너리, 집합(set) 자료형이 해시 가능하지 않는 자료형입니다.(mutable) 대표로 리스트로 인해 발생하는 unhashable type 에러를 예로 살펴보겠습니다.TypeError: unhashable type: 'list' hashable의 개념 hashable하다는 것은 객체가 고유한 해시값(hash value)을 가질 수 있음을 의미합니다. 해시값은 해당 객체를 유일하게 식별할 수 있는.. 2024. 10. 19.
비즈니스 구독자에게 Python in Excel 기능 제공 소식 이전에는 Microsoft 365 개인 구독자들만 Python in Excel을 사용할 수 있었는데, 드디어 비즈니스 구독자들에게도 Python in Excel 기능이 제공된다는 소식이 전해졌습니다. 이로써 이제 비즈니스 구독자들도 Excel에서 Python을 활용할 수 있게 되었습니다. 특히 판다스를 잘 아시는 여러분들께는 매우 유용한 소식이 될 것입니다.(오피스 사용을 위해 매달 돈을 내시고 계시는 Microsoft 365 구독자분들만 가능합니다.) 아래는 관련 내용을 번역한 것입니다. 이제 Microsoft 365 비즈니스 및 엔터프라이즈 구독자들은 Excel에서 Python을 사용할 수 있는 기능을 제공받게 되었습니다. 이 통합은 데이터 분석 작업의 효율성을 극대화할 수 있는 강력한 도구로, 보다.. 2024. 10. 17.
[pandas] 두 데이터 프레임에 공통으로 존재하는 행 추출하기 두 데이터 프레임에 공통으로 존재하는 행 추출하기 때때로 두 데이터 프레임에서 공통으로 존재하는 행을 추출해야 하는 상황이 발생합니다. 예를 들어, 아래 코드에서 생성된 df1과 df2는 몇 가지 공통된 데이터를 포함하고 있습니다.import pandas as pd# 첫 번째 데이터 프레임 생성df1 = pd.DataFrame({ 'colA': [10, 20, 50, 30], 'colB': [50, 60, 20, 70], 'colC': [90, 100, 80, 90]})# 두 번째 데이터 프레임 생성df2 = pd.DataFrame({ 'colA': [55, 30, 20, 70], 'colB': [15, 70, 60, 10], 'colC': [95, 90, 100, 30.. 2024. 10. 16.
[pandas] period 자료형의 장점 판다스에서 period 자료형의 장점세 종류의 시계열 데이터 판다스는 다음 세 종류의 자료형으로 시계열 데이터를 처리합니다.그림 출처 : 파이썬의 엑셀, 판다스 라이브러리  Timestamp는 시점이며, Period는 기간이고, Timedelta는 시간 차이를 나타내는 자료형입니다. 판다스의 period dtype의 장점 일반적으로 중급 이상의 숙련된 판다스 유저들도 period 자료형을 사용에 어려움을 느끼지만, 이 자료형도 유저의 편의를 위해 설계된 만큼, 제대로 활용하면 코드의 간결성을 크게 높일 수 있습니다. 예시1)예시를 위해 period 자료형의 배열을 생성해 변수 prd로 지정합니다.import pandas as pdprd = pd.period_range('2021Q1', periods=3,.. 2024. 10. 16.