데이터 분석 입문을 위한 기초적인 파이썬 내용을 다룹니다. 데이터 분석은 주로 파이썬의 라이브러리인 판다스를 활용해 이루어지며, 이를 위해 기본적인 파이썬 개념에 대한 이해가 필요합니다. 하지만 이것은 파이썬을 완벽하게 숙달해야 한다는 의미는 아닙니다. 그렇기에 판다스와 데이터 분석에 입문할 수 있도록 핵심 파이썬 개념을 간략하게 제공할 것입니다.
3.3. 자료형 - 문자열
문자열
파이썬에서 문자열은 텍스트 데이터를 나타내는 자료형으로, 큰따옴표(" ")나 작은따옴표(' ')로 감싸서 표현합니다. 이러한 문자열 자료형(str)은 다양한 텍스트 작업에 사용됩니다. 파이썬의 문자열은 대소문자를 구분하기 때문에, 예를 들어 'abc'와 'Abc'는 서로 다른 문자열로 인식됩니다.
또한 파이썬에서는 문자열을 다룰 때 여러 가지 유용한 연산을 지원하여 데이터를 유연하게 조작할 수 있습니다. 이에는 문자열 연결, 인덱싱과 슬라이싱, 문자열 길이 확인, 문자열 포매팅이 포함됩니다.
문자열 연결
파이썬에서는 덧셈 연산자(+)를 사용하여 문자열을 쉽게 연결할 수 있습니다. 이 기법은 추후 학습하게 되는 판다스 라이브러리에서도 데이터 결합 시 자주 활용됩니다. 예를 들어 문자열 '김'과 '판다'를 덧셈으로 연결하면 '김판다'라는 결과를 얻게 됩니다. 단 문자열끼리만 연결이 가능하다는 점은 주의하세요.
# 문자열 연결 예시
a = '김'
b = '판다'
a + b
'김판다'
파이썬에서 덧셈 연산자를 사용하여 문자열을 쉽게 연결할 수 있지만, 뺄셈 연산자를 사용해 문자열에서 일부 문자를 제거할 수는 없습니다. 또한 곱셈 연산자를 사용하여 문자열을 정수와 곱하면 문자열을 반복할 수 있습니다.
# 문자열 반복 예시
a = '김판다'
a * 3
'김판다김판다김판다'
여러 줄의 문자열 생성
여러 줄의 문자열을 작성하려면 개행 문자인 '\n'을 사용해야 합니다.
# 여러 줄의 문자열
print('김판다 강사와\n판다스를\n공부합시다.')
김판다 강사와
판다스를
공부합시다.
따옴표 3개를 사용하면 여러 줄의 문자열을 더욱 편리하게 작성할 수 있습니다. 이 방법은 줄 바꿈과 공백을 포함한 텍스트를 그대로 유지할 수 있어, 개행 문자나 이스케이프 문자를 사용하지 않고 입력된 형태 그대로 문자열을 다룰 수 있습니다. 이는 코드의 가독성을 높이고, 설명문이나 긴 텍스트를 포함할 때 효율적으로 활용할 수 있습니다.
# 여러 줄 문자열을 원형 그대로 입력
txt = '''김판다 강사와
판다스를
공부합시다.'''
print(txt)
김판다 강사와
판다스를
공부합시다.
문자열로 변환하기
문자열끼리만 연결이 가능하기 때문에, 문자열과 정수를 연결하고 싶다면 먼저 정수를 문자열로 변환해야 합니다. str 함수는 데이터를 문자열로 변환할 때 사용합니다.
# 정수를 문자열로 변환하기
num = 123
print(str(num))
'김판다' + str(num)
'123' # str(123)은 정수를 문자열로 변환
'김판다123' # 정수를 문자열로 변환해 문자열을 연결
인덱싱과 슬라이싱
파이썬의 문자열은 인덱싱과 슬라이싱을 통해 특정 문자를 추출하거나 부분 문자열을 가져올 수 있습니다. 문자열의 인덱스는 0부터 시작하며, 인덱스값을 사용하여 원하는 위치의 문자를 선택할 수 있습니다. 예를 들어 변수 a가 '김판다'일 때, a[0]로 인덱싱을 수행하면 첫 번째 문자 '김'을 반환합니다.
# 인덱싱 예시
a = '김판다'
a[0]
'김'
문자열은 슬라이싱을 지원하며, 특히 문자열을 역순으로 배열하는 슬라이싱은 다음과 같습니다.
# 문자열을 역순으로 변환
a[::-1]
'다판김'
인덱싱과 슬라이싱에 대해서는 이후의 단원에서 더 자세히 학습할 예정입니다. 여기서는 문자열도 인덱싱과 슬라이싱이 가능하다는 것과 역순으로 배열하는 방법 정도만 기억하고 넘어가도록 하겠습니다.
문자열 길이 구하기
len 함수는 문자열의 길이를 반환합니다.
# 문자열 길이 구하기
a = '김판다'
len(a)
3 # 문자열 '김판다'의 길이
len 함수로 문자열 '김판다'의 길이가 3임을 확인할 수 있습니다. len 함수는 문자열뿐만 아니라 배열이나 리스트 등의 길이도 구할 수 있고 판다스에서도 자주 사용됩니다.
문자열 포매팅
문자열 포매팅은 문자열 안에 변수의 값을 삽입하여 새로운 문자열을 만드는 기법입니다. 파이썬에서는 f-string(formatted string) 방식과 format 함수를 통해 문자열 포매팅을 수행할 수 있습니다.
- f-string 기법: 문자열 앞에 접두사 f를 붙이고, 중괄호 {} 안에 변수를 넣어 해당 변수의 값을 문자열에 삽입하는 방식입니다.
# f-string 방식으로 문자열 포매팅
a = '김판다'
b = '판다스'
f'{a} 강사와 함께 {b}를 배웁시다'
'김판다 강사와 함께 판다스를 배웁시다'
- format 함수: format 함수를 사용하여 문자열 내 중괄호 {}에 변수를 삽입할 수 있습니다. format 함수의 매개변수로 중괄호에 넣을 값을 지정하여 텍스트를 생성합니다.
# format 함수로 문자열 포매팅
a = '김판다'
b = '판다스'
'{} 강사와 함께 {}를 배웁시다'.format(a, b)
'김판다 강사와 함께 판다스를 배웁시다'
문자열 포매팅을 사용하면 변수의 값을 동적으로 삽입하여 다양한 텍스트를 생성할 수 있습니다. 문자열 포매팅을 익혀두면 코드가 간결해지고, 복잡한 문자열 작업을 더 쉽게 처리할 수 있습니다. 다만 문자열 포매팅이 어려운 입문자라면 먼저 문자열 연결 방식을 사용하다가, 익숙해지면 문자열 포매팅으로 전환해도 괜찮습니다.
# 문자열 연결로 변수의 값을 삽입
a = '김판다'
b = '판다스'
a + '강사와 함께' + b + '를 배웁시다'
판다스와 문자열
※ 판다스는 기초 파이썬과 직접 관련이 없으므로, 추후 판다스를 학습한 후에 확인하셔도 됩니다.
파이썬은 이 외에도 다양한 함수와 강력한 기능을 통해 문자열을 효과적으로 처리할 수 있습니다. 다만 판다스에도 문자열을 다루는 함수들이 있으므로, 데이터 분석 입문자라면 나중에 판다스에서 문자열을 다루는 방법을 익히는 것이 시간을 절약하는 길이 될 수 있습니다.
유튜브에서 판다스 강의 중입니다.
'판다스 > 기초 파이썬' 카테고리의 다른 글
[python] 3.5. 자료형 - 리스트 (2) | 2024.10.30 |
---|---|
[python] 3.4. 자료형 - 불(bool) (0) | 2024.10.30 |
[python] 3.2. 자료형 - 실수 (4) | 2024.10.28 |
[python] 3.1. 자료형 - 정수 (3) | 2024.10.28 |
[python] 2. 변수 (4) | 2024.10.27 |