본문 바로가기
정보

파이썬 실전데이터분석_01 트럼프 대통령 트윗으로 시작하는 데이터 처리

by 모오오어 2020. 11. 13.
반응형
SMALL

 

 

01 트럼프 대통령 트윗으로 시작하는 데이터 처리

트럼프 대통령은 어떤 #해시태그와 @멘션을 가장 많이 사용했을까요? 조건문, 반복문, 리스트를 복합적으로 이용해 트럼프 대통령의 트윗을 분석하고 2017 뉴욕 타임즈에서 가장 많이 읽힌 미국 정치 뉴스와 비교해봅니다.

 

리스트 순회하기

1.for, in

 

 

문장의 단어를 하나씩 가져오기

for 반복문에 in 키워드를 이용하면 리스트의 원소를 하나씩 가져와 변수에 저장할 수 있습니다.

여기에 리스트의 길이를 구하는 len()와, 연속된 정수를 만들어주는 range() 함수를 함께 사용하면 원소의 인덱스를 가져올 수 있습니다.

데이터 분석에 응용하기

lower(), replace() 등 다양한 메소드를 이용해 트럼프 대통령의 트윗을 정제하기 위해선 먼저 리스트에 담긴 요소를 하나씩 가져와야 합니다.

trump_tweets 리스트의 문자열 요소를 하나씩 가져와서 트윗 게시일과 함께 출력하는 date_tweet 함수를 살펴보고, 실행·제출해보세요.

 

 

 

2. 인덱싱

 

단어의 일부분 가져오기

인덱스를 이용하면 문자열 또는 리스트의 특정 요소에 접근할 수 있습니다. 인덱스는 0부터 시작하며 -1은 맨 마지막 문자 또는 요소를 가리킵니다.

시작 인덱스와 끝 인덱스를 이용하면 특정 구간의 요소를 리스트형으로 접근할 수 있습니다. 끝 인덱스를 생략하면 시작 인덱스부터 마지막 요소까지 접근합니다.

 

데이터 분석에 응용하기

문자열로 이루어진 text 리스트에서 k로 시작하는 문자열을 하나씩 출력하는 print_korea() 함수를 완성하세요.

 

 

3. 문자열함수

단어의 첫 글자 확인하기

startswith() 메소드를 이용하면 단어가 특정 문자열로 시작하는지 쉽게 확인할 수 있습니다.

데이터 분석에 응용하기

해시태그와 멘션을 찾기 위서는 문자열이 # 또는 @로 시작하는지 확인해야 합니다.

startswith() 메소드를 사용하여 앞서 인덱싱을 이용해 작성한 print_korea() 함수를 다시 작성하세요.

 

 

문장을 단어 단위로 구분하기

split() 메소드는 특정 문자를 기준으로 문자열을 분리합니다. 입력값을 넣지 않을 경우 공백을 기준으로 분리합니다. 분리된 문자열은 리스트의 원소로 저장됩니다.

데이터 분석에 응용하기

트윗에 사용된 단어를 하나씩 살펴보기 위해서는 문자열을 리스트로 변환해야 합니다.

trump_tweet을 공백을 기준으로 분리하고 리스트형으로 반환하는 break_into_words() 함수를 수정하세요

 

 

 

새로운 단어 추가하기

append()는 리스트를 다룰 때 사용되는 가장 기본적인 메소드로, 리스트의 맨 마지막에 새로운 요소를 추가합니다.

데이터 분석에 응용하기

append()를 이용하면 빈 리스트에 데이터를 쉽게 추가할 수 있습니다.

trump_tweets 리스트에서 b로 시작하는 요소를 빈 리스트 new_list에 저장하는 make_new_list() 함수를 수정하세요.

 

 

 

append는 문자열을 직접수정하지만,

split. upper, lower등은 문자열을 정의해주어야사용가능하다

 

대소문자 변환하기

lower(), upper() 메소드를 이용하면 문자열을 쉽게 소문자 또는 대문자로 변환할 수 있습니다.

데이터 분석에 응용하기

가짜 뉴스를 뜻하는 Fake News는 트럼프 대통령이 가장 자주 사용하는 말 중 하나입니다.

FAKE NEWS, Fake News는 대소문자가 다르기 때문에 두 단어가 몇 번 사용되었는지 정확하게 확인하기 위해서는 모두 소문자로 변환해야 합니다.

trump_tweets 리스트의 문자열 요소를 모두 소문자로 변환하는 lowercase_all_characters() 함수를 완성하세요.

 

 

 

특수기호 삭제하기

replace() 메소드는 문자열에서 특정 문자나 문자열을 다른 문자(열)로 변경할 때 사용됩니다.

replace()는 변경하고 싶은 문자열을 첫번째 입력값으로, 대체할 문자열을 두번째 입력값으로 받습니다.

데이터 분석에 응용하기

소문자로 변환된 trump_tweets의 트윗을 공백을 기준으로 구분할 경우 christmas', christmas,, christmas!!!가 생성되기 때문에 christmas가 몇 번 사용되었는지 정확하게 확인하기 위해서는 특수문자를 제거해야 합니다.

trump_tweets 리스트의 문자열 요소에서 쉼표, 작은따옴표, 느낌표를 제거하는 remove_special_characters() 함수를 완성하세요.

 

 

반응형
LIST

댓글