파이썬 실전데이터분석_02 영어 단어 모음으로 시작하는 텍스트 파일 분석

SMALL

02 영어 단어 모음으로 시작하는 텍스트 파일 분석

약 1억 개의 영어 단어로 구성된 British National Corpus의 단어 모음, 어렵지 않아요. 파이썬 라이브러리와 파일을 불러오기를 이용해 영문 자료에서 가장 많이 사용되는 단어 10,000개를 알아봅니다.

파일 열고 읽기

open()을 이용하면 지정한 파일 이름에 해당하는 파일을 열고, 읽거나 수정할 수 있습니다.

여기에 with ... as을 사용하면 파일을 자동으로 닫을 수 있고, for문을 사용하면 파일 내용을 한 줄씩 읽을 수 있습니다.

영어 단어 데이터를 분석하려면, 먼저 데이터 저장된 파일을 파이썬으로 읽어 와야 합니다.

파일의 내용을 각 줄의 번호와 함께 출력하는 print_lines() 함수를 완성하세요.

튜플(tuple)은 리스트와 비슷한 데이터 구조로, 여러 값을 모아서 저장할 수 있습니다. 단, 리스트와 다르게 () 안에 요소가 입력되며 한 번 생성한 튜플은 그 값을 변경할 수 없습니다

corpus.txt의 내용을 읽고 (단어, 빈도수) 튜플로 구성된 리스트를 리턴하는 import_as_tuple() 함수를 완성하세요.

위의 양쪽 모두 같은 코드로 오른쪽이 더 편리하다

파이썬의 가장 큰 장점 중 하나는 간결한 코드입니다. for문을 리스트 안에 입력하면 새로운 리스트를 코드 한 줄로 간결하게 생성할 수 있습니다. 아래의 두 코드는 동일하게 작동합니다.

for와 if를 함께 사용하면 리스트의 특정 원소만 선택하여 리스트에 추가할 수도 있습니다.

None을 삭제하고 단어 모음 words에서 prefix로 시작하는 단어만 리턴하는 filter_by_prefix 함수를 완성하세요.

sorted: 어떤 문자열의 가장 마지막 글자를 기준으로 정렬

sorted()를 활용하면 리스트를 특정 기준에 맞춰 정렬할 수 있습니다.

이때 기준은 key에 저장한 함수를 따르게 됩니다.

아래의 코드는 숫자의 리스트를 절댓값을 기준으로 정렬합니다.

여기서 abs() 함수는 절댓값을 리턴하는 파이썬 내장 함수입니다.

단어의 사용 빈도를 쉽게 확인하기 위해서는 단어를 빈도 순서대로 정렬해야 합니다.

None을 삭제하고 이 작업에 필요한 함수 get_freq()와 sort_by_frequency() 함수를 완성하세요.

파이썬의 matplotlib 라이브러리를 이용하면 막대 차트, 꺾은선 차트 등 다양한 차트를 쉽게 그릴 수 있습니다.

영어 단어의 빈도수를 쉽게 비교하기 위해서는 한 눈에 들어오는 그래프를 그려야 합니다.

matplotlib의 bar() 메소드를 이용하여 최근 평균 기온 그래프를 간단히 그려 보겠습니다. 코드와 주석을 이해한 후 출력된 차트를 확인해 보세요.

LIST