안녕하세요 구도입니다.


오늘부터는 R로 텍스트 마이닝을 하는 방법에 대해 작성하도록 하겠습니다.


작성한 코드만 보고 이해하시지 말고 프로그램에서 직접 실습해보시면서 공부하시면 이해가 훨씬 빠르시답니다.


#기본 세팅

library(KoNLP)   # 한글 처리 패키지 로딩

library(wordcloud)

library(RColorBrewer)  # wordcloud package를 설치하면 자동 설치됨


useSejongDic()   # 한글 '세종사전'로딩


pal2 <- brewer.pal(8,"Dark2")   # 팔레트 생성


text <- readLines("C://Users//user//Desktop//2018학년//2학기//빅데이터 분석 및 시각화-서울//수업자료//20181024, 29//speech.txt")      # 연설문 파일 읽기

text


noun <- sapply(text, extractNoun, USE.NAMES=F)

noun # 각 행별로 추출된 명사 확인


class(noun)


noun2 <- unlist(noun)    # 추출된 명사 통합

noun2   # 통합된 명사 확인



word_count <- table(noun2)     #단어별 빈도수 계산

word_count


head(word_count,10)

head(sort(word_count, decreasing=T), 10)  #단어 빈도를 내림차순으로 정렬해서 상위 10개 보기


wordcloud(names(word_count), freq=word_count, scale=c(6,0.3), min.freq=3, random.order=F, colors=pal2)

wordcloud(names(word_count), freq=word_count, scale=c(10,1), min.freq=3, random.order=F, colors=pal2)


windowsFonts(malgun=windowsFont("맑은 고딕"))

windowsFonts(malgun=windowsFont("궁서체"))


wordcloud(names(word_count), freq=word_count, scale=c(6,0.3), min.freq=3, random.order=F, colors=pal2)

wordcloud(names(word_count), freq=word_count, scale=c(10,1), min.freq=3, random.order=F, colors=pal2, family="malgun")



오늘도 글 읽어주셔서 감사합니다.


+ Recent posts