안녕하세요 구도입니다.
오늘부터는 R로 텍스트 마이닝을 하는 방법에 대해 작성하도록 하겠습니다.
작성한 코드만 보고 이해하시지 말고 프로그램에서 직접 실습해보시면서 공부하시면 이해가 훨씬 빠르시답니다.
#기본 세팅
library(KoNLP) # 한글 처리 패키지 로딩
library(wordcloud)
library(RColorBrewer) # wordcloud package를 설치하면 자동 설치됨
useSejongDic() # 한글 '세종사전'로딩
pal2 <- brewer.pal(8,"Dark2") # 팔레트 생성
text <- readLines("C://Users//user//Desktop//2018학년//2학기//빅데이터 분석 및 시각화-서울//수업자료//20181024, 29//speech.txt") # 연설문 파일 읽기
text
noun <- sapply(text, extractNoun, USE.NAMES=F)
noun # 각 행별로 추출된 명사 확인
class(noun)
noun2 <- unlist(noun) # 추출된 명사 통합
noun2 # 통합된 명사 확인
word_count <- table(noun2) #단어별 빈도수 계산
word_count
head(word_count,10)
head(sort(word_count, decreasing=T), 10) #단어 빈도를 내림차순으로 정렬해서 상위 10개 보기
wordcloud(names(word_count), freq=word_count, scale=c(6,0.3), min.freq=3, random.order=F, colors=pal2)
wordcloud(names(word_count), freq=word_count, scale=c(10,1), min.freq=3, random.order=F, colors=pal2)
windowsFonts(malgun=windowsFont("맑은 고딕"))
windowsFonts(malgun=windowsFont("궁서체"))
wordcloud(names(word_count), freq=word_count, scale=c(6,0.3), min.freq=3, random.order=F, colors=pal2)
wordcloud(names(word_count), freq=word_count, scale=c(10,1), min.freq=3, random.order=F, colors=pal2, family="malgun")
'IT > 빅데이터분석및시각화' 카테고리의 다른 글
[빅데이터분석및시각화 12] R 텍스트마이닝 04 (0) | 2019.02.13 |
---|---|
[빅데이터분석및시각화 11] R 텍스트마이닝 03 (0) | 2019.02.03 |
[빅데이터분석및시각화 09] R 텍스트마이닝 01 (0) | 2019.01.26 |
[빅데이터분석및시각화 08] R Plot / 수치형 자료를 범주형으로 바꾸기 (0) | 2019.01.16 |
[빅데이터분석및시각화 07] R 상대도수 y축 / 줄기잎그림 / boxplot 등 (0) | 2019.01.09 |