library(ggplot2) # 시각화 코드 # install.packages("dplyr") # install.packages("tidyr") library(dplyr) # 데이터 가공 library(reshape) # 데이터 가공 <-- tidyr library(readr) # 파일 입출력
# ---- 훈련 검증용 데이터 분류 ---- set.seed(1234) idx = sample(1:nrow(pos_final_df), nrow(pos_final_df) * 0.7, replace = FALSE) train = pos_final_df[idx, ] test = pos_final_df[-idx, ]
Logistic Regression Model Develop
1 2 3 4 5 6 7 8 9 10 11
# --- 로지스틱 회귀 모형 개발 ---
start_time = Sys.time()
glm_model = step(glm(pos_binary ~ ., data = train[-1], family = binomial(link = "logit")), direction = "backward") # 후진소거법
End_time = Sys.time() difftime(End_time, start_time, units = "secs")
Step: AIC=2202.56
Logistic regression 안의 평가 기준
낮을 수록 좋다.
Step: AIC=2202.2 pos_binary ~ love + veri + just + size + dress + fit + will + back + like + tri + flatter + top + length + realli + shirt + materi
모형 성능 측정
1 2 3 4 5 6
# ---- 모형 성능 측정 ---- # install.packages("pROC") library(pROC) preds = predict(glm_model, newdata = test, type = "response") roc_glm = roc(test$pos_binary, preds) plot.roc(roc_glm, print.auc=TRUE)
정리
1. 정형 데이터 가져 오기
2. 정형 데이터 가공
- 좋아요 수를 활용하여 긍정/부정 data 나눔
3. 정형 데이터 분리 : 텍스트 데이터 따로 분리
4. 텍스트 데이터 처리 (전처리, 토큰화, 코퍼스, DTM)
5. 텍스트 데이터 + 기존 data 합침
6. ML 모형 진행 (다른 모형을 진행 해도 된다. )
하지만, 혹시 지금까지 배운 내용이 너무 어렵다면 python으로만 하는 것도 나쁘지 않다.
package ‘BH’ successfully unpacked and MD5 sums checked package ‘RcppParallel’ successfully unpacked and MD5 sums checked
The downloaded binary packages are in C:\Users\brill\AppData\Local\Temp\RtmpmuDZXg\downloaded_packages √ checking for file ‘C:\Users\brill\AppData\Local\Temp\RtmpmuDZXg\remotes2cd0f4c5d4d\junhewk-RcppMeCab-e1800aa/DESCRIPTION’ (414ms)
byte-compile and prepare package for lazy loading in method for ‘asJSON’ with signature ‘“blob”‘: no definition for class “blob”
help
** installing help indices converting help for package ‘jsonlite’ finding HTML links … done base64 html flatten html fromJSON html prettify html rbind_pages html read_json html serializeJSON html stream_in html unbox html validate html
building package indices
installing vignettes
testing if installed package can be loaded from temporary location
testing if installed package can be loaded from final location
testing if installed package keeps a record of temporary installation path
DONE (jsonlite)
R packages 설치
1 2
install.packages(c("stringr", "hash", "tau", "Sejong", "RSQLite", "devtools"), type = "binary")
The downloaded source packages are in ‘C:\Users\brill\AppData\Local\Temp\RtmpmuDZXg\downloaded_packages’ install.packages(c(“stringr”, “hash”, “tau”, “Sejong”, “RSQLite”, “devtools”),
checking for LF line-endings in source and make files and shell scripts
checking for empty or unneeded directories
looking to see if a ‘data/datalist’ file should be added
building ‘KoNLP_0.80.2.tar.gz’
‘C:/Users/brill/Documents/R/win-library/4.1’의 위치에 패키지(들)을 설치합니다. (왜냐하면 ‘lib’가 지정되지 않았기 때문입니다)
installing source package ‘KoNLP’ …
using staged installation
R
data
inst
byte-compile and prepare package for lazy loading
help
** installing help indices converting help for package ‘KoNLP’ finding HTML links … done HangulAutomata html KtoS html MorphAnalyzer html SimplePos09 html SimplePos22 html StoK html backupUsrDic html buildDictionary html concordance_file html concordance_str html convertHangulStringToJamos html convertHangulStringToKeyStrokes html convertTag html editweights html extractNoun html get_dictionary html is.ascii html is.hangul html is.jaeum html is.jamo html is.moeum html mergeUserDic html mutualinformation html reloadAllDic html reloadUserDic html restoreUsrDic html scala_library_install html statDic html tags html useNIADic html useSejongDic html useSystemDic html
Content type ‘application/java-archive’ length 5744974 bytes (5.5 MB)
downloaded 5.5 MB
[1] TRUE [1] 5744974 Successfully installed Scala runtime library in C:/Users/brill/Documents/R/win-library/4.1/00LOCK-KoNLP/00new/KoNLP/java/scala-library-2.11.8.jar ** testing if installed package can be loaded from final location ** testing if installed package keeps a record of temporary installation path
DONE (KoNLP)
명사 분리기 KoNLP 설치
1 2
library(KoNLP) useNIADic()
library(KoNLP) useNIADic() Backup was just finished! Downloading package from url: https://github.com/haven-jeon/NIADic/releases/download/0.0.1/NIADic_0.0.1.tar.gz Installing 16 packages: colorspace, viridisLite, RColorBrewer, munsell, labeling, farver, base64enc, htmltools, scales, isoband, gtable, jquerylib, tinytex, ggplot2, data.table, rmarkdown ‘C:/Users/brill/Documents/R/win-library/4.1’의 위치에 패키지(들)을 설치합니다. (왜냐하면 ‘lib’가 지정되지 않았기 때문입니다) trying URL ‘https://cran.rstudio.com/bin/windows/contrib/4.1/colorspace_2.0-2.zip' Content type ‘application/zip’ length 2645307 bytes (2.5 MB) downloaded 2.5 MB
package ‘colorspace’ successfully unpacked and MD5 sums checked package ‘viridisLite’ successfully unpacked and MD5 sums checked package ‘RColorBrewer’ successfully unpacked and MD5 sums checked package ‘munsell’ successfully unpacked and MD5 sums checked package ‘labeling’ successfully unpacked and MD5 sums checked package ‘farver’ successfully unpacked and MD5 sums checked package ‘base64enc’ successfully unpacked and MD5 sums checked package ‘htmltools’ successfully unpacked and MD5 sums checked package ‘scales’ successfully unpacked and MD5 sums checked package ‘isoband’ successfully unpacked and MD5 sums checked package ‘gtable’ successfully unpacked and MD5 sums checked package ‘jquerylib’ successfully unpacked and MD5 sums checked package ‘tinytex’ successfully unpacked and MD5 sums checked package ‘ggplot2’ successfully unpacked and MD5 sums checked package ‘data.table’ successfully unpacked and MD5 sums checked package ‘rmarkdown’ successfully unpacked and MD5 sums checked
The downloaded binary packages are in C:\Users\brill\AppData\Local\Temp\RtmpmuDZXg\downloaded_packages √ checking for file ‘C:\Users\brill\AppData\Local\Temp\RtmpmuDZXg\remotes2cd0437ea43\NIADic/DESCRIPTION’ …
text = "뿌리산업’의 기반이 되는 공정기술의 범위가 관련법 제정 10년 만에 확대 개편된다. 뿌리기업 우대 지원과 청년층 등 신규인력 유입 지원을 강화하기 위한 법적 토대도 마련된다. 산업통상자원부는 이 같은 내용을 담은 ‘뿌리산업 진흥과 첨단화에 관한 법률(뿌리산업법) 시행령’ 개정안이 14일 국무회의에서 의결돼 오는 16일부터 시행된다고 밝혔다. 먼저 뿌리산업법 기반 공정기술(뿌리기술)의 범위가 기존 6개(주조, 금형, 소성가공, 용접, 표면처리, 열처리)에서 14개로 늘어난다. 구체적으로 소재 다원화 공정기술에 사출·프레스, 정밀가공, 적층제조, 산업용 필름 및 지류 등 4개 기술이 포함된다. 산업부는 이를 통해 세라믹, 플라스틱, 탄성소재, 탄소, 펄프 등 다양한 소재 기반 제조 공정을 확산할 계획이다. 또 지능화 공정기술로 로봇, 센서, 산업 지능형 소프트웨어, 엔지니어링 설계 등 4개 기술이 추가된다. 뿌리기술 범위가 확대되면서 뿌리산업의 범위도 기존 6대 산업, 76개 업종에서 14대 산업, 111개 업종으로 늘어난다. 이번 개정을 통해 뿌리기업 확인 절차, 확인서 유효기간(3년), 사후관리 등에 관한 규정도 신설됐다. 뿌리기업은 뿌리기술을 활용해 사업을 영위하는 업종 또는 뿌리기술에 활용되는 장비 제조 분야를 말한다. 뿌리기업 확인 제도는 외국인 근로자 고용 우대 혜택 등이 주어지는 뿌리산업 관련 우대 지원 대상을 명확히 정하기 위한 것으로 국가뿌리산업진흥센터에서 확인서를 발급해오고 있다. 2012년부터 1만1766건이 발급됐으며 현재 5843건이 유효한 것으로 집계됐다. ‘일하기 좋은 뿌리기업’ 선정을 위한 기준과 절차, 지원 내용 등에 관한 규정도 새로 만들어졌다. ‘일하기 좋은 뿌리기업’은 뿌리산업에 청년층 등 신규 인력 유입을 촉진하기 위해 근로·복지 환경, 성장 역량 등이 우수한 기업을 산업부가 선정해 홍보 등을 지원하는 제도다. 산업부는 이번 개정 사항이 원활히 시행될 수 있도록 업종별 협·단체, 뿌리기업, 지자체 등을 대상으로 적극 홍보할 방침이다. 아울러 매년 발간하는 뿌리산업 백서를 통해 새롭게 추가되는 8대 차세대 공정기술에 대한 내용, 기술 동향 등을 상세하게 제공하기로 했다. 산업부 관계자는 “이번 개정은 2011년 뿌리산업법 제정 후 10년 만에 뿌리기술을 소재다원화와 지능화 중심으로 확장한 것으로, 뿌리산업의 기술 융복합화와 첨단화를 촉진하고 신규 인력 유입 지원을 강화하기 위한 법적 토대를 마련하였다는 데에 의의가 있다”고 말했다."
저작권 : “R for DataScience by Hadley Wickham and Garrett Grolemund(O’Reilly). Copyright 2017 Garrett Grolemund, Hadley Wickham, 978-1-491-91039-9
Introduction
Data science is an exciting discipline that allows you to turn raw data into understanding, insight, and knowledge. The goal of “R for Data Science” is to help you learn the most important tools in R that will allow you to do data science. After reading this book, you’ll have the tools to tackle a wide variety of data science challenges, using the best parts of R.