?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부

대용량 텍스트마이닝 기술 하정우

  1. 1. Deep Recurrent Neural Network를 이용한 대용량 텍스트마이닝 기술 및 실제 응용사례 하정우 NAVER LABS
  2. 2. CONTENTS 1. Big text mining in real-world 2. Deep Learning for Text Mining 3. New approach for text classification: multiple RNNs 4. Two applications: - Large-scale item categorization in NAVER Shopping - Sentiment analysis: NAVER Movie review 5. Concluding remarks & future works
  3. 3. 1. Big Text Mining In Real-World
  4. 4. 1.1 텍스트 마이닝 텍스트 마이닝(Text mining)[Wikipedia.org] Text DB (Docs, Web, etc) High-quality Information Text mining
  5. 5. 1.1 텍스트 마이닝 인공지능을 위한 텍스트 마이닝 1. Never Ending Language Learning (NELL): Read the Web (http://rtw.ml.cmu.edu/rtw/) 2. Question & answering system 3. Dialog systems 4. Artisto project of AI2 (http://allenai.org/) 5. Chatbots
  6. 6. 1.1 텍스트 마이닝 NAVER에서의 텍스트 마이닝 문제 뉴스 기사 정치 경제 사회 IT 스포츠 연예 [Text classification] 뉴스 기사 [Keyword extraction] 10월 환율 수출 하락 악영향 침체 네이버 블로그, 카페, 지식인 등 [Knowledge extraction]
  7. 7. 1. Symbolic semantics (WordNet) 2. One-hot-encoding 3. N-gram 4. TF / IDF (Bag-of-words) 5. Neural embedding: word / phrase / sentence / doc 2 vec 1.2 텍스트 마이닝 기법 Preprocessing 1. Stemming, 안 쓰는 단어 걸러내기 2. 한글은 형태소 분석도 필요함 Feature representation
  8. 8. 1.2 텍스트 마이닝 기법 Mining methods 1. Pattern matching 2. Correlation coefficient 3. Information theory – Entropy 4. Supervised / unsupervised learning 1. SVM, Naïve Bayes Classifier, Bayesian networks 2. Clustering, topic modeling (LSA, pLSA, LDA, HDP) 5. Discrete vs. Continuous bag-of-words
  9. 9. 1.2 텍스트 마이닝 기법 기존 Text mining 방법들의 한계 1. Symbolic semantics 1. Well-defined semantic networks & continuously refining 2. General domain ok. But specific domain (뽀로로 펭귄 vs 일반적 펭귄) 3. Phrase / sentence / document-level similarity? 2. TF / IDF based on Bag-of-words, N-gram 1. High-dimensionality and sparsity - Vocabulary size = dimensionality (over 2 million) 2. Word-level similarity? 3. Smoothing: Kneser-Ney, Katz’s back-off [Katz et al. 1987]
  10. 10. 2. Deep Learning for Text Mining
  11. 11. 2.1 Neural Word-Embedding Word2vec [Mikolov et al. 2013a, 2013b] T. Mikolov et al. 2013. Efficient Estimation of Word Representations in Vector Space, arXiv.org T. Mikolov et al. 2013. Distributed representations of words and phrases and their compositionality, NIPS 2013
  12. 12. 2.2 Recursive Neural Networks Recursive Neural Networks [Socher et al. 2011, 2013] R. Socher et al. 2013. Recursive deep models for semantic compositionality over a sentiment treebank, EMNLP 2013
  13. 13. 2.3 CNN기반 텍스트 마이닝 CNN for sentence classification [Kim et al. 2014] Character-level CNNs [Zhang et al. 2015] Y. Kim. 2014. 2014. Convolutional neural networks for sentence classification, EMNLP 2014 Zhang et al. 2015. Character-level convolutional networks for text classification, NIPS 2015
  14. 14. 2.4 Recurrent Neural Networks RNN, LSTM, GRU [Chung et al. 2015] Chung et al. 2015. Gated Feedback Recurrent Neural Networks, ICML 2015
  15. 15. 3. New Approach for Text Classification: Multiple RNNs
  16. 16. 3.1 Data Representation Data instance Word sequence or TF/IDF 기존 텍스트 데이터 표현 방법.
  17. 17. 3.1 Data Representation Attribute 1 Attribute 2 Attribute 3 Attribute M Word sequence Word sequence Word sequence Word sequence Data instance 제안하는 방법
  18. 18. 3.1 Data Representation 언론사 기자명 제목 기사본문 **일보 홍길동, 장길산 [기획취재] 강남 부동산 재개발 의 명과 암 최근 들어 ~~ 신문 기사
  19. 19. 3.1 Data Representation 언론사 기자명 제목 기사본문 **일보 홍길동, 장길산 [기획취재] 강남 부동산 재개발 의 명과 암 최근 들어 ~~ 신문 기사
  20. 20. 3.2 Deep Multiple RNNs Input layer RNN(1) RNN(2) RNN(m) RNN Output Concatenation layer h(1) h(2) Output layer (Softmax)
?

List of Articles
번호 제목 글쓴이 날짜 조회 수
» 대용량 텍스트마이닝 기술 하정우 file 관리자 2016.11.04 111
10 딥러닝예제로보는개발자를위한통계 최재걸 file 관리자 2016.11.04 49
9 Multimodal Residual Learning for Visual Question-Answering file 관리자 2016.11.04 166
8 yarn 기반의 deep learning application cluster 구축 김제민 file 관리자 2016.11.04 125
7 backend 개발자의 neural machine translation 개발기 김상경 file 관리자 2016.11.03 149
6 베이지안토픽모형 강병엽 file 관리자 2016.11.03 42
5 papago 김준석 file 관리자 2016.11.03 40
4 챗봇 개발을 위한 네이버 랩스 api file 관리자 2016.11.03 95
3 딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016 file 관리자 2016.11.03 63
2 딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 file 관리자 2016.11.03 69
1 딥러닝을 이용한 지역 컨텍스트 검색 김진호 file 관리자 2016.11.03 91
Board Pagination Prev 1 Next
/ 1