본문 바로가기

Computer Science/AI Exploration

[E-15] OCR 들어가며¶ 실습목표 OCR의 과정을 이해합니다. 문자인식 결과의 표현방식을 이해합니다. 파이썬을 통해 OCR을 사용할 수 있습니다. 학습 목차 들어가며 기계가 읽을 수 있나요? 어떤 과정으로 읽을까요? 딥러닝 문자인식의 시작 사진 속 문자 찾아내기 - detection 사진 속 문자 읽어내기 - recognition keras-ocr 써보기 테서랙트 써보기 프로젝트 : 다양한 OCR 모델 비교하기 기계가 읽을 수 있나요?¶ 사람이 문자를 읽으려면 문자가 있다는 것을 인식하고 -> 인식한 문자를 해독하는 과정을 거친다. 기계가 문자를 읽는 과정도 동일하게, 문자의 존재를 Detection하고, 어떤 문자인지 판독하는 Recognition으로 나눌 수 있다. 어떤 과정으로 읽나요?¶ 구글 API에서는 문자 .. 더보기
[E-14] Recommendation 들어가며¶실습 목표 추천 시스템의 개념과 목적 이해 Implicit library를 활용하여 Matrix Factorization 기반의 추천 모델을 만들어본다. 음악 감상 기록을 활용하여 비슷한 아티스트를 찾고 아티스트를 추천해 본다. 추천 시스템에서 자주 사용되는 데이터 구조인 CSR Matrix을 익힌다 유저의 행위 데이터 중 Explicit data와 Implicit data의 차이점을 익힌다. 새로운 데이터셋으로 직접 추천 모델을 만들어 본다. 목차 추천 시스템이란 게 뭔가요? 데이터 탐색하기와 전처리 사용자의 명시적/암묵적 평가 Matrix Factorization(MF) CSR(Compressed Sparse Row) Matrix MF 모델 학습하기 비슷한 아티스트 찾기 + 유저에게 추천하기.. 더보기
[E-13] Bert 들어가며¶ BERT 논문 오늘은 BERT 모델 구조를 살펴보고, Pretrained Model을 활용하여 한국형 SQuAD인 KorQuAD task를 수행하는 모델을 학습해보자. 이 과정을 통해 Contextual Word Embedding의 개념과 자연어처리 분야의 최근 트렌드인 전이 학습 활용 방법까지 숙지해보자. 전제 조건 Keras를 활용한 모델 구성 및 학습 진행 방법을 숙지하고 있다. LSTM의 개념을 이해하고 모델 구성에 활용할 수 있다. Transformer 모델 구조와 Attention의 개념에 대해 이해하고 있다. 학습 목표 Transformer Encoder로 이루어진 BERT의 모델 구조를 이해한다. Pretrained embedding 접근 방식에 대해 이해한다. Pretraine.. 더보기
[E-12] Transformer, Chatbot In [2]: import tensorflow as tf import tensorflow_datasets as tfds import os import re import numpy as np import matplotlib.pyplot as plt print("슝=3") 슝=3 들어가며¶우리가 떠올리는 인공지능은 무엇인가? 인간 언어를 이해하고 인간과 자연어로 대화할 수 있는 기계를 우리는 자연스럽게 떠올리게 된다. 하지만 우리가 주변에서 흔히 보는 챗봇들이 모두 대화형인 것은 아니다. 챗봇의 5가지 대표 유형 링크를 보면 여러 챗봇들이 있다. 하지만 대화형 챗봇이 아니면 가지는 한계는 명확하다. 바로 사용자가 어떤 말을 하더라도 알아듣고 적절히 대응할 수 없다는 점이다. 챗봇과 딥러닝¶챗봇 역사의 모든 .. 더보기
[E-11] Stock prediction 들어가며 오늘은 시계열 예측을 다루는 여러 통계적 기법 중에 가장 널리 알려진 ARIMA(Auto-regressive Integrated Moving Average)에 대해 알아보고 이를 토대로 특정 주식 종목의 가격을 예측해보는 실습을 진행해보자. ARIMA는 탄탄한 통계학 이론적 기반을 갖추고 있으며, 시계열 데이터를 이해하는 관점을 훈련하는 데에도 도움이 된다는 점에서 한 번쯤 다뤄볼 만한 주제일 것이다. 학습 목표 시계열 데이터의 특성과 안정적(Stationary) 시계열의 개념을 이해한다. ARIMA 모델을 구성하는 AR, MA, Diffencing의 개념을 이해하고 간단한 시계열 데이터에 적용해 본다. 실제 주식 데이터에 ARIMA를 적용해서 예측 정확도를 확인해 본다. 목차 시계열 예측이란 .. 더보기
[E-10] Generative Modeling 들어가며 학습 전제 Convolution의 padding, stride 등의 기본 개념을 알고 있다. 교차 엔트로피(Cross Entropy) 등의 손실 함수, 최적화 함수 등 딥러닝의 기본적인 학습 알고리즘을 알고 있다. 텐서플로우를 활용해 신경망을 학습시키는 코드를 다뤄본 적이 있다. 간단한 판별 모델링(분류, 회귀 등)의 개념을 알고, 실습해 본 적이 있다. 학습 목표 생성 모델링 개념을 이해하며 판별 모델링과의 차이 알기 Pix2Pix, CycleGAN 등의 이미지 관련 다양한 생성 모델링의 응용을 접하며 흥미 가지기 Fashion MNIST 데이터셋의 의미를 알기 생성적 적대 신경망(GAN)의 구조와 원리를 이해하기 텐서플로우로 짠 DCGAN 학습 코드를 익히며 응용하기 목차 없던 데이터를 만들.. 더보기
[E-09] Pneumonia 들어가며 최근 딥러닝 기술이 산업적으로 명확한 용도를 입증한 도메인 중 하나로 의료 분야를 들 수 있다. 영상분석 인력의 개인적 편차, 주관적 판단, 피로에 의한 오진 등의 부정확성을 극복할 수 있는 좋은 대안으로 인정받고 있다. 하지만, 의료 영상 분석은 일반 이미지 처리와는 다른 독특한 특징을 가지고 있다. 의료 영상 이미지는 개인 정보 보호 등의 이슈로 인해 데이터를 구하는 것이 쉽지 않습니다. 라벨링 작업 자체가 전문적 지식을 요하므로 데이터셋 구축 비용이 비쌉니다. 희귀질병을 다루는 경우 데이터를 입수하는 것 자체가 드문 일입니다. 음성/양성 데이터 간 imbalance가 심합니다. 학습에 주의가 필요합니다. 이미지만으로 진단이 쉽지 않아 다른 데이터와 결합해서 해석해야 할 수도 있습니다. 따라.. 더보기
[E-08] Project 프로젝트: 뉴스기사 요약해보기 새로운 데이터셋에 대해서 추상적 요약과 추출적 요약을 모두 해보는 시간을 가져봐요. Step 1. 데이터 수집하기 데이터는 아래 링크에 있는 뉴스 기사 데이터(news_summary_more.csv)를 사용하세요. sunnysai12345/News_Summary 아래 코드로 다운로드할 수 있다. import nltk nltk.download('stopwords') import numpy as np import pandas as pd import os import re import matplotlib.pyplot as plt from nltk.corpus import stopwords from bs4 import BeautifulSoup from tensorfl.. 더보기