본문 바로가기

전체 글

머신러닝 기본 1. 들어가며 이번 목표는 "머신러닝의 본질을 관통하는 철학과, 그 과정"을 깊게 파고들어 이해해보는 것"이다. # 실습에 필요한 모듈 from IPython.display import display, Image step1. "사용한 연수"만 가지고 맥북의 중고가 맞춰보기 (1) 맥북의 중고가를 결정짓는 변수는 무엇일까? 데이터 확인하기 데이터셋을 가져와서 두 변수 간의 상관관계 이해하기 사용 연수와 중고가격에는 어떤 상관관계가 있을까? 1) 데이터 준비 라이브러리 import import pandas as pd macbook = pd.read_csv('~/aiffel/bike_regression/data/macbook.csv') print(macbook.shape) macbook.head.. 더보기
깃허브에 폴더 업로드 하는 법, restore 폴더 업로드 git에 프로젝트 레파지토리 생성 아래 명령어 입력$ git status $ git add 원하는 폴더이름 // 폴더를 스테이지한다 $ git commit -m "메모" // 폴더를 커밋한다 $ git remote -v or $ git remote add origin https://github.com/och9854/레파지토리주소 $ git push origin master ``` restore restore --staged: changes to be committed를 올려준다. $ git restore --staged test.txt 더보기
그래프 그리기 1. 데이터 준비 1) 데이터 불러오기 Seaborn의 load_dataset() 메서드를 이용하면 API를 통해 손쉽게 유명한 예제 데이터를 다운로드할 수 있다. 아래 repo의 데이터는 모두 CSV파일로 되어 있어 연습용으로 추천한다. 링크 추천 import pandas as pd import seaborn as sns # 종업원들이 받은 팁에 대한 데이터 tips = sns.load_dataset("tips") 2) 데이터 살펴보기 (EDA) df = pd.DataFrame(tips) df.shape df.describe df.info() # 범주형 변수의 카테고리별 갯수 살펴보기 print(df['sex'].value_counts()) print("===================.. 더보기
간단한 그래프 그리기 1) 막대그래프 그려보기 데이터 정의 import matplotlib.pyplot as plt %matplotlib inline #그래프 데이터 subject = ['English', 'Math', 'Korean', 'Science', 'Computer'] points = [40, 90, 50, 60, 100] 축 그리기# 축 그리기 fig = plt.figure(figsize=(5,2)) 도화지(그래프) 객체 생성 figsize로 인자 값을 주어 그래프 크기를 바꿀 수 있음 ax1 = fig.add_subplot(1,1,1) #figure()객체에 add_subplot 메서드를 이용해 축을 그려준다. [matplotlib API 바.. 더보기
Jupyter Notebook, Markdown 1. Jupyter Notebook Jypyter Notebook: 데이터 클리닝과 변형, 통계 모델링, 머신러닝 등 데이터 분석을 편리하게 할 수 있도록 최적화 되어있는 오픈소스 웹 어플리케이션 이와 같이, 문서 작업과 코드 작업을 동시에 진행할 수 있게 도와준다! 코드만 작성할 수 있는 IDE와 다르게, 셀 단위로 코드를 실행하고 중간중간 원하는만큼 설명/이미지 등을 추가해 완전한 개발 문서로 작성할 수 있다. 마크다운 셀로 변환하기 : esc + m (명령모드로 변환 후 m ) 코드 셀로 변환하기 : esc + y (명령모드로 변환 후 y ) 그 외 자주 사용되는 단축키 셀의 실행 : Shift + Enter 셀 삭제 : esc + x or esc + dd 셀 삭제 취소 : esc + z 위에 셀 .. 더보기
Git과 GitHub 간단한 사용법 ✔ Git: 개발을 진행하며 작성하는 소스코드가 업데이트 되는 버전을 기록해두고 관리할 수 있는 소스코드 버전 관리 시스템 ✔ GitHub: Git으로 관리하는 프로젝트를 호스팅하고, 시공간의 제약없이 협업할 수 있는 온라인 서비스 Git이 버전 기록을 저장한다면, GitHub에서는 그 기록을 다른 사람과 함께 공유하며 협업할 수 있다. 로컬(Local)에서 작업한 내용을 Git이 저장해 두었다면, 그 기록을 온라인 작업공간인 GitHub에 올려 원격(Remote)으로도 작업할 수 있도록 한다. 설명할 전체적인 내용을 정리하면 다음과 같다. 1. 로컬의 Git에 GitHub 계정 정보 등록하기 Repository: 로컬의 Git과 동기화해 온라인으로 관리할 수 있는 원격저장소 # 깃과 깃헙 연결하기 $ .. 더보기
여러 파일 포맷(CSV, XML, JSON) 1. CSV Comma Seperated Value의 약자로, 쉼표로 구분된 파일을 말한다. CSV 파일과 Pandas Pandas의 DataFrame은 to_csv 메서드를 지원한다. 이 메서드를 이용하면 손쉽게 csv 파일로 저장할 수 있다. # Data -> CSV file import pandas as pd df=pd.DataFrame(rows, columns=fields) df.to_csv('pandas.csv',index=False) # CSV file -> DataFrame df = pd.read_csv('pandas.csv') df.head() 2. XML Extensible Markup Language의 약자로, 다목적 마크업 언어이다. API에서 데이터를 저.. 더보기
문자열 & 파일과 디렉터리 파일 1. 텍스트를 문자열로 저장한다는 것 - 인코딩과 디코딩 바이트(byte) : 컴퓨터의 기본 저장 단위 바이트(1byte)는 8비트(8bit)이다. 1바이트에는 2의 8승 즉, 256개의 고유한 값을 저장할 수 있다. 인코딩 (encoding): 문자열을 바이트로 변환하는 과정 디코딩 (decoding) : 바이트를 문자열로 변환하는 과정 2. 정규 표현식 - 정규 표현식 시작하기 파이썬 표준 라이브러리인 re 모듈을 import해서 사용할 수 있습니다. 정규 표현식의 사용법은 크게 2가지로 나뉩니다. 1) 찾고자 하는 문자열의 패턴을 정의하는 단계(Compile) 2) 정의된 패턴과 매칭하는 경우를 찾아 다양한 처리를 하는 단계 1) Compile() #1단계 : "the"라는 패턴을 컴파일한 후 패턴.. 더보기