1. 메모리 용량에 맞는 데이터를 처리하기 위한 패키지

SciPy(사이파이)

 : 사이파이는 NumPy, matplotlib, Pandas, SymPy와 같이 과학 컴퓨팅에 자주 사용되는 기초적인 패키지를 통합한 라이브러리


Numpy(넘파이)

 : 강력한 배열 함수와 선형 대수 함수를 제공


Matplotlib(맷플롯립)

 : 2차원 시각화 작성 패키지, 3차원 시각화 작성 기능도 일부 제공


Pandas(판다스)

 : 고성능을 내면서도 사용하기 쉬운 데이터 처리 패키지. 인 메모리 데이터 테이블인 데이터프레임을 파이썬에서 사용 가능.


SymPy(심파이)

 : 기호 수학 및 컴퓨터 대수에 사용되는 패키지


StatsModels(스탯모델)

 : 통계적 기법과 알고리즘을 위한 패키지


Scikit-learn(사이킷런)

 : 머신러닝 알고리즘 라이브러리


RPy2(알파이투)

 : 파이썬에서 R 함수를 호출 가능케 함


Natural Language Toolkit, NLTK(엔엘티케이)

 : 텍스트 분석에 초점을 맞춘 파이썬 라이브러리


2. 최적화 작업

Numba(넘바)와 NumbaPro(넘바프로)

 : 애플리케이션의 속도를 높이기 위해 파이썬과 몇 가지 어노테이션으로 작성된 just-in-time 컴파일을 사용, NumbaPro는 GPU의 능력을 활용

출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지

출처: http://abc2080.tistory.com/ [Another Windows]
출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지

출처: http://abc2080.tistory.com/ [Another Windows]


PyCUDA(파이쿠다)

 : CPU 대신 GPU에서 실행되는 코드를 작성할 수 있어 계산량이 많은 애플리케이션에서 사용하기 적합. 병렬화된, 컴퓨팅 사이클의 수에 비해 적은 입력을 필요로 하는 문제에 가장 적합.


Cython(사이썬), 즉 C for Python(파이썬용 C)

 : C 프로그래밍 언어를 파이썬에 도입.


Blaze(블레이즈)

 : 컴퓨터의 주기억 장치보다 더 큰 데이터 구조를 제공해 대규모 데이터셋으로 작업 가능케 함.


Dispy(디스파이)와 IPCluster(아이피클러스터)

 : 컴퓨터의 클러스터에 분배되는 코드를 작성토록 함


PP(피피)

 : 파이썬은 기본적으로 단일 프로세스로 실행됨. 단일 머신에서 병렬 컴퓨팅을 구현


Pydoop(파이둡) 및 Hadoopy(하두파이)

 : 파이썬과 빅데이터 프레임워크인 하둡을 연결해 줌


PySpark(파이스파크)

 : 인 메모리 빅데이터 프레임워크인 스파크를 파이썬에서 사용토록 연결해 줌


출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지

출처: http://abc2080.tistory.com/ [Another Windows]


출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지



1.

 1-1. code

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
from sklearn import neighbors, metrics
import numpy as np
 
# 랜덤 예측 변수 데이터를 생성하고, 예측 데이터에 기반한 세미 랜덤 목표 데이터를 생성
predictors = np.random.random(1000).reshape(500, 2)
target = np.around(predictors.dot(np.array([0.4, 0.6])) + np.random.random(500))
 
# 10 최근접 이웃 모델을 적용
clf = neighbors.KNeighborsClassifier(n_neighbors = 10)
knn = clf.fit(predictors, target)
 
# 모델 적합 점수 취득
knn.score(predictors, target)
 
# 예측값을 사용해 실제와 비교. 비교에는 혼동 행렬을 사용
prediction = knn.predict(predictors)
 
# 3x3 행렬을 취득
metrics.confusion_matrix(target, prediction)
 
cs


 1-2. result




출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지



1.

 1-1. code

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import statsmodels.api as sm
import numpy as np
 
# 모델의 예측 변수(x 값)를 위한 랜덤 데이터와 목표(y 값)을 위한 세미 랜덤 데이터를 생성. 목표를 생성하기 위한 입력으로 연관성을 추론
predictors = np.random.random(1000).reshape(500, 2)
target = predictors.dot(np.array([0.4, 0.6])) + np.random.random(500)
 
# 데이터에 선형 회귀를 적용
lmRegModel = sm.OLS(target, predictors)
result = lmRegModel.fit()
 
# 통계에 대한 모델
result.summary()
 
cs


 1-2. result



출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지


+ Recent posts