파이썬을 이용한 머신러닝 관련 패키지

2018. 6. 29. 15:34

1. 메모리 용량에 맞는 데이터를 처리하기 위한 패키지

SciPy(사이파이)

: 사이파이는 NumPy, matplotlib, Pandas, SymPy와 같이 과학 컴퓨팅에 자주 사용되는 기초적인 패키지를 통합한 라이브러리

Numpy(넘파이)

: 강력한 배열 함수와 선형 대수 함수를 제공

Matplotlib(맷플롯립)

: 2차원 시각화 작성 패키지, 3차원 시각화 작성 기능도 일부 제공

Pandas(판다스)

: 고성능을 내면서도 사용하기 쉬운 데이터 처리 패키지. 인 메모리 데이터 테이블인 데이터프레임을 파이썬에서 사용 가능.

SymPy(심파이)

: 기호 수학 및 컴퓨터 대수에 사용되는 패키지

StatsModels(스탯모델)

: 통계적 기법과 알고리즘을 위한 패키지

Scikit-learn(사이킷런)

: 머신러닝 알고리즘 라이브러리

RPy2(알파이투)

: 파이썬에서 R 함수를 호출 가능케 함

Natural Language Toolkit, NLTK(엔엘티케이)

: 텍스트 분석에 초점을 맞춘 파이썬 라이브러리

2. 최적화 작업

Numba(넘바)와 NumbaPro(넘바프로)

: 애플리케이션의 속도를 높이기 위해 파이썬과 몇 가지 어노테이션으로 작성된 just-in-time 컴파일을 사용, NumbaPro는 GPU의 능력을 활용

출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지

출처: http://abc2080.tistory.com/ [Another Windows]

PyCUDA(파이쿠다)

: CPU 대신 GPU에서 실행되는 코드를 작성할 수 있어 계산량이 많은 애플리케이션에서 사용하기 적합. 병렬화된, 컴퓨팅 사이클의 수에 비해 적은 입력을 필요로 하는 문제에 가장 적합.

Cython(사이썬), 즉 C for Python(파이썬용 C)

: C 프로그래밍 언어를 파이썬에 도입.

Blaze(블레이즈)

: 컴퓨터의 주기억 장치보다 더 큰 데이터 구조를 제공해 대규모 데이터셋으로 작업 가능케 함.

Dispy(디스파이)와 IPCluster(아이피클러스터)

: 컴퓨터의 클러스터에 분배되는 코드를 작성토록 함

PP(피피)

: 파이썬은 기본적으로 단일 프로세스로 실행됨. 단일 머신에서 병렬 컴퓨팅을 구현

Pydoop(파이둡) 및 Hadoopy(하두파이)

: 파이썬과 빅데이터 프레임워크인 하둡을 연결해 줌

PySpark(파이스파크)

: 인 메모리 빅데이터 프레임워크인 스파크를 파이썬에서 사용토록 연결해 줌

출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지

세미 랜덤 데이터에 대해 k 최근접 이웃 분류를 실행 (0)	2018.06.29
세미 랜덤(semi-random) 데이터에 대한 선형 예측 모델 (0)	2018.06.29

Another Windows