1. 메모리 용량에 맞는 데이터를 처리하기 위한 패키지

SciPy(사이파이)

 : 사이파이는 NumPy, matplotlib, Pandas, SymPy와 같이 과학 컴퓨팅에 자주 사용되는 기초적인 패키지를 통합한 라이브러리


Numpy(넘파이)

 : 강력한 배열 함수와 선형 대수 함수를 제공


Matplotlib(맷플롯립)

 : 2차원 시각화 작성 패키지, 3차원 시각화 작성 기능도 일부 제공


Pandas(판다스)

 : 고성능을 내면서도 사용하기 쉬운 데이터 처리 패키지. 인 메모리 데이터 테이블인 데이터프레임을 파이썬에서 사용 가능.


SymPy(심파이)

 : 기호 수학 및 컴퓨터 대수에 사용되는 패키지


StatsModels(스탯모델)

 : 통계적 기법과 알고리즘을 위한 패키지


Scikit-learn(사이킷런)

 : 머신러닝 알고리즘 라이브러리


RPy2(알파이투)

 : 파이썬에서 R 함수를 호출 가능케 함


Natural Language Toolkit, NLTK(엔엘티케이)

 : 텍스트 분석에 초점을 맞춘 파이썬 라이브러리


2. 최적화 작업

Numba(넘바)와 NumbaPro(넘바프로)

 : 애플리케이션의 속도를 높이기 위해 파이썬과 몇 가지 어노테이션으로 작성된 just-in-time 컴파일을 사용, NumbaPro는 GPU의 능력을 활용

출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지

출처: http://abc2080.tistory.com/ [Another Windows]
출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지

출처: http://abc2080.tistory.com/ [Another Windows]


PyCUDA(파이쿠다)

 : CPU 대신 GPU에서 실행되는 코드를 작성할 수 있어 계산량이 많은 애플리케이션에서 사용하기 적합. 병렬화된, 컴퓨팅 사이클의 수에 비해 적은 입력을 필요로 하는 문제에 가장 적합.


Cython(사이썬), 즉 C for Python(파이썬용 C)

 : C 프로그래밍 언어를 파이썬에 도입.


Blaze(블레이즈)

 : 컴퓨터의 주기억 장치보다 더 큰 데이터 구조를 제공해 대규모 데이터셋으로 작업 가능케 함.


Dispy(디스파이)와 IPCluster(아이피클러스터)

 : 컴퓨터의 클러스터에 분배되는 코드를 작성토록 함


PP(피피)

 : 파이썬은 기본적으로 단일 프로세스로 실행됨. 단일 머신에서 병렬 컴퓨팅을 구현


Pydoop(파이둡) 및 Hadoopy(하두파이)

 : 파이썬과 빅데이터 프레임워크인 하둡을 연결해 줌


PySpark(파이스파크)

 : 인 메모리 빅데이터 프레임워크인 스파크를 파이썬에서 사용토록 연결해 줌


출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지

출처: http://abc2080.tistory.com/ [Another Windows]


출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지


+ Recent posts