1. 메모리 용량에 맞는 데이터를 처리하기 위한 패키지
SciPy(사이파이)
: 사이파이는 NumPy, matplotlib, Pandas, SymPy와 같이 과학 컴퓨팅에 자주 사용되는 기초적인 패키지를 통합한 라이브러리
Numpy(넘파이)
: 강력한 배열 함수와 선형 대수 함수를 제공
Matplotlib(맷플롯립)
: 2차원 시각화 작성 패키지, 3차원 시각화 작성 기능도 일부 제공
Pandas(판다스)
: 고성능을 내면서도 사용하기 쉬운 데이터 처리 패키지. 인 메모리 데이터 테이블인 데이터프레임을 파이썬에서 사용 가능.
SymPy(심파이)
: 기호 수학 및 컴퓨터 대수에 사용되는 패키지
StatsModels(스탯모델)
: 통계적 기법과 알고리즘을 위한 패키지
Scikit-learn(사이킷런)
: 머신러닝 알고리즘 라이브러리
RPy2(알파이투)
: 파이썬에서 R 함수를 호출 가능케 함
Natural Language Toolkit, NLTK(엔엘티케이)
: 텍스트 분석에 초점을 맞춘 파이썬 라이브러리
2. 최적화 작업
Numba(넘바)와 NumbaPro(넘바프로)
: 애플리케이션의 속도를 높이기 위해 파이썬과 몇 가지 어노테이션으로 작성된 just-in-time 컴파일을 사용, NumbaPro는 GPU의 능력을 활용
출처: http://abc2080.tistory.com/ [Another Windows]
출처: http://abc2080.tistory.com/ [Another Windows]
PyCUDA(파이쿠다)
: CPU 대신 GPU에서 실행되는 코드를 작성할 수 있어 계산량이 많은 애플리케이션에서 사용하기 적합. 병렬화된, 컴퓨팅 사이클의 수에 비해 적은 입력을 필요로 하는 문제에 가장 적합.
Cython(사이썬), 즉 C for Python(파이썬용 C)
: C 프로그래밍 언어를 파이썬에 도입.
Blaze(블레이즈)
: 컴퓨터의 주기억 장치보다 더 큰 데이터 구조를 제공해 대규모 데이터셋으로 작업 가능케 함.
Dispy(디스파이)와 IPCluster(아이피클러스터)
: 컴퓨터의 클러스터에 분배되는 코드를 작성토록 함
PP(피피)
: 파이썬은 기본적으로 단일 프로세스로 실행됨. 단일 머신에서 병렬 컴퓨팅을 구현
Pydoop(파이둡) 및 Hadoopy(하두파이)
: 파이썬과 빅데이터 프레임워크인 하둡을 연결해 줌
PySpark(파이스파크)
: 인 메모리 빅데이터 프레임워크인 스파크를 파이썬에서 사용토록 연결해 줌
출처: http://abc2080.tistory.com/ [Another Windows]
출처: 파이썬으로 배우는 데이터 과학 입문과 실습 소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지
'Data Science' 카테고리의 다른 글
세미 랜덤 데이터에 대해 k 최근접 이웃 분류를 실행 (0) | 2018.06.29 |
---|---|
세미 랜덤(semi-random) 데이터에 대한 선형 예측 모델 (0) | 2018.06.29 |