Pandas_Series

#Pandas에서 series 자료구조

series는 1차원 배열같은 자료 구조를 말한다.

아래 code는 python pandas의 parameter 값이다.

1
2
3

def __init__(data=None, index=None, dtype=None, name=None,
copy=False, fastpath=False)

series의 parameter는 data, index, dtype, name, copy, fastpath로 나뉘어져 있는데
name의 경우는 이름 인 것 같고 기본적으로 Index와 value라는 parameter를 많이 이용 하는 듯 하다.

  • Index : 배열의 이름
  • value : 값

python의 dictionalry와 거의 유사 한 것 같다.

(다음에 찾아보자 오늘은 벅참.)

series의 dtype에는 str, numpy.dtype, or ExtensionDtype, optional Data type 을
담을 수 있는데 이는 자동으로 값이 입력 되는 것같다.

series 객체를 생성 할 때 value와 Index를 직접 지정 해 줄 수 있다.

1
2
3
4
import pandas as pd
sr = pd.Series([24000, 20000, 1000, 5000],
index=["피자", "치킨", "콜라", "생맥"])
print(sr)

구글 코랩에서 작업 하고 있는데,
아래에 보면 series 객체의 parameter에대한 팝업이 나와 공부 하기 참 편하게 해 준다.

def init(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
One-dimensional ndarray with axis labels (including time series).

Labels need not be unique but must be a hashable type. The object supports both integer- and label-based indexing and provides a host of methods for performing operations involving the index. Statistical methods from ndarray have been overridden to automatically exclude missing data
(currently represented as NaN).
Operations between Series (+, -, /, *, **) align values based on their associated index values– they need not be the same length. The result index will be the sorted union of the two indexes.



Parameters

data : array-like, Iterable, dict, or scalar value

Contains data stored in Series.


index : array-like or Index (1d)

Values must be hashable and have the same length as data.

Non-unique index values are allowed. Will default to RangeIndex (0, 1, 2, …, n)
if not provided. If both a dict and index sequence are used, the index will
override the keys found in the dict.


dtype : str, numpy.dtype, or ExtensionDtype, optional

Data type for the output Series.

If not specified, this will be inferred from data.

See the user guide <basics.dtypes> for more usages.


name : str, optional


The name to give to the Series.


copy : bool, default False

Copy input data.

type

  • list []
  • tuple ()
  • set {}
  • dict {Key:value}

series

pandas

Pandas_panel

#pandas에서 panel 자료구조.

Pandas_DataFrame

#pandas에서 dataFrame 자료구조.

dataFrame은 표와 같은 스프레드 시트 형식의 자료 구조이다.

2차원 배열 또는 리스트, data table 전체를 포함하는 object라고 볼수 있음.

여러개의 column이 있고, 각 컬럼은 숫자, 문자열, boolean type을 담을 수 있다.

dataFrame은 Rew, column에대한 Index 이렇게 2가지 변수를 담고 있는데 matrix라고 할 수 있다.



pd.dataframe()

1
2
3
4
5
6
7
import pandas as pd
values = [['rose', 'tulip', 'Liry'], [4, 5, 6], ['red', 'blue', 'green']]
index = ['flower', 'Number', 'color']
columns = [1, 2, 3]

df = pd.DataFrame(values, index=index, columns=columns)
print(df)

df 는 data frame의 준말.

       1     2     3
flower rose  tulip Liry
Number 4     5     6
color  red   blue  green

Index와 column 의 dtype은 object이다.

데이터프레임은 리스트(List), 시리즈(Series), 딕셔너리(dict), Numpy의 ndarrays,
또 다른 데이터프레임으로 생성할 수 있습니다.

Ref.

DataFrame

Study Pandas

Pandas



판다스란

pandas는 데이터를 시각화 하기 좋은 python base의 한 라이브러리이다.

python을 이용한 data분석과 같은 작업에서 필수적으로 쓰이고 있다.

아나콘다와 같은 IDE를 이용하여 작업 할 수도 있지만, 기본적으로 Import하여 편하게 사용 할 수 있다.


판다스의 이름은 계량 경제학에서 사용되는 용어인 **’PANel DAta’**의 앞 글자를 따서 지어졌다.
판다스는 R에서 사용되던 data.frame 구조를 본뜬 DataFrame이라는 구조를 사용하기 때문에,
R의 data.frame에서 사용하던 기능 상당수를 무리없이 사용할 수 있도록 만들었다.
더욱이 파이썬이라는 접근성이 좋은 언어 기반으로 동작하기 때문에 데이터 분석을 파이썬으로 입문하는
사람들이 필수적으로 사용하는 라이브러리가 되었다.’


판다스 Import 하기

쥬피터 노트로 설치가 가능 하다고 하지만, 구글코랩이나 케글 노트에서는 Import하여 쉽게 사용한다.

1
2
import pandas as pd
pd.__version__

pandas는 오픈소스로 누구나 무료로 이용 할 수 있고,
Numpy, matplotlib등 다른 라이브러리들과 함께 쓰인다.

일반적으로 pandas는 pd로 import되기 때문에 pd.[function] 으로 써있으면
pandas 라이브러리를 이용한다고 생각 하면 된다.

Livraly의 경우 version 오류가 많이 있으므로,
Import 해 주는 라이브러리는 version을 꼭 확인하여 오류에 대비 하도록 한다.

Pandas에는 3가지 자료 구조가 있는데
series
dataFrame,
panel 이 그것이다.

pandas에대해 더 알아보고 싶다면, 링크를 타고 가보자.

ref.

판다스/위키


판다스를 이용에는 유용한 Tutorial들이 있다.
아래 있으니 시간이 날 때마다 보면서 Update하자.

영문판이 있지만 지금은 일단 한글 번역한것을 보자
화이팅 !

판다스/doc
10 minutes to Pandas/한글