멀티 인덱스와 복합 인덱스는 데이터프레임에서 데이터의 인덱스를 다차원으로 구성하는 방법이다.
멀티 인덱스(MultiIndex)
하나 이상의 인덱스를 사용해 데이터프레임의 행과 열을 구조화하는 방법으로, set_index()로 여러 열을 사용해 설정할 수 있으며, pd.MultiIndex.from_tuples()로 멀티 인덱스를 튜플로 직접 생성할 수도 있다. 접근할 때는 loc[ ], 슬라이싱, xs()를 사용할 수 있다. 멀티 인덱스를 그룹화와 함께 사용하면, 그룹화한 데이터는 MultiIndex로 변환하게 되고, 각 그룹에 대한 집계 결과를 계층적으로 표현할 수 있게 된다.
복합 인덱스
sort_index()로 인덱스를 정렬할 수 있다. unstack()으로 멀티 인덱스를 열로 변환하고, stack()으로 열을 인덱스로 변환할 수 도 있다.
데이터프레임 구조화 다시하기
데이터프레임의 구조를 재조정하여 데이터를 원하는 형태로 변형할 수 있다. 열 데이터를 행 또는 열로 이동시켜 새로운 데이터프레임을 만드는 pivot()함수, 데이터프레임을 넓은 형식에서 긴 형식으로 바꿀 때 사용하는 melt()함수, 열 데이터를 인덱스의 하위 레벨로 이동시키는 stack(), 그 반대 작업을 수행하는 unstack()이 있다.
데이터프레임 크기 조정하기
행과 열을 추가, 삭제하고 데이터를 병합함으로써 데이터프레임의 크기를 조정할 수 있다. 추가할 때는 df['새로운 열'] = 값을 통해 추가하고, 삭제할 때는 drop() 함수를 사용해하며, 병합할 때는 concat()과 merge()를 사용한다.
강의 외부에서 추가로 알게된 내용
- RDB( Relational Database )
- 이는 Relational Database(관계형 데이터베이스)의 약자이다. 관계형 데이터베이스는 데이터를 테이블 형식으로 저장하고, 테이블 간에 관계를 정의하여 데이터를 구조화하고 관리하는 데이터베이스 시스템을 의미한다. 각 테이블은 행과 열로 구성되며, 행은 데이터의 개별 레코드(엔트리)를 나타내고, 열은 특정 속성(필드)을 정의한다.
- 예시로는 MySQL, PostgreSQL, Oracle Database, Microsoft SQL Server 등이 있다. RDB는 대규모 데이터 관리를 효율적으로 처리하며, 특히 기업이나 복잡한 데이터를 다루는 시스템에서 많이 사용된다.
- 주석 처리 단축키
- Ctrl + / : VsCode, Jupyter Notebook 등에서는 해당 단축키를 통해 코드를 주석 처리할 수 있다.
'AI 부트캠프 > 챕터1(9.30~10.11)' 카테고리의 다른 글
WIL 2 (0) | 2024.10.11 |
---|---|
TIL 9 인공지능을 위한 파이썬 복습 (1) | 2024.10.11 |
TIL 7 인공지능을 위한 파이썬 라이브러리 (4 - 1 ~ 5 - 4) (0) | 2024.10.08 |
TIL 6 인공지능을 위한 파이썬 라이브러리 (2 - 3 ~ 3 - 4) : TIL 특강을 듣고 작성 방식을 변경함 (0) | 2024.10.05 |
TIL 5 인공지능을 위한 파이썬 라이브러리 (1 - 3 ~ 2 - 2) (0) | 2024.10.04 |