전체 글 6

[기술 블로그 07] Pandas와 datetime 활용한 시계열 데이터 처리 기초

1. datetime 객체 이해와 기본 활용하기2. 문자열 데이터를 datetime으로 변환하기3. 시계열 데이터 불러오기와 시간 정보 추출 및 간격 계산 1. datetime 객체 이해와 기본 활용하기 datetime 라이브러리는 파이썬에서 날짜와 시간을 처리하는 다양한 기능을 제공하는 필수 라이브러리입니다. 이 객체를 사용해서 날짜 데이터를 편리하게 다루고 연산할 수 있습니다. ● 라이브러리 불러오기 & 현재 시간 확인먼저 datetime 라이브러리에서 datetime 객체를 불러옵니다. 현재 날짜와 시간 정보를 확인하고 싶으면 now() 메서드를 사용합니다.from datetime import datetimenow = datetime.now()print(now) ● 원하는 날짜로 객체 생성 및 ..

카테고리 없음 2026.05.31

[기술 블로그 06] Pandas로 결측값 처리하기

1. 결측값과 문자열 데이터 이해하기2. 결측값 확인 및 삭제 방법3. 결측값 채우기와 데이터 전처리오늘은 결측값을 처리하는 코드 위주로 소개해 볼 예정이다. 1. 결측값과 문자열 데이터 이해하기결측값은 0, ' '과는 다른 개념으로 데이터 자체가 없다는 것이다. (같다는 개념도 없음!)처음부터 값이 없는 데이터를 불러오거나 데이터를 처리하는 과정에서 값이 빠질 때 결측값이 생길 수 있다. 특히 문자열 데이터에서는 단순한 빈칸뿐 아니라 "unknown", "none", "N/A" 같은 문자열도 실제 결측값처럼 사용되는 경우가 많다.● 특정 문자열을 결측값으로 처리하기 df = pd.read_csv( "data.csv", na_values=["unknown", "none", "N/A"])prin..

카테고리 없음 2026.05.24

[기술 블로그 04] 깔끔한 데이터와 apply()

벌써 4번째 기술블로그~1. 깔끔한 데이터 만들기 12. 깔끔한 데이터 만들기 23. apply() with 람다 함수1. 깔끔한 데이터 만들기 1책에서 제공하는 pew.csv 파일을 이용해서 실습해볼꺼니까..import pandas as pdpew = pd.read_csv('../data/pew.csv')판다스에 파일을 먼저 불러와준 후에...데이터셋을 살펴보면, 일부 열 이름이 변수가 아닌 값을 나타낸다는 것을 알 수 있다.religion을 제외한 모든 열은 소득 범위를 나타내고, 각 소득 범위에 해당하는 사람의 수를 값으로 설정했다고 볼 수 있다. => 변수 '소득'을 여러 범위로 나눠서 여러 열로 분산시켰다는 것이다. 변수 하나를 여러 개의 열로 표현한 데이터를 'wide data'라 하고, 한..

카테고리 없음 2026.05.09

[기술 블로그 03] Pandas로 그래프 그리기

벌써 세번째 기술블로그~!오늘의 주제는 Pandas로 그래프 그리는 방법입니당 1. matplotlob로 데이터 시각화하기2. seaborn으로 그래프 그리기3. 판다스로 그래프 그리기1. matplotlib로 데이터 시각화하기먼저, matplotlib는 널리 사용하는 파이썬 시각화 라이브러리로, 하위 패키지인 pyplot을 불러오면 라이브러리의 다양한 시각화 기능을 사용할 수 있게 된다. 코드의 시작은 matplotlib.pyplot를 부르는 것이어야 한다. import matplotlib.pyplot as plt 데이터셋을 불러오는 코드는 .load_dataset()이다. 대부분의 기본 그래프는 plt.plot()을 호출하면 그릴 수 있다. 여기에 변수 값을 전달하고 plt.show()를 호출하면 ..

카테고리 없음 2026.05.03

[기술 블로그 02] Pandas 기초 정리: 속성과 메서드

이번 스터디부터 본격적으로 pandas를 시작했다. 계획표에 따라 Ch2.판다스 시작하기, Ch3. 판다스 자료구조 살펴보기를 공부했다. 데이터 분석에 쓰이는 라이브러리라 그런지, 전체적인 느낌이 R언어랑 비슷하다는 생각이 들었다. 개념을 미리 읽어가고, 스터디 시간에 같이 실습을 했는데, 정리를 안해놓으면 헷갈릴 것 같다는 생각이 들어서, 오늘은 기본적인 내용과 실습했던 걸 간단하게 정리하고자 한다. 1. Pandas의 기본 속성과 메서드2. 시리즈의 메서드3. 실습해보기1. Pandas의 기본 속성과 메서드○ 속성.shape(행 개수, 열 개수) 튜플 반환.columns데이터프레임의 열 이름 확인 가능.dtypes데이터셋의 각 열의 자료형.loc행 이름을 기준으로 행 추출 (slicing/ 주의: 이..

카테고리 없음 2026.04.12

[기술 블로그 01] 빅데이터 기초와 관련 기술

데이터가 넘쳐나는 시대, 우리는 단순한 정보가 아닌 의미 있는 인사이트를 찾아야 한다. 이 글에서는 빅데이터의 개념과 함께, 이를 분석하고 시각화하는 핵심 기술들을 살펴본다. 특히 Python과 Matplotlib을 중심으로 실제 활용까지 정리해본다.1. 빅데이터와 분석·시각화 기술2. Python (데이터 분석 기술)3. Matplotlib (데이터 시각화 기술)1. 빅데이터와 분석·시각화 기술 1-1) 빅데이터(Big Data)란?빅데이터(Big Data)는 기존의 데이터 처리 방식으로는 저장, 관리, 분석이 어려울 정도로 방대한 규모와 다양한 형태, 그리고 빠른 생성 속도를 지닌 데이터를 의미- 빅데이터의 핵심 특징: 3VVolume (규모) → 데이터의 양이 매우 큼 Variety (다양성) → ..

카테고리 없음 2026.04.04