파이콘 한국 2023

파이콘 한국
프로그램
후원 안내
행동 강령 (CoC)

pandas와 PySpark로 데이터 워크로드 확장하기

카테고리 : 데이터 과학 (Data Science)
난이도 :
발표 시간 : 40분
언어 : 한국어
발표 장소 : 105호

설명

pandas는 데이터 전처리 및 분석 작업에서 널리 사용되지만, 대용량 데이터 처리를 위해 설계되지 않았습니다. 이로 인해 데이터 분석가들은 다음과 같은 딜레마를 직면하게 됩니다: 데이터를 다운샘플링하여 정보를 손실할 것인지, 아니면 분산 처리 프레임워크를 사용하여 데이터 워크로드를 확장할 것인지 선택해야 합니다. PySpark는 이러한 경우를 위한 대표적인 분산 처리 도구 중 하나입니다. 그러나 이를 사용하기 위해서는 데이터 분석가들이 새로운 PySpark를 처음부터 배워야 하는 번거로움이 있습니다. 이러한 문제를 해결하기 위해, Apache Spark는 pandas API를 제공합니다. 기존에 pandas를 사용하던 사용자들은 단순히 pandas 패키지를 pyspark.pandas로 교체함으로써 기존 워크로드를 분산 처리할 수 있습니다. 다른 방법으로는, 기존의 PySpark API에 포함되지 않은 사용자 정의 함수(UDF)를 직접 작성하여 처리 할 수 있습니다. Spark 3.0에서 도입된 Pandas Function APIs는 사용자가 임의의 Python 네이티브 함수를 PySpark 데이터프레임에 적용하여 pandas 인스턴스로 입력 및 출력을 처리할 수 있게 해줍니다. 이를 통해 데이터 분석가들은 기존에 사용하던 pandas 함수를 사용하여 데이터의 각 그룹을 기반으로 ML 모델을 학습시킬 수 있습니다. 이 세션에서는 위의 두 가지 pandas 사용자와 PySpark 사용자의 관점에서 분산 처리를 어떻게 수행하는지에 대해 다룰 예정입니다.

발표자 소개

권혁진

권혁진

Databricks의 Staff Software Engineer로, 오픈소스 PySpark 팀의 테크리드이며, Apache Spark PMC 멤버 및 커미터로 활동하고 있습니다. PySpark, Spark SQL, SparkR, 인프라 등 Apache Spark의 다양한 영역에서 작업하고 있으며, Apache Spark에서 제일 많은 커밋을 했습니다. 또한, Project Zen, Pandas API on Spark, Python Spark Connect 등의 다양한 프로젝트를 이끌고 있습니다.

후원사 목록

사파이어

  • Google Cloud
  • Python Software Foundation

플래티넘

  • 페이히어
  • 현대자동차

루비

  • 래블업 주식회사
  • JetBrains
  • KREAM Corporation
  • 팀블랙버드 주식회사
  • KSTEC (Taipy)
  • 메가존클라우드

골드

  • Presto Labs Pte. Ltd.
  • 요기요

실버

  • 주식회사 에잇퍼센트
  • 코드박스

출판사

  • 이지스퍼블리싱
  • 도서출판 인사이트
  • 한빛미디어
  • 도서출판길벗

기술 후원

  • NHN 두레이

장소 후원

  • 모두의연구소
상호명사단법인 파이썬 사용자모임
사업자 등록 번호338-82-00046
대표자명배권한
사업장 주소서울시 강남구 강남대로84길 24-4