파이콘 한국 2023

파이콘 한국
프로그램
후원 안내
행동 강령 (CoC)

로컬 환경에서 사이즈가 큰 데이터를 처리/분석하기 위한 전략: Pandas 2.0, HF Datasets

카테고리 : 데이터 과학 (Data Science)
난이도 :
발표 시간 : 40분
언어 : 한국어
발표 장소 : 101호

설명

최근 받았던 질문 "데이터 크기가 5TB가 넘어 너무 커서 하드디스크에도 저장하지도 못하는데 어떻게 데이터를 읽고 분석해야 할까요?"에 대한 해답과 방향을 제시하기 위해 이 세션을 준비했습니다. 비슷한 고민을 하시는 분들께 유익한 세션이 될 것입니다. 1️⃣ 먼저, 본 세션에서는 Pandas를 활용한 대용량 데이터 처리에 대한 전략과 관련 라이브러리를 소개할 계획입니다. 데이터 처리에서 중요한 역할을 해온 Pandas, 하지만 클라우드 시대와 대규모, 대용량의 데이터의 시대에 접어들면서 그 한계점이 부각되고 있습니다. 2008년 첫 배포 이후 2023년 올해 4월 Pandas 2.0의 배포까지의 타임라인과 주요 변화를 살펴봅니다. 2️⃣ 이어서, 2019년에 발표된 세션에서 제시했던 전략들이 2023년 현재에도 여전히 유효한지를 검증하는 과정도 다룹니다. 이 과정을 통해 기존의 전략이 현재의 데이터 환경에도 적합한지, 그리고 어떤 부분이 개선되었는지에 대해 깊이 있게 살펴볼 수 있을 것입니다. 이 세션에 참가하기 전에 아래의 링크를 따라 2019년에 제시했던 전략을 확인하고 참여하시면 좋을 것 같습니다. • 발표영상: https://www.youtube.com/watch?v=0Vm9Yi_ig58 • 발표자료: https://drive.google.com/file/d/12faqaslFIF-Sg_sU3jeGyauW5ClRqS8D/view 3️⃣ 특히 Pandas 2.0에서 CoW의 적용과 Apache Arrow와의 통합을 통해 어떤 변화가 일어났는지 살펴봅니다. 그리고 Method Chaining과 String 데이터 유형에 대한 내용도 새롭게 추가했습니다. 4️⃣ 그 다음, 대용량 데이터를 스트리밍하고 처리하기 위한 유용한 도구인

발표자 소개

오성우

오성우

10년 가까이 기계학습, 인공지능 분야를 업으로 삼으면서 Python과 수많은 오픈소스 커뮤니티의 도움을 받았습니다. KB국민은행에서 자연어처리 분야 AI 엔지니어로 근무하며 언어모델(Language Model) 학습과 챗봇 개발을 주로 했습니다. 최근 SFT 모델을 실무에 적용하는 한편 생성형 AI의 개발 및 응용을 위한 다양한 업무를 함께 수행하고 있습니다. 오픈 커뮤니티 활동으로는 한국금융인공지능연구원(KIFAI)에서 초거대언어모델 LLM을 학습하고 있으며, 더불어 일반인들을 위한 Financial AI Assistant를 개발/오픈 예정입니다.

후원사 목록

사파이어

  • Google Cloud
  • Python Software Foundation

플래티넘

  • 페이히어
  • 현대자동차

루비

  • 래블업 주식회사
  • JetBrains
  • KREAM Corporation
  • 팀블랙버드 주식회사
  • KSTEC (Taipy)
  • 메가존클라우드

골드

  • Presto Labs Pte. Ltd.
  • 요기요

실버

  • 주식회사 에잇퍼센트
  • 코드박스

출판사

  • 이지스퍼블리싱
  • 도서출판 인사이트
  • 한빛미디어
  • 도서출판길벗

기술 후원

  • NHN 두레이

장소 후원

  • 모두의연구소
상호명사단법인 파이썬 사용자모임
사업자 등록 번호338-82-00046
대표자명배권한
사업장 주소서울시 강남구 강남대로84길 24-4