Skip to content

Ijaret Blog

My Blog

3 Snadné Tipy pro optimalizaci datových rámců Pand

Posted on May 19, 2023 By ijaret

Představte si, že pracujete s masivní datovou sadou pomocí Pand, nadšeni, že odemknete cenné poznatky a učiníte rozhodnutí založená na datech. Když se však ponoříte do analýzy, narazíte na překážku — využití paměti. Čím větší je datová sada, tím pomalejší jsou vaše operace transformace dat, což brání vašemu pokroku a zanechává vás poškrábání hlavy.

Použitím jednoduchých osvědčených postupů uvedených v tomto článku můžete optimalizovat spotřebu paměti a zlepšit výkon transformací dat. Pojďme se tedy ponořit a zjistit, jak efektivně spravovat využití paměti v pandách, což vám umožní bezproblémově pracovat s velkými datovými sadami a dosáhnout rychlejšího zpracování dat.

Moment žárovky-Obrázek od Undraw

Pojďme se do toho ponořit přímo!

Nejprve si pro ilustraci postavme fiktivní datový rámec obsahující data představující 1 000 000 vymyšlených fotbalistů:

import pandas as pd
import numpy as np

def create_df(n):
df = pd.DataFrame()
df['position'] = np.random.choice(['GK', 'DEF', 'MID', 'ST'], size=n)
df['height'] = np.round(np.random.normal(loc=180, scale=5, size=n))
df['is_captain'] = np.random.choice(['YES', 'NO'], size=n)
df['scoring_probability'] = np.random.uniform(low=0, high=1, size=n)
df['minutes_played_last_season'] = np.random.randint(low=-3000, high=3000, size=n)
return df

df = create_df(1000000)
df.head()

Tato zjednodušená datová sada, kterou jsme vytvořili, obsahuje 5 sloupců:

  • hodnota: kategorická proměnná se 4 možnými hodnotami
  • výška: normálně distribuovaná proměnná kolem 1,80 m
  • is_captain: jednoduchý atribut ” ano “nebo ” ne”
  • scoring_probability: rovnoměrně rozložená proměnná mezi 0 a 1
  • minutes_played_last_season: náhodné celé číslo mezi 0 a 3000

Takhle to vypadá:

A kolik paměti používá:

df.info()
Využití paměti původního DataFrame-Obrázek od autora

Podívejme se, jak níže uvedené osvědčené postupy situaci zlepšují.

Uncategorized Tags:datových, optimalizaci, Pand, pro, rámců, Snadné, Tipy

Post navigation

Previous Post: GitHub pro moderního datového vědce: 7 konceptů, které nemůžete .gitignore
Next Post: Snadný přístup k Google Bard pomocí balíčku Python Bard-API

More Related Articles

3 osvědčené postupy SQL, které potřebujete znát při analýze dat Uncategorized
6 věcí, o kterých jste pravděpodobně nevěděli | že byste mohli dělat s Pandami / Avi Chawla / Květen, 2023 Uncategorized
10 vzrušujících nápadů na projekty s využitím velkých jazykových modelů (LLM) pro vaše Portfolio Uncategorized
NumPy: Porozumění Síťovým Mřížkám Uncategorized
Jak zůstávám v obraze s nejnovějšími v AI Uncategorized
Snadný přístup k Google Bard pomocí balíčku Python Bard-API Uncategorized

Archives

  • May 2023

Categories

  • Uncategorized

Recent Posts

  • Naše investice do Modelbit. Susa Ventures s potěšením oznamuje … / od Leo Polovets / Susa Ventures / Květen, 2023
  • NumPy: Porozumění Síťovým Mřížkám
  • 6 věcí, o kterých jste pravděpodobně nevěděli | že byste mohli dělat s Pandami / Avi Chawla / Květen, 2023
  • Snadný přístup k Google Bard pomocí balíčku Python Bard-API
  • 3 Snadné Tipy pro optimalizaci datových rámců Pand

Recent Comments

No comments to show.

Copyright © 2023 Ijaret Blog.

Powered by PressBook Green WordPress theme