当Excel遇到大数据问题,是时候用Python来拯救了
与从事分析工作的当E大数人交谈,他们会告诉你他们对Excel的据问爱恨情仇:
Excel能做很多事情;当涉及到更大的数据集时,这简直是候用一种痛苦。数据需要很长时间才能加载,拯救在你意识到机器的当E大数内存耗尽之前,整个事情就变得无法管理了。据问更不用说Excel最多只能支持1,候用048,576行。
如果有一种简单的拯救方法,那就是当E大数将数据传输到SQL数据库中进行分析。这就是据问Python拯救世界的方式。

Python中的候用SQL
首先,让我们研究一下在Python中使用SQL时最流行的拯救选项:MySQL和SQLite。
MySQL有两个流行的当E大数库:PyMySQL和MySQLDb;而SQLite有SQLite3。
SQLite就是据问所谓的网站模板嵌入式数据库,这意味着它在我们的候用应用程序中运行,因此不需要先在某个地方安装它(不像MySQL)。
这是一个重要的区别;在我们寻求快速数据分析的过程中起着关键作用。因此,我们将继续学习如何使用SQLite。
在Python中设置SQLite
我们需要做的第一件事是导入库:
import sqlite3然后,我们需要确定是否要在任何地方保存这个数据库,还是在应用程序运行时将它保存在内存中。
如果决定通过导入任何数据来实际保存数据库,那么我们必须给数据库一个名称,例如 FinanceExplainedDb ,并使用以下命令:
dbname = FinanceExplainedDb conn = sqlite3.connect(dbname + .sqlite)另一方面,如果我们想把整个东西保存在内存中,并在完成后让它消失,我们可以使用以下命令:
conn = sqlite3.connect(:memory:)至此,SQLite已经全部设置好,可以在Python中使用了。高防服务器假设我们在Table 1中加载了一些数据,我们可以用以下方式执行SQL命令:
cur = conn.cursor() cur.execute(SELECT * FROM Table1) for row in cur: print(row)现在让我们探索如何通过使用pandas的应用程序使数据可用。
使用pandas加载数据
假设我们已经有了数据,我们想要进行分析,我们可以使用Pandas库来做这件事。
首先,我们需要导入pandas库,然后我们可以加载数据:
import pandas as pd #if we have a csv file df = pd.read_csv(ourfile.csv) #if we have an excel file df = pd.read_excel(ourfile.xlsx)一旦我们加载数据,我们可以把它直接放入我们的SQL数据库与一个简单的命令:
df.to_sql(name=Table1, con=conn)如果在同一个表中加载多个文件,可以使用if_exists参数:
df.to_sql(name=Table1, con=conn, if_exists=append)在处理较大的数据集时,我们将无法使用这个单行命令来加载数据。我们的应用程序将耗尽内存。相反,我们必须一点一点地加载数据。在这个例子中,我们假设每次加载10,000行:
chunksize = 10000 for chunk in pd.read_csv(ourfile.csv, chunksizechunksize=chunksize): chunk.to_sql(name=Table1, con=conn, if_exists=append)把所有的东西放在一起
为了将所有内容综合起来,我们提供一个Python脚本,它涵盖了我们讨论的大部分内容。
import sqlite3, pandas as pd, numpy as np #####Creating test data for us -- you can ignore from sklearn import datasets iris = datasets.load_iris() df1 = pd.DataFrame(data= np.c_[iris[data], iris[target]], columns= iris[feature_names] + [target]) df1.to_csv(TestData.csv,index=False) ########################### conn = sqlite3.connect(:memory:) cur = conn.cursor() chunksize = 10 for chunk in pd.read_csv(TestData.csv, chunksizechunksize=chunksize): chunkchunk.columns = chunk.columns.str.replace( , _) #replacing spaces with underscores for column names chunk.to_sql(name=Table1, con=conn, if_exists=append) cur.execute(SELECT * FROM Table1) names = list(map(lambda x: x[0], cur.description)) #Returns the column names print(names) for row in cur: print(row) cur.close() IT技术网相关文章
苹果XR电脑升级iOS教程(简明易懂的操作指南,让你的苹果XR电脑焕发新生)
摘要:苹果XR是一款性能出色的智能手机,升级最新的iOS系统可以为用户带来更好的使用体验和功能。本文将详细介绍如何升级苹果XR电脑的iOS系统,以便用户能够更好地掌握操作方法。一...2025-11-04电脑主机箱DIY(让你的电脑更加便携,打造独一无二的主机箱)
摘要:电脑已经成为现代人生活中不可或缺的一部分,而电脑主机箱作为保护和装配各种硬件的外壳,起到了非常重要的作用。然而,市面上的主机箱款式相对较为单一,大多数都缺乏个性化的设计。在这篇文章...2025-11-04- 摘要:在日常使用电脑的过程中,我们可能会遇到各种各样的问题,如系统运行缓慢、程序崩溃等。为了解决这些问题,我们可以尝试对电脑系统进行重置。本文将介绍如何使用火影电脑系统重置工具,实现一键...2025-11-04
 轻松学会3分钟让电脑自动修复系统(无需专业技能,快速解决常见电脑问题)
摘要:随着科技的发展,电脑在我们生活和工作中扮演着越来越重要的角色。然而,随之而来的问题也不可避免。当电脑出现故障时,我们往往需要专业人员或耗费大量时间来修复。但事实上,对于一些常见的问...2025-11-04电脑开机显示停止错误屏幕的解决方法(解决电脑开机时出现停止错误屏幕的常见故障)
摘要:在使用电脑的过程中,有时候我们会遇到电脑在开机时显示停止错误屏幕的情况,这时候我们需要采取一些措施来解决这个问题,以确保电脑能够正常启动并运行。本文将介绍一些常见的故障原因以及相应...2025-11-04联想电脑CPU风扇错误的解决方法(探索联想电脑CPU风扇错误原因及应对措施)
摘要:随着科技的进步,计算机在我们日常生活中扮演着越来越重要的角色。然而,有时候我们的计算机可能会遇到一些问题,比如联想电脑的CPU风扇错误。这个问题可能会导致计算机过热、性能下降甚至无...2025-11-04

最新评论