快捷搜索:    田亮  八折  潘越  出现  大满贯  最帅  福建

Allbet注册(www.aLLbetgame.us):选型指南:详解8大支持机械学习的数据库

欧博亚洲电脑版下载

欢迎进入欧博亚洲电脑版下载(www.aLLbetgame.us),欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理、Allbet电脑客户端、Allbet手机版下载等业务。

,

导语

本文中先容的这些数据库只管在方式和功效上存在差异,然则都允许用户在数据所在的位置上构建机械学习模子。

选择平台的主要原则是“靠近数据”,让代码靠近数据是保持低延迟的需要条件。

机械学习,稀奇是深度学习往往会多次遍历所有数据(遍历一次被称为一个epoch)。对于异常大的数据集来说,理想的情形是在存储数据的地方确立模子,这样就不需要大量的数据传输。现在已经有部门数据库在一定水平上支持这种功效。我们会很自然地问到一个问题,即哪些数据库支持内部机械学习,它们又是若何做到的?下面我将对这些数据库举行探讨。

Amazon Redshift

Amazon Redshift为托管的PB级数据客栈服务,旨在让使用现有商业智能工具对数据举行剖析的事情变得加倍简朴且经济高效。其专门针对数据集举行了优化,成本合算下来每年每TB不到1000美元。

Amazon Redshift ML可让SQL用户能够加倍轻松地使用SQL下令确立、训练和部署机械学习模子。Redshift SQL中的CREATE MODEL下令可界说用于训练和目的列的数据,然后通过统一区域中加密的Amazon S3 bucket将数据传输给Amazon SageMaker Autopilot以用于训练。

在AutoML训练之后,Redshift ML将编译最佳模子并将其注册为Redshift集群中的展望函数。随后,用户可以通过在SELECT语句中挪用展望函数的方式挪用模子举行推测。

总结:通过SQL语句,Redshift ML可使用SageMaker Autopilot行使指定数据自动确立展望模子。在这历程中,SQL语句会被提取到S3 bucket中。最佳的展望函数会被注册在Redshift集群中。

BlazingSQL

BlazingSQL是一个确立在RAPIDS生态系统顶层上的由GPU加速的SQL引擎,虽然是开源项目,然则提供付费服务。RAPIDS为一套获得了Nvidia支持的开源软件库和API,其使用了CUDA而且接纳了Apache Arrow列式内存名堂。作为RAPIDS的一部门,cuDF为一个类似于Pandas的GPU数据帧库,主要用途是对数据举行加载、毗邻、聚合、过滤等操作。

开源工具Dask可将Python套件扩展到多台机械上。此外,Dask还可在统一系统或多节点集群中通过多个GPU分发数据和盘算。整合了RAPIDS cuDF、XGBoost和RAPIDS cuML的Dask可用于GPU加速的数据剖析和机械学习当中。

总结:BlazingSQL可以在Amazon S3的数据湖上运行GPU加速的查询,然后将天生的数据帧传输给cuDF举行数据操作,最后再使用RAPIDS XGBoost和cuML执行机械学习,或是使用PyTorch和TensorFlow执行深度学习。

谷歌Cloud BigQuery

BigQuery是谷歌Cloud托治理的PB级数据客栈。用户可以通过BigQuery对大量数据举行近实时剖析。BigQuery ML允许用户使用SQL查询在BigQuery中确立和执行机械学习模子。

BigQueryML支持用于展望的线性回归、用于分类的二元多类逻辑回归、用于数据支解的K-均值聚类、用于确立产物推荐系统的矩阵剖析、用于执行时间序列展望的时间序列、XGBoost分类和回归模子、分类和回归模子专用的基于TensorFlow的深度神经网络、AutoML Tables、TensorFlow模子导入。用户可以使用来自多个BigQuery数据集的数据模子举行训练和展望。虽然BigQuery ML不会从数据客栈中提取数据,然则用户可以使用CREATE MODEL语句中的TRANSFORM子句,通过BigQuery ML执行特征工程。

总结:BigQuery ML通过SQL语法将谷歌Cloud机械学习引入到了BigQuery数据客栈,从而不从数据客栈中提取数据。

IBM Db2 Warehouse

虽然IBM Db2 Warehouse是一个托管的公有云服务,然则用户可以在内陆或在私有云中部署它们。作为一个数据客栈,IBM Db2 Warehouse包罗有内存数据处置和用于在线剖析处置的列式表格等功效。其Netezza手艺提供了壮大的剖析功效,可高效查询数据。此外,IBM Db2 Warehouse的大量的库和函数可以辅助用户获得所需的正确洞察力。

Db2 Warehouse支持Python、R和SQL中的数据库机械学习。IDAX模块中有剖析存储程序,包罗方差剖析、关联规则、数据转换、决议树、诊断、K均值聚类、K近邻、线性回归、元数据治理、naive贝叶斯分类、主要素剖析、概率漫衍、随机抽样、回归树、序列模式与规则,以及参数和非参数统计等等。

总结:IBM Db2 Warehouse包罗一系列数据库内SQL剖析,例如一些基本的机械学习功效。此外,IBM Db2 Warehouse对R和Python也提供数据库内支持。

Kinetica

Kinetica 流数据客栈(Streaming Data Warehouse)将以往的流数据剖析与内陆的智能和人工智能整合在了一个单一的平台上,所有这些都可以通过API和SQL举行接见。Kinetica为GPU加速数据库,不仅具有快速、漫衍式、柱状和内存优先等特点,还整合了过滤、可视化和聚合等功效。

为了实现大规模的实时展望剖析,Kinetica将机械学习模子和算法与用户的数据集成在一起,而且允许用户对剖析数据管道、机械学习模子、数据工程的生命周期以及流盘算功效举行优化。Kinetica为GPU加速的机械学习提供了一个全生命周期解决方案,包罗治理Jupyter条记本,通过RAPIDS举行模子训练,以及Kinetica平台中的自动模子部署和推理。

总结:Kinetica为GPU加速的机械学习提供了一个完整的数据库生命周期解决方案,而且可以行使流数据举行展望。

微软SQL Server

微软SQL Server机械学习服务在SQL Server RDBMS中支持R、Python、Java、PREDICT T-SQL下令和rx_Predict存储程序,在SQL Server Big Data Clusters中支持SparkML。在R和Python语言中,微软提供了多个用于机械学习的套件和库。用户可以将经由训练的模子存储在数据库中或是数据库外部。Azure SQL Managed Instance支持Python和R专用的Machine Learning Services举行预览。

R语言可以处置来自磁盘和内存中的数据。SQL Server提供了一个扩展框架,以便R、Python和Java代码可以使用SQL Server数据和函数。SQL Server Big Data Clusters可在Kubernetes中运行SQL Server、Spark和HDFS。当SQL Server挪用Python代码时,Azure机械学习也可以被挪用,天生的模子将被保留在数据库中以用于展望。

总结:当前版本的SQL Server可使用多种编程语言训练和推断机械学习模子。

甲骨文数据库

甲骨文云基础设施(OCI) Data Science 是一款托管无服务器平台,可供数据科学团队使用包罗Oracle Autonomous Database和Oracle Autonomous Data Warehouse在内的OCI构建、训练和治理机械学习模子。该平台包罗有由开放源码社区和Oracle Accelerated Data Science (ADS) Library开发的以Python为中央的工具、库和套件,支持展望模子端到端的生命周期:

Allbet注册

欢迎进入Allbet注册(www.aLLbetgame.us),欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理、Allbet电脑客户端、Allbet手机版下载等业务。

数据采集、剖析、准备和可视化

特征工程

模子训练(包罗Oracle AutoML)

模子评估、注释和说明(包罗Oracle MLX)

Oracle Functions中的模子部署

OCI Data Science还与包罗Functions、Data Flow、Autonomous Data Warehouse和工具存储等OCI客栈举行了整合。

现在支持的模子包罗:

Oracle AutoML

Keras

Scikit-learn机械学习库

XGBoost

ADSTuner (超参数优化)

此外,ADS还支持MLX(机械学习可注释性)。

总结:甲骨文云基础设施(OCI)可以托管与其数据客栈、工具存储和函数集成的数据科学资源,从而实现完整的模子开发生命周期。

Vertica

Vertica剖析平台为可扩展的列式存储数据客栈,其有两种运行模式:Enterprise和EON,前一种模式将数据存储在内陆组成数据库的节点内的文件系统中,后一种模式将数据存储在公共的盘算节点上。

Vertica使用大规模并行运算处置PB级数据,并通过数据并行举行内部机械学习。该产物有8个用于数据准备的内置算法、3个回归算法、4个分类算法、2个聚类算法以及多个模子治理函数,并具备将已训练的TensorFlow和PMML模子导入至其他地方的功效。在导入了模子之后,用户就可以使用它们举行展望。Vertica 还允许用户使用由C 、Java、Python或R等语言编译的自界说扩展程序。此外,用户还可以使用SQL语法举行训练和推理。

总结:Vertica内置了一套优异的机械学习算法,而且可以导入TensorFlow和PMML模子。用户既可以使用导入的模子举行展望,也可以使用自己训练的模子举行展望。

其它选择:MindsDB

若是用户的数据库不支持内置机械学习,那么他们可以使用MindsDB。该款产物集成了6个数据库和5个商业智能工具,支持的数据库包罗MariaDB、MySQL、PostgreSQL、ClickHouse、微软SQL Server和Snowflake。现在MindsDB还正在起劲与MongoDB整合,2021年晚些时刻还将会与流数据库实现集成。MindsDB支持的商业智能工具包罗SAS、Qlik Sense、微软Power BI、Looker和Domo。

MindsDB的功效还包罗AutoML、AI表和可注释的人工智能(XAI)。用户可以从MindsDB Studio、SQL INSERT语句或Python API挪用中挪用AutoML训练。用户可以选择使用GPU举行训练,也可以选择确立时间序列模子。

用户可以将模子另存为数据库表,然后从已保留模子专用的SQL SELECT语句、MindsDB Studio或Python API挪用中挪用它们。此外,用户还可以通过MindsDB Studio对模子质量实现评估、注释和可视化。

与此同时,用户还可以将MindsDB Studio和 Python API 与内陆和远程数据源联接在一起。MindsDB还分外提供了一个可在PyTorch上运行的简化版深度学习框架Lightwood。

总结:MindsDB为许多不支持内置机械学习的数据库带来了机械学习功效。

越来越多的数据库最先在内部支持机械学习。虽然机制各不相同,然则有些机制确实性能加倍出众。若是拥有大量数据,且需要为采样子集选择适当的模子,那么上面所列的8个数据库,以及支持MindsDB的其他数据库都可以辅助用户为完整的数据集构建模子,而且不需要郁闷因数据导出导致用度严重超支。

作者:本文作者Martin Heller现在为InfoWorld网站的特约编辑兼谈论员,此前其曾担任Web和Windows编程照料。从1986年至2010年,Heller一直从事数据库、软件和网站的开发事情。近期,Heller还出任了Alpha Software的手艺兼训练副总裁和Tubifi的董事长兼首席执行官。

原文网址:https://www.infoworld.com/article/

3607762/8-databases-supporting-in-database-machine-learning.html

编译:陈琳华

微信排版:牛可歆

排版审核:刘 沙

更多干货推荐

发表评论
诚信在线声明:该文看法仅代表作者自己,与本平台无关。请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片

您可能还会对下面的文章感兴趣: