大数据

大数据

大数据

大数据相关：（hadoop体系） hdfs、mapreduce 、hbase、hive、spark 等等。大数据处理的想法

等 10 人订阅共19篇文章创建于2021-07-14

如何使用人工智能算法解决实际业务问题？

本文正在参加人工智能创作者扶持计划使用人工智能算法解决实际业务问题的过程可以概括为以下几个步骤：总体来说，使用人工智能算法解决实际业务问题需要深入理解业务问题和数据特征，并选择适合的算法和方法进

3年前
848
6
评论

模拟生物自然进化的基因遗传算法

本文正在参加人工智能创作者扶持计划生物基因遗传基因遗传算法通常由以下几个步骤组成：初始化种群：随机生成一组初始解，称之为种群。种群中每个解由一组基因表示。评估适应度：根据问题的优化目标，对每

3年前
552
3
评论

生物神经网络衍生出的算法

本文正在参加人工智能创作者扶持计划一个生物神经网络的基本结构：生物神经网络是一种由神经元组成的神经系统模型，模拟人类大脑的运行方式。以下是一些相关的名词及其解释：神经元（Neuron）：神经元

3年前
1.2k
5
评论

我使用ChatGPT4的API学了本书竟花了12万

未有夸大之嫌，且看下面细细算来： Chat-GPT各个API接口定价： Gpt4 prompt为例 0.03$/1k token Chat Gpt3.5 0.002$/1k token

3年前
674
点赞
评论

“来肝” spark-core

Spark Core 术语 Spark Core是整个Spark项目的核心，它包括了Spark的基本功能和API，包括RDD、任务调度和执行、部署和资源管理等。 Spark Core中还有很多其他的组

3年前
781
4
评论

机器学习（二）常见线性回归算法使用案例

本文正在参加人工智能创作者扶持计划线性回归算法使用案例一：建模过程：以房价预测为例，假设有以下数据集：每个样本包含房屋的面积、房间数以及对应的售价。我们希望通过这些特征来预测房屋的售价。特征

3年前
1.2k
3
评论

我用KNN算法给稀土掘金写了一个文章推荐功能

在本次尝试中，我们使用k邻近算法来实现稀土掘金文章推荐给掘友的功能。具体步骤如下： Step 1. 数据预处理我们需要将文章和用户的数据进行预处理，以便于后续的计算。对于文章，我们需要对其进行以下处

3年前
725
7
评论

机器学习（一）常见的机器学习算法

算法特点应用场景线性回归简单易懂，计算速度快预测数值型数据，如房价、股票价格等逻辑回归可以用于分类问题，输出概率值预测二元分类问题，如是否患有某种疾病决策树可以可视化决策过程，易于

3年前
3.1k
10
评论

Elasticsearch做搜索的场景

一般情况下，我们通过查询关系型数据库，来获取数据，这是属于正排索引的方式进行搜索。但是存在一种情况，即是我们需要对一些文章中的关键词或者词语进行搜索，命中以后返回这条数据。

3年前
190
1
评论

消息队列技术选型参考（通用）

国内使用的主流消息队列：消息队列名称主要适用场景服务端核心开发语言主要优点主要缺点 kafka 应用解耦（异步处理）、流量削锋、日志处理、消息通讯（聊天室等）｜大数据领域应用较多 Scala

3年前
599
1
评论

数据库与大数据存储

本文正在参加「金石计划 . 瓜分6万现金大奖」数据库的特性和使用技巧以及架构说明文章比较多，这些都是纵深方向来说，从横宽方向来说还是比价少，笔者主要介绍下一些主流数据库技术和数据存储技术，以及其趋

3年前
333
1
评论

彻底”撕破“流式计算和批计算的“云里雾里面纱”

废话：大家有时候可能会比较迷惑，流式计算？批计算？这些字我都认识，解释我也能大概明白，但是还是有些云里雾里，这到底是啥啊，能不能让我彻底明白啊？好了，从头看到尾，还不明白就🦶踩流式计算和批计算。

4年前
782
12
1

彻底”撕破“流式计算和批计算的“云里雾里面纱”

漫谈「 spark sql 」出现的前世今生

「本文已参与好文召集令活动，点击查看：后端、大前端双赛道投稿，2万元奖池等你挑战！」（纯作者个人的认知，如有不足，欢迎指正） 1.什么是spark sql？ SQL: 简单提及，sql即结构化查

5年前
534
22
评论

分布式计算框架hadoop体系（一）

分布式计算框架整体展示：分布式计算框架的搭建：需要搭建hdfs系统（可搭建方式有单机——伪分布式-完全分布式-HA模式）（zookeeper做高可用）如果使用map reduce需搭建yarn环

5年前
600
34
评论

Hadoop通过idea连接远程集群出现的用户权限问题

使用开发机器：mac 集成工具：idea 开发测试hadoop程序期间需要连接远程集群服务。通过hadoop源码可以知道，Hadoop 在连接集群时首先会获取本机运行环境一些参数，其中访问远程集群的

5年前
518
37
评论

记录遇到的一些Hadoop—Mapreduc相关的问题

一：类类型使用不一致（mapper和reduce）　　这是因为mapper和reduce的继承类，使用的T参数不一致造成，比如，map里面使用Text ，reduce里面使用Key，就会出现类型强转

5年前
515
32
评论

idea远程执行yarn的job可能出现的问题_20201227201501-qe9rbjd.sy

1使用debuger调试提交时出现：这个是因为idea会自动处理toString，需要设置一下，stackOver里面我有回答。 2摘录部分日志：第一个异常是因为idea中配置文件因为远程调用设置

5年前
694
30
评论

etl工具kettle操作oracle时一个“尴尬”的问题

一：经过排查，kettle的数据库连接参数没有问题，ktr和kjb文件编码也正常，整个操作和代码没有问题。二：经过使用，有同事可以正常执行，本人使用也偶尔可以正常执行。数据库排查，表空间是否自增，是否是因为表空间资源不足导致连接失败。（排查后否定）排查问题问题，基本这个目…

5年前
812
24
评论

hadoop2.10.0-hive2.3.7-hbase2.2.4环境搭建

大数据生态对每个组成的技术版本有一定要求，如果不是适配版本，则很可能会出现各种问题。像hadoop1.x、2.x、3.x每个大版本都有很大区别，如果基于Hadoop-hdfs去搭建诸如hive数据仓库或者hbase数据库的时候，对版本的选定是优先的。设置节点名称，在/etc…

6年前
2.3k
24
评论