数据分析吧
关注: 46,616 贴子: 583,978

数据分析师聚集的地方

  • 目录:
  • 软件及互联网产品
  • 0
    pandas.to_datetime(arg,errors='ignore',dayfirst=False,yearfirst=False,infer_datetime_format) 说明: arg:字符串、日期时间、字符串数组 errors:有三个值ignore、raise、coerce,ignore忽略错误返回原值;raise引发异常;coerce将无法转换成日期的数据设置为NaT dayfirst:默认值为False,将第一个值视为月,如果改为True,第一个值视为日 yearfirst:默认值为False,改为True后,将第一个值视为年 infer_datetime_format:默认值为False,如果没有格式,则尝试根据第一个日期时间字符串推断格式 例1:
  • 0
    import pandas as pd # 导入数据 df = pd.read_excel() #read_csv() # 清洗缺失值 df.isnull.sum() # 统计空缺值个数 df.notnull.sum() ##统计非空缺值个数 df.dropna(axis=0,inplace=True) # axis后面的0表示按行操作,1表示按列操作;inplace表示修改原数据 # 替换缺失值 df.fillna('新值',inplace=True) # 去除重复数据 df.drop_duplicates('列名',inplace=True) # 去除多列重复数据将‘列名’换成指定的多列subset=['A','B']
  • 5
    今天跟大家聊聊关于BI工具怎么挑选的问题,市面上所有的BI工具,设计理念都是希望可以让企业提升效率,业务管理上事半功倍。但是BI市场内上现在鱼龙混杂,个人或者企业在挑选BI工具的时候,要以“适配”为原则,正如老话所说“没有最好,只有更好”,所以是否“适配”自己的需求,才是挑选BI工具的重中之重。 对于个人来说我觉得选择的逻辑是:价格(免费最佳)>易用性(模版直接套用最佳)>性能(个人使用场景相对单一,所以在性能上大部
  • 3
    群里的大佬们 谁有 tableau 的安装包啊 个人学习使用,感谢_(:з」∠)_
  • 3
    1.for循环的语法及用法 (1)语法 for iterative_var in sequence: statements 参数说明 iterative_var:迭代变量。 sequence:迭代序列,可为列表、字符串、字典、序列范围。 statements:迭代循环触发什么动作,比如简单的输出print函数、也可以是镶嵌迭代。 (2)用法:可以遍历任何序列的对象,即列表、字符串、字典,或者通过序列索引来迭代。
  • 0
    我想知道当一个产品的定价上浮或者下调时,价格变动的幅度是如何影响销量的。例如价格下降5%,销量增加了10%。然后我需要用数据分析的方法去证明这种价格变动与销量的关系。并且我需要制定一个分级评价体系去衡量该产品销量对于价格变动的敏感性。例如每当一个产品价格浮动5%时,销量变化不足10%归类为Level 1,而变化在10%~20%的归类为Level 2。 所以请教下做这个方案的思路?万分感谢🙏
    老渔翁 3-7
  • 1
    一直有小伙伴问关于数据分析的一些问题,趁着项目忙完闲下来了给大家分享一个学妹案例
  • 1
    好久没在网上叨叨了,之前研究了几款BI工具,大厂小厂,国内国外的,都简单的了解了一下,毕竟我不是专业做技术的人(PS:连写个SQL都不会。。。),所以我了解的也有限,但是针对我这种又菜又爱玩的(非专业数据分析人士,却有数据分析展示的需求),只能找一些简单容易上手,学习成本极低的BI工具来使用了(当然最重要的一点就是要免费!!!) 咱们闲话少说,直接来干货,毕竟不是专业人士,所以了解的能力有限,可能不那么全面。
  • 0
    数据是精准且直接的,但是作为分析数据的我们,往往是主观的。如果因为个人主观产生误解,导致数据的分析结果出现偏差,则很容易造成决策上的失误。 今天给大家列举几个在数据分析中常常遇见的误区,希望可以帮助大家更好的规避陷阱,让决策更加精确。 一、意识误区 1、只有很大的数据才需要分析 在日常生活中,我们常常听到“大数据分析”,所以往往给人的印象就是数据需要足够庞大才可以进行分析,但实际上数据的大小与是否分析不
  • 3
    二、第二阶段:训练回报模型 这个阶段的主要目标是通过手动标注训练数据来训练回报模型。具体是随机抽取用户提交的请求prompt(大部分与第一阶段相同),使用第一阶段Enhancement的冷启动模型。对于每个prompt,冷启动模型都会生成K个不同的答案,所以模型会生成数据<prompt, answer1>, <prompt, answer2>....<prompt, answerX>。之后,标注者根据各种标准(上述的相关性、富含信息性、有害信息等诸多标准)对X个结果进行排序,并指定X个结果的排名
    efenxi 8-2
  • 0
    从功能来说,数据仓库软件,至少需要具备下述两种能力:从功能来说,数据仓库软件,至少需要具备下述两种能力: 存储数据的能力、分析数据的能力 Apache Hive作为一款大数据时代的数据仓库软件,当然也具备上述两种能力。只不过Hive并不是自己实现了上述 两种能力,而是借助Hadoop。Hive利用HDFS存储数据,利用MapReduce查询分析数据. 这样突然发现Hive没啥用,不过是套壳Hadoop罢了。其实不然,Hive的最大的魅力在于用户专注于编写HQL, Hive转换成为MapR
    efenxi 6-2
  • 0
    如何搭建一套用户画像方案? 搭建一套用户画像方案整体来说需要考虑8个模块的建设 1·用户画像基础:需要了解、明确用户画像是什么,包含哪些模块,数据仓库架构是什么样子,开发流程,表结构设计,ETL设计等。 这些都是框架,大方向的规划,只有明确了方向后续才能做好项目的排期和人员投入预算。这对于评估每个开发阶段重要指标和关键产出非常重要。 2·数据指标体系:根据业务线梳理,包括用户属性、用户行为、用户消费、风险控制等
    efenxi 5-22
  • 1
    如何安装ruamel-yaml库 以管理员身份启动cmd窗口,执行如下命令 pip install ruamel-yaml -i https://pypi.tuna.tsinghua.edu.cn/simple C:\Users\Administrator>pip install ruamel-yaml -i https://pypi.tuna.tsinghua.edu .cn/simple 回车 提示已经安装成功了 接下来启动jupyter notebook,看能否正常导入 这里需要注意的是不要在jupyter notebook或者spyder中执行安装库的命令,这样做经常看不到安装进度和容易死机。 直接在cmd窗口中用pip命令安装就行 如果在cmd窗口无法识别pip命令,则可以将pip.exe所在文件
    efenxi 4-17
  • 1
    联通dpi 指定模型 关键词 劫持
  • 0
    产品贡献定量分析(帕累托分析)(累积销售额占比=累积销售额/总销售额) select * from (select item_category, sum(amount) as 销售额, sum(sum(amount)) over(order by sum(amount) desc) as 累积销售额, #当over中指定了排序,但是没有指定滑动窗口范围时,默认计算当前分区内第一行到当前行(排序字段)取值范围内的记录 sum(sum(amount)) over() as 总销售额, #当over中没有指定分区、排序和滑动窗口范围时,表中所有记录为一个区,默认计算当前分区内的所有记录 sum(sum(amount)) over(order by sum(amo
    efenxi 3-16
  • 0
    使用【F9】键快速查看公式指定部分计算结果除了“公式求值”按钮之外,还可以使用【F9】键快速查看每一步的计算结果。实战实例:使用【F9】键快速查看公式指定部分计算结果如果使用直接在编辑栏中查看公式中每一部分的计算结果,可以在公式中选中一部分(注意选中的应该是可以进行计算的一个完整部分),按键盘上的【F9】功能键即可查看此步的返回值。使用这种方法也可以实现对公式逐步分解,便于我们对复杂公式的理解。
    efenxi 3-16
  • 0
    ●构建与提取日期、时间函数:TODAY函数、DATE函数、TIME函数、YEAR函数、MONTH函数、DAY函数、EMONTH函数、WEEKDAY函数、HOUR函数。 ●期间差函数:DAYS360函数、NETWORKDAYS函数、NETWORKDAYS.INTL函数、WORKDAY函数、WORKDAY.INTL函数、ISOWEEKNUM函数、EDATE函数。 ●文本日期与时间的转换函数:DATEVALUE函数和TIMEVALUE函数。
    efenxi 3-16
  • 0
    规则类标签 该类标签基于用户行为及确定的规则产生。例如,对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像 的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结 构、分布、特征更为熟悉,因此规则类标签的规则由运营人员和数据人员共同协商确定;
    efenxi 3-13
  • 0
    1.打开环境变量设置 单击开始,输入“环境变量” 四个字 点击编辑系统环境变量,进入如下界面: 设置TEMP 与 TMP变量 例如改成下面的内容 这样再去启动jupyter notebook就可以正常使用了
    efenxi 3-3
  • 2
    1.把出生年月日提取出来:可以使用EXCEL中的LEFT、RIGHT或MID函数来截取字符串中的一段字符。 2.可以使用EXCEL的DATEVALUE函数,将身份证号中的出生日期转换为日期格式,然后再用TODAY函数减去DATEVALUE函数的结果,即可得出相应年龄。 DATEVALUE函数用于将文本形式的日期转换为Excel日期值,其语法为:DATEVALUE(date_text),其中date_text为文本形式的日期。
  • 1
    有谁知道分类模型的召回率用python怎么实现吗?
    GUET学长 11-19
  • 0
    数据从哪来? 业务行为发生-数据录入-数据库系统; 数据分析步骤(数据分析人员): 收集各业务部门的业务分析需求; 从数据库系统获取所有数据表(SQL); 对数据表进行数据处理/分析(业务分析方法/模型); 产出数据分析的结果(商业智能报表/商业分析报告); 数据分类 结构化数据 表格结构数据 工具:Excel/WPS 最小单位:单元格 每个单元格只能有一种数据类型 多个单元格构成单元格区域;多个单元格区域构成工作表;多个工作表构成工作簿 表结构数据 工具:其他分
    efenxi 10-18
  • 0
    ETL工程师要学什么? 技术方面:需要学习使用数据源、目标端工具的基本使用(如 oracle MySQL hive等);需要学习etl工具的安装配置常用错误解决(如 kettle DataStage infa sqoop datax等) 理论方面:懂得数仓分层架构,维度建模等。 从ETL的字面来看,它主要包含三大阶段,分别是数据抽取、数据转换、数据加载。 1.数据抽取 这个阶段的主要目标是汇总多种数据源,为下一步的转换做准备。 2.数据转换 这个阶段是ETL的核心环节,也是最复杂的环节。它的主要
    efenxi 10-11
  • 0
    如何选择大数据培训机构 通过以上的各种方式,选择一家大数据培训机构还是挺靠谱的。但是您也要先自检一下自己是否适合学习大数据。别着急报班。 1.培训能力是否有 社会招聘单位大数据专业人才供不应求的局面,造成了IT培训行业后市场的火爆发展。有部分机构打着“大数据薪资高”的旗号,也不管您是否适合学习大数据,亦不管自身是否能保障教学水平,只要您想要学就收。如果不幸去了敛财为目的,学生的学习和就业完全不负责任的Java培
    efenxi 10-9
  • 0
    点估计是参数估计的重要组成部分,点估计的常见方法有矩估计和极大似然估计,衡量一个点估计量的好坏的标准有很多,比较常见的有:无偏性(Unbiasedness)、有效性(Efficiency)和一致性(Consistency)。 由于抽样具有随机性。每次抽出的样本一般都不会相同,根据样本值得到的点估计的值也不尽相同。那么,如何来确定一个点估计的好坏呢?单凭某一次抽样的样本是不具有说服力的,必须要通过很多次抽样的样本来衡量。因此,我们最容易能想到
    efenxi 9-26
  • 0
    答:python作为一种面向对象,解释型的,带有动态语义的高级程序设计语言。其简单,易懂,容易上手。 虽然python的速度没有c、c++等编译语言那么快,但是它能够节省编程的时间。 高层语言:当你用Python语言编写程序时,你无须考虑诸如如何管理你的程序使用的内存一类的底层细节; 可移植性:由于它的开源本质,Python已经被移植在许多平台上,开源说Python几乎适应各种平台 解释性:Python语言写的程序不需要编译成二进制代码,可以直接从源代码
    efenxi 9-26
  • 0
    • 数据库:存储数据的容器,同一个数据库管理系统中数据库名必须唯一 • 表:数据以表的形式存储在数据库中,同一个数据库中表名必须唯一 • 字段:数据以字段为单位存储在表中,同一个表中字段名必须唯一 • 记录:一条记录即为一个实体 • 以字段为基本存储和计算单位,每个字段的数据类型必须一致
    efenxi 9-26
  • 0
    stata做文章实证研究部分,平衡面板,非平衡面板,动态面板,时间序列,横截面,各种stata模型都可以做,看你要求。
  • 0
    1.高斯马尔克夫假定:线性与参数:即贝塔零,贝塔一,贝塔二等都是线性的,当散点图呈现非线性的模式得调优. 2. 高斯马尔克夫假定:随机抽样:误差无序列相关性(自相关性),当有时间属性的时候,极有可能有相关性,用dw(杜宾)检验判断残差是否有序列相 关性,若统计值约等于2(±0.5),则没有序列相关性,若有,则可以利用时间序列的相关性解决。 3. 高斯马尔克夫假定:不存在完全共线性,即自变量X之间不能有太高的相关性. 4.高斯马尔克夫假定:误
    efenxi 9-20
  • 3
    如何评估反向ETL工具 您的数据集成工具是否适合反向ETL?在评估数据集成解决方案时,以下是一些关键功能: 连接性:该工具应支持与内置连接器轻松集成,适用于您的企业使用的所有或大多数应用程序。用于云或混合数据仓库(如AWS Redshift、Google BigQuery、Snowflake、Azure Synapse和DataRicks)的原生连接器就是很好的例子。 用例支持:反向ETL必须支持所有主要用例,能够灵活地向上扩展和向下推进优化,并且可以扩展对批量、大规模和实时集成的支持。
    efenxi 9-20
  • 5
    有人要问,为什么财务的智能化转型要学习Python,而不是其他数据分析软件呢? 01 Python具备的数据分析与数据可视化的功能正好可以在满足财务人员工作需要的同时,提升工作效率。Python的程序可以实现全自动化读取数据,并进行相关运算。同时,不会因为文件内容复制转移而发生公式变动,影响结果。 02 Python更容易学习上手。Python的编程语言简洁清楚,学习周期短,即使工作繁忙学习时间不够的多的人,也可以在几周内掌握基本内容。 03 Python是当
    efenxi 9-20
  • 0
    1、gdp平减指数总览 提所谓通胀时,较多的是提到CPI和PPI,另外还有一个重要指标,即GDP平减指数。关注通胀应同时关注“CPI、PPI和GDP平减指数”。 2、gdp平减指数定义 CPI是度量居民生活消费品和服务价格水平随着时间变动的相对数,综合反映居民购买的生活消费品和服务价格水平的变动情况。全国居民消费价格指数(CPI)涵盖全国城乡居民生活消费的食品烟酒、衣着、居住、生活用品及服务、交通和通信、教育文化和娱乐、医疗保健、其他用品和服
    efenxi 9-19
  • 1
    SSCI之于人文社科的重要性,就相当于SCI之于理工科的重要性。现在很多高校把SSCI排在很多A刊之上。发表一篇SSCI或抵多篇C刊。 在发表难度上,发一篇SSCI确实比发一篇C刊难。但国内大多数学者需要发表多篇C刊才能达到高校毕业标准或是晋升标准。 可以说,多篇C刊加起来的难度是大于发表一篇SSCI的。换句话说:在同等价值下,发一篇SSCI可能要比发更多C刊更容易。
    efenxi 9-15
  • 0
    在使用全自动电机绕线机绕线过程中,相信很多操作全自动电机绕线机工作员会遇到过漏钩这种情况,下面全自动电机绕线机厂家给大家说下造成漏钩的原因都有哪些以及解决方案: 1、飞叉离钩线套距离太远:挂钩时线挂不到钩子底部,容易挂在钩子外角部,摆角时脱钩。挂钩时线可看出。 解决方法:调整飞叉与钩线套距离 2、张力机构上弹簧使用不适:弹簧力小挂钩时线松,线挂不到钩子底部容易松脱。弹簧力大挂钩时线容易挂在钩子外角部,钩
    efenxi 9-13
  • 1
    智能化时代来了,随着业财税一体化的深入融合,财务人面临着转型的压力。从ERP、财务共享、财务中台再到财务机器人,财务人不得不面对可能被人工智能取代的危机。去年区块链的发展被提升到国家战略层面,区块链的发展将进一步加速财务人工智能化的发展速度。 作为财务人,在财务信息化的大趋势下,不仅面临着行业冲击,还身处被科技变革淘汰的大风大浪中。不仅业界人士心存焦虑,很多高校也在进行会计专业的教学改革,将编程语言作
    efenxi 9-13
  • 0
    stata显著性调整,stata显著度调整,p值显著,正负号调节,数据清洗。 代跑stata回归包显著,面板数据横截面数据均可,回归结果不显著找我,适用于绝大多数模型,提供清洗后数据dta文件
  • 3
    地理数据库:按照层次型的数据对象来组织地理数据,这些数据对象包括对象类、要素类和要素数据集。 对象类是指存储非空间数据的表格。 要素类是具有相同几何类型和属性的要素的集合,即同类空间要素的集合,如河流、道路、植被、用地等。要素之间可以独立存在,也可具备某种关系。当不同要素类之间存在关系时,应考虑将它们组织到一个要素数据集中。 要素数据集是共享空间参考系统并具有某种关系的多个要素类的集合。存在以下三种情
    efenxi 9-9
  • 2
    (1)创建新的地理数据库: 可以建立两类地理数据库:本地地理数据库(个人地理数据库、文件地理数据库)和ArcSDE地理数据库(空间数据库连接)。 而ArcSDE地理数据库必须首先在网络服务器上安装数据库管理系统DBMS和ArcSDE,才能建立ArcCatalog到ArcSDE地理数据库的连接。 在目录菜单选择需要存放地理数据库的文件,右键——新建——文件地理数据库——输入名称。 (2)建立数据库的基本组成项: 建立要素数据集:先明确其空间参考,包括坐标系统和坐
    efenxi 9-8

  • 发贴红色标题
  • 显示红名
  • 签到六倍经验

赠送补签卡1张,获得[经验书购买权]

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!

本吧信息 查看详情>>