当前位置: 首页 > news >正文

Sql刷题日志(day6)

一、笔试

1、insert ignore:在插入数据时忽略主键冲突或其他唯一性约束冲突。

如果插入的记录会导致主键冲突(如 actor_id 已存在),该语句不会报错,而是直接忽略插入操作

语法:

INSERT IGNORE INTO table_name (column1, column2, ...)
VALUES (value1, value2, ...);

拓展:

  • INSERT INTO 是最基本的插入语句,用于向表中插入新数据。如果插入的数据违反了主键或唯一约束,INSERT INTO 会报错并中断操作。
INSERT INTO table_name (column1, column2, ...)
VALUES (value1, value2, ...);
  • REPLACE 是 MySQL 中的一个扩展语句,用于插入数据。如果插入的数据违反了主键或唯一约束,REPLACE先删除旧记录,然后插入新记录
REPLACE INTO table_name (column1, column2, ...)
VALUES (value1, value2, ...);

特性/行为 INSERT INTO、REPLACE、INSERT IGNORE

2、FORCE INDEX 语句进行强制索引查询

SELECT ... FROM table_name FORCE INDEX (index_name) WHERE ...;

3、修改表结构

ALTER TABLE 是用于修改表结构的 SQL 语句,常见的操作包括:

  • 添加列:ADD COLUMN
  • 删除列:DROP COLUMN
  • 修改列:MODIFY COLUMN
  • 重命名列:CHANGE COLUMN
列位置(AFTERFIRST):在 MySQL 中,可以通过 AFTERFIRST 指定新列的位置。

4、创建触发器:create trigger trigger_name

CREATE TRIGGER trigger_name
BEFORE/AFTER {INSERT/UPDATE/DELETE} ON table_name
FOR EACH ROW
BEGIN-- SQL 语句
END;

5、修改表名:rename to

ALTER TABLE old_table_name RENAME TO new_table_name;

6、substr:提取字符串

SUBSTR(expression, start, length)
/*expression:要提取子字符串的原始字符串。
start:提取子字符串的起始位置(从 1 开始计数)。
length:要提取的子字符串的长度。
SUBSTR(first_name,-2,2)从倒数第2个字符开始,提取长度为2的子字符串
*/

7、group_concat:对分组后的结果进行字符串的拼接操作

GROUP_CONCAT(column [SEPARATOR 'separator']) FROM table_name
/*GROUP BY grouping_column;
column:需要连接的字符串列。
separator:(可选)指定连接字符串时使用的分隔符。
grouping_column:用于分组的列。
*/

二、面试

1、短视频业务需要哪些指标,哪三个指标最重要?

  • 短视频本身的数据,比如短视频发布时间、视频时长、发布渠道。这个都是视频发布后即有的固定属性。 
  • 短视频消费侧相关的数据,比如累计播放量、点赞率、完播率。
  • 短视频供给侧相关数据,投稿用户数、连续投稿用户数、优质投稿人涨粉率等。

我认为最重要的三个指标有:播放量、点赞量和收藏量。这三个指标可以反映出短视频消费的健康情况。也是我认为最应该关注的指标。 

答案解析:先说明自己了解短视频生态的构成,再举出三个重要指标即可。

2、业务指标有哪些,怎么衡量你所在的业务部门的贡献?

业务指标分为:

  • 用户数据指标,例如新增用户数、活跃用户数、留存率等; 
  • 行为数据指标,例如PV、UV、K因子(一个用来衡量产品或服务的传播能力或病毒式增长潜力的指标);
  • 产品数据指标,例如GMV,ARPU,付费率; 
  • 付费推广指标,例如CPC、CPA、ROI等。

可以采用ab-test来衡量策略落地的效果,通过假设检验来衡量策略的显著与否。 

答案解析:引导面试官去询问ab实验的具体步骤,面试前需要准备好ab实验的细节

3、因为异常订单,消费者与商家两者纠纷处理?

1) 第一时间向用户和商家了解情况,要求提供关键证据 

2) 根据制度尽最大可能满足用户的诉求 

3) 用户诉求合理则损失由商家承担,否则拒绝

4、淘宝想发展短视频业务,请你对行业进行分析,并分析淘宝短视频的竞争力等

淘宝短视频竞争力:淘宝本身自带大型流量,为短视频业务提供了重要的基础;当前字节跳动快手主要以音乐、情景剧、段子等内容为主,淘宝若想入局,就要找到突破口,打造与快抖不同的产品。由于淘宝用户都是有电商心智的用户,因此可以把产品营销、产品功能使用介绍等内容作为视频内容主攻口,在短视频中进行品牌宣传,实现引流变现。

5、介绍一个和卡中心业务比较相关的项目(深挖:难点、负责板块、项目论文成果等)

以信用评分卡模型为例,参与的流程有数据获取、数据预处理、探索性数据分析、变量选择、模型开发、模型评估、信用评分和系统建立。 

(1)用到的数据主要包括以下几个方面: 基本属性:包括了借款人当时的年龄。 偿债能力:包括了借款人的月收入、负债比率。 信用往来:两年内35-59天逾期次数、两年内60-89天逾期次数、两年内90天以上逾期次数。 财产状况:包括了开放式信贷和贷款数量、不动产贷款或额度数量。 贷款属性:商业贷款、公积金贷款。 其他因素:包括了借款人的家属数量(不包括本人在内)。 时间窗口:自变量的观察窗口为过去两年,因变量表现窗口为未来两年。 

(2)变量选择阶段,通过WOE分析方法来确定指标是否符合经济意义,通过相关性分析和IV筛选确定所需变量。 

(3)模型建立阶段使用python中的statsmodels包实现逻辑回归,在各变量通过显著性检验后验证了模型的预测能力,使用在建模开始阶段预留的test数据进行检验。通过ROC曲线和AUC来评估模型的拟合能力,结果显示AUC值为0.85,说明模型的预测效果还是不错的。 

(4)在信用评分阶段将Logistic模型转换为标准评分卡的形式,选取基础分值、 PDO(比率翻倍的分值)和好坏比基本参数,个人总评分为基础分加各部分得分。整合模型及代码,建立自动评分系统,并用滚动数据进行模型迭代。

5、对拼多多业务的理解

拼多多作为平台为商户提供商品的展示、向消费者提供个性化推荐服务,并从中收取商品销售佣金。而“拼购”模式是指:一个顾客发现某商品,发现一起买更便宜,于是找到自己的亲朋好友进行拼单,达到一单购买的人数后拼单成功,拼单的每个用户都可以拼单价购买(通常价格能比原价便宜10%~20%),而如果24小时内没有足够的人数,则拼单失败。由于拼购价格更低,很多时候甚至出现了1元包邮,2元包邮的情况出现;再加上早期微信流量扶持,因此拼多多起步阶段确实达到拼购链接漫天飞的效果。

6、更倾向于业务方向还是技术方向

业务是根本,技术是工具,技术主要为业务服务

基于此,数据分析最需要的能力是:问题拆解能力、业务理解能力、数据敏感性与洞察力,将业务问题抽象为数据问题的能力,将数据信息转换为业务改进方向的能力。 

对于技术,向下需要掌握数据库、数据仓库、SQL等基本知识,向上有各种算法、模型,但只有适合业务的、可理解的方法和模型才是最好的。

7、如何做一个能出圈的业务。如果做出这样一个业务,怎么验证出圈与否?

每个公司都会有自己的主营业务,在业务快速发展多年以后也会进入红海,陷入存量竞争的时代,此刻就应该考虑扩展业务,做一个能出圈的业务。

在设想出圈的业务时应首先思考与主营业务相关的业务有哪些,并从中进行筛选受众面广的业务,并且考虑其中能够与主营业务形成互补的业务,然后选择进行尝试。 

那么如何验证出圈与否呢,不仅可以从获客渠道出发,通过新业务的获客渠道是否突破原有业务的边界。而且可以从客群维度予以区分,出圈的业务面向客群应与主营业务不同,与主营业务能形成互补,拥有大量潜在的客群可扩展。

8、你做的分析报告有问题,业务方不满意怎么办

首先看问题出在什么地方,是双方由于沟通导致数据口径、结果呈现方式、分析方向有问题,还是由于自身在树立框架的时候方向出错,导致没有得到业务方想得到的数据结果和结论的问题。

  • 如果是前者的问题,就需要再和业务方进行详细沟通,将每一个维度、每一个指标的口径和呈现方式都聊清楚;
  • 如果是后者的问题,那么可能需要请教一些比较资深的同事来帮你重新梳理一下需求,重新找到正确的方向

9、如何衡量一个活动的ROI(投资回报率)

解决了什么问题:活动的目标&背景是什么,可以对应到哪些核心指标,可以具体细拆到哪些指标 这个活动有哪些难点,它的受众有哪些特性,流程具体是怎样设计的 ,活动是否可以长期进行 

最终测算的指标需要结合活动的类型以及活动最终的目的来决定:

  • 活动属于拉新下载类型的,需要考虑的是活动带来的新用户数、下载量以及活动的收益成本比,ROI的计算公式是:收益/成本 
  • 活动属于品牌宣传类的,可以看活动页面的浏览量、文章的阅读量、评论数、点赞数和分享数等  
  • 活动属于促销类的,那么gmv就是重要的指标活动属于提升用户粘性的,可能留存率、平均使用时长等都是结果指标

10、你在分析的时候有没有和业务的人沟通?去发现一些问题风险?

与业务进行沟通是数据分析师的必备技能,许多业务现状需要与业务人员确认。同时,在大环境不断变化的情况下,对于不同的业务场景,数据分析师需要不断与业务人员讨论迭代策略方案。真理越辩越明,道理越讲越清,在与业务人员沟通过程中许多现存的风险点就会不自然地暴露出来。这时结合数据和业务的力量就能保证项目持续稳定的向前推进。

11、如何给多多买菜这个业务建立一些指标。

  • 在“用户”层面,需要监控的指标包括“总用户数”、“活跃用户数”、“用户留存率”、“用户付费转化率”等。这些指标能较为明显地反映平台中的用户的参与情况。当这些指标处于一个高位时,说明平台业务做的比较好。
  • 在“产品”层面,需要监控的指标包括“品类覆盖率”、“销量类指标”、“库存类指标”等,重点研究当前的产品(货物)是否有足够的覆盖面和销量,同时不会积压过多额库存(生鲜类产品保存期较短)。 
  • 在“平台”层面,需要监控的指标包括“GMV”、“ROI”、“市场占有率”等,主要是看当前平台的规模如何,投资回报率是否在可以接受的范围(是在烧钱阶段还是已经获得盈利),平台被用户所接触并使用的范围有多大。

相关文章:

  • QTableView复选框居中
  • K8S学习笔记01
  • uniapp+vue3+ts 使用canvas实现安卓端、ios端及微信小程序端二维码生成及下载
  • 线性代数的本质大白话理解
  • 分布式链路追踪理论
  • [ACTF2020 新生赛]Include [ACTF2020 新生赛]Exec
  • Ubuntu深度学习革命:NVIDIA-Docker终极指南与创新实践
  • python练习:求数字的阶乘
  • Ubuntu 20.04 上安装 最新版CMake 3.31.7 的详细步骤
  • Spring Boot定时任务
  • Sui 主网升级至 V1.47.1
  • Spring Boot 3与JDK 8环境下的单元测试实践指南
  • stm32week13
  • 蒋新松:中国机器人之父
  • 三小时快速上手TypeScript之枚举
  • 【知识科普】HTTPS 加密中信息的可见性详解
  • [密码学实战]SDF之设备管理类函数(一)
  • 智能物证管理系统|DW-S404全国广泛应用
  • 关系数据的可视化
  • tanstack动态路由 + router/ 目录管理方案
  • 企业取消“大小周”引热议,半月谈:不能将显性加班变为隐性加班
  • 央视曝光假进口保健品:警惕!保税仓发货不等于真进口
  • 宣称防老年痴呆的“原装进口”保健品McPee被指涉假,未获澳方销售批准
  • 当代视角全新演绎,《风雪夜归人》重归首都剧场
  • 金隅集团:今年拿地将选择核心热门地块,稳健审慎投资
  • 去年立案侦办侵权假冒案件3.7万起,公安部公布13起案例