分类
2020欧洲杯比分表

闽台棒球“云”赛事启动推动疫情下闽台体育交流

中新网福州7月11日电 (彭莉芳 李南轩)闽台延续多年的棒球交流,并未在疫情导致互访困难的背景下戛然而止。一场于11日举办的云上棒球全垒打交流赛,让闽台体育交流踏出今年的第一步。

本该并肩作战的队友只能透过屏幕看到,让在台湾嘉义市稻江科技暨管理学院棒球场投球的黄裕闵感到遗憾,不过第一次参加“云上比赛”,带给他更多的感受还是新奇,分处两地,“仍有和福州队友‘同心力’的感觉”。

近年来,两岸棒球运动交流越来越紧密。台湾地区学生棒球运动联盟秘书长陈德华认为,从2017年的首届“海青杯”两岸青年棒球邀请赛开始,3年来,榕台棒球交流不仅规模持续扩大,互动的层次也越来越丰富;本次闽台连线全垒打大赛的举办,是两岸棒球交流多元化很好的尝试。

经典风控领域全都是以回归模型为主导。原因在于其稳定性好,可解释性非常强。

目前的算法变量越多,计算量越大,信息多了可以做更好的事情,信息多了可以分析各个层面,可能会有更好的结果,所以我们引入特征变量端。

此次赛事冠军组在闽选手杨曜泽,是一名“95后”台湾青年,从去年3月到平潭麒麟小学当棒球教练后,他与大陆棒球运动交流越来越密切。他发现,大陆棒球水平进步很大,尤其现在带小朋友比赛,更能看到水平慢慢提升。

矿工此前也浪费机会,科尔尼延科切入禁区左侧回传,特特12码处射门擦左侧立柱偏出。皇马继续施压,摩德里奇传球,米利唐外围射门稍稍高出。登蒂尼奥直传,特特单刀射门被库尔图瓦出击挡出。克罗斯替换摩德里奇出场。

人群分类的概念听起来非常简单,实际操作相当复杂。最终的结果有明确的评判好坏的标准,一是算法层面,二是参数层面,最终的效果必须汇总到整体后才可以评判。

在特征变量上,我给出两个的维度(主要变量和全量变量),主要变量可以方便我们快速有效地分类。而全量变量可以全面考查各方面的信息。

福州赛场上演梅花桩舞狮,展示中华传统技艺精髓。李南轩 摄

特征少自然最好,我们能判断我们的特征是否是真的重要特征。我有5万个变量、1万个变量,过程中我选出20个变量,这20个变量是不是真正的主要变量?

和上市的公司相比,小微企业的信息透露不够充分,数据来源纷杂,数据格式不标准,数据更新周期不稳定,导致面向中小微企业的信贷产品难度更高。中小微企业信用贷款是一个世界性的难题。

我今天的主题是《小微贷款风险模型中的算法探索》。首先,我想谈谈股市和信贷谁更难这个问题。

但是,在实际的统计分析上并非如此,信息多了可能会带来更多的噪音,当你无法区分噪音和有效数值时,你可能把噪音当做有用的。

人群分类实际操作的第一步,是构造分类。

以《小微贷款风控模型中的算法探索》为主题,黄又钢和嘉宾及与会朋友们分享了自己在风控实践中的一些心得体会。

如果一个人想做机器学习,至少要懂每个算法的原理,这些算法背后的逻辑是什么?其底层数据是怎么回事?

(也即)回归模型说这个人风险低,机器学习说这个人风险高,那我们如何决策?这是我们后端策略上要解决的问题。

本次活动在疫情导致互访困难的情况下,延续了闽台棒球交流的传统,踏出了年度闽台体育交流第一步。李南轩 摄

第80分钟,安东尼奥直传,特特越位位置拿球突入禁区左侧横传马尔洛斯进球被判无效。第92分钟,克罗斯战术角球开至外围,巴尔韦德20码处劲射,皮球稍稍偏转后从特鲁宾手边入网,主裁亲自观看回放后判定威尼修斯越位位置干扰门将,进球无效。

而每个观测值的评分,也是需要具体比较的。如果评分一致,我可以确定这个企业的评分比较准确。但是,如果两个评分出现差异怎么办?如一家企业用传统模型测出720分,用机器学习测出来可能只有600分。

据了解,150个品牌124家企业参加了这届车展,展出汽车1655辆,线上、线下参展车辆规模创历史之最。

人的经验(业务经验)一定有意义,人(的经验)和数据驱动永远是相辅相成的。如果你只靠机器学习做所有决策,不能说绝对不对,但可能走到比较危险的地方。

我们最终谈的是预期模型和预测。在一个方法中可能出了200个子集,在另一个方法中出了40个子集。每一个子集要建模型,重新合起来,直到可以判断总人群到底是好还是不好。

在我国,中小微企业解决了国家80%的就业,这些企业的生存和贷款需求问题是需要持续关心和全力解决的。

股票市场上,每家公司必须有财报,它的格式和框架是一致的。财报的数据是标准的、业绩等信息发布的时间和周期是确定的,我们可以确切的得到股票市场里的许多重要信息。

从人才角度,信贷行业急需人才。

实操“双轨”建模有几大过程:一是预测能力的比较; 二是变量维度的判断;三是对比同一个观测值,如何交叉使用;四是策略应用,即如何使用这个模型。

股市VS信贷,谁更难?

矿工(4-2-3-1):81-特鲁宾;2-多多,77-邦达尔,5-霍乔拉瓦,15-科尔尼延科;8-安东尼奥,27-麦孔;11-马尔洛斯,19-索罗门,14-特特;9-登蒂尼奥

在美国,这样的机会不是很多,各行业封闭得很厉害。能够有平台互相交流,特别是看到有这么多年轻的朋友在这里听,真的很好。

我把这个主要特征应用到后面的人群分类,通过回归模型判断主要特征。

2006年,诺贝尔和平奖给了孟加拉国的经济学家,当时我在花旗银行,听到这个故事非常感动。经济学家真正去底层考察和生活,把27美元借给40多人,每人几毛钱、几美分地贷,这很难得。

马塞洛脚后跟妙传,阿森西奥禁区左侧小角度射门被特鲁宾用腿挡出。矿工第14分钟错失良机,麦孔送出直传,马尔洛斯禁区右侧12码处单刀低射被库尔图瓦神勇扑出。矿工第28分钟取得领先,科尔尼延科左路晃过米利唐后突破传球,无人防守的特特15码处射入左下角。

它列出的算法比较规范、有条理性。深度学习、集成算法、神经网络、正则化算法、规则算法、回归算法、贝叶斯算法、决策树算法、降维算法、实例算法、聚类算法,这些算法十几年前就有了,有些仍在不断更新。

而在信用贷款行业中,我们需要关注它的四个维度:

这四个方法,上面有一个LR模型,这是主模型,合到最后是5个模型。这5个模型之间的KS预测值谁好谁坏,可以判断最终的效果。

综上所述,每一个评分的好坏,可以通过三个层面的比较:模型层面、变量层面、观测者层面。

人群分类是建模中十分重要的环节。如图示,这里有多个子人群。如果我能把人群打开,按照其实际状态,分为红、绿、黄等图中标注的群体,在每一个人群上做独立的测试,可能会做出更好的预测。

如何使用这两个模型?我们可以将数据集分为两类(路径):一类是传统模型,另一类是机器学习模型。

一般来讲我们建回归模型,在处理变量时,我们做了数据本身的转换,可以在变量维度上做聚类分析,控制变量维度。假定回归有20个变量,回归模型一般就(代表)有20个维度。

有了模型层面的比较后,(谈)模型一定会牵扯具体的特征值或者变量。

股票市场比较容易吸引人眼球,高大上的人都选择去那儿。不光是中国,美国更是如此,华尔街吸引了全球最高端的人才。

马塞洛直传禁区内,约维奇撞射缺乏力量被特鲁宾没收。矿工第33分钟扩大优势,多多传球,特特切入禁区右侧劲射被库尔图瓦勉强扑出,瓦拉内小禁区前抢在登蒂尼奥之前却不慎捅入自家大门。第42分钟,特特吸引马塞洛防守后脚后跟传球,跟进的索罗门15码处射入左下角,3-0。

不管分成多少个子集,我们最终要回归到总人群上比较,才能证明哪个方法好还是不好。

 一是风险程度,我要判断你这个人是否靠谱;二是给你放贷,我给你多少利息,价格是高是低;三是我给你多少钱,借你1000元、1万元还是300万元;四是期限,我是按天、按月计算还是按年计算?

皇马上次欧冠上半场丢掉3球还是2005年对阵里昂,欧冠主场半场丢掉3球还是2000年对阵拜仁慕尼黑。

以下为黄又钢演讲全文,雷锋网AI金融评论做了不改变原意的整理:

福建省社会体育指导中心主任陈三平接受记者采访时表示,受疫情影响,今年上半年福建省开展多项“云上运动会”,对两岸体育交流、福建棒球发展都有积极意义。

本泽马下半场替换罗德里戈出场。瓦拉内传球,阿森西奥远射被扑出。皇马5分钟连扳2球,第54分钟,马塞洛传球,摩德里奇内切至30码处射入右上角,1-3。第59分钟,刚刚替补出场仅15秒的威尼修斯从背后抢断马尔洛斯后突破至14码处射入左下角,2-3。

由于传统模型回归算法的局限性,它是线性(关系)的,维度一般在10~30个变量。而机器学习在准确性等方面比传统模型要好;

假如我们用(统计)变量(做评估),不管(使用)哪个统计变量一定有好坏的比较。机器学习好或者不好的比较,首先是评测模型的层面。

在1000个、10000个变量里如何选择20个你认为关键的,这是我们算法上要解决的问题。

11日赛后接受记者线上采访时,黄裕闵还表示,他期待着疫情过后能再次和福州朋友相聚欢。

在现场,黄又钢主要介绍了集成算法,降维算法、聚类算法和决策树算法。他指出,现在弘犀智能建任何模型一定是“双轨模型”, 即两个算法同时进行。

在做了决策树等4个方法后,怎么知道哪个人群分类的方法就是好的呢?

当时花旗银行没有小微贷款,也没有普惠的概念。我直接找到我老板,我问他看和平奖了吗?他说看了。我问他花旗银行怎么没有普惠性的东西?他耸了耸肩,没搭理我。我问我们能否做这样的事情,他回答我“做好你的工作就行了,别管那么多闲事”。

机器学习是AI的分支,现在机器学习有非常成熟的算法。我很喜欢这个图片,虽然这张并不是最新的图片。

活动主办方福建省社会体育指导中心介绍,此次网络连线比赛的灵感,源自职业棒球明星赛中全垒打大赛轮流上场打击的比赛模式,遴选出在闽、在台青年选手各9名,让闽台选手“1+1”联合共组成9个参赛组进行对决,每组选手在两个赛场轮流上场进行打击,各计时3分钟,以每组全垒打总数计分。

聚类算法,是以每个观测点(如企业)的相似性为基础,将相似的企业分为一类。“相似性”是由统计学上的距离来决定的。从机器学习角度分为有监督学习和无监督学习。有监督,指的是知道Y是什么,在有Y标签的前提下进行训练。无监督,指的是不知道Y,只知道X变量。决策树算法是有监督算法的一种,而聚类算法是无监督算法的一种。

华尔街知名建模和风控专家黄又钢参加了此次会议,他曾任摩根大通执行董事和花旗银行高级副总裁,拥有数十年的海外零售银行数据分析经验和前沿算法思维,今年回国与金融界顶尖技术大牛王强博士联合创立了弘犀智能科技有限公司,出任首席风控官。

这两种算法都非常有用。

这是人群分类的基本点。任何人群可能会存在不同的子人群中。每个子人群可能会有其独立的特征和趋势。问题是我们能否找到这样的趋势和特征。

本次赛事由福建省社会体育指导中心、福州市体育局、福建省棒垒球协会主办,致公党福建省委青年工作委员会、仓山区人民政府台港澳事务办公室、福州文体产业开发运营有限公司、台湾稻江科技暨管理学院协办,福州市棒垒球协会承办。(完)

前面谈到如何分类人群,最后我们讲一讲算法的探索。

全垒打大赛是职业棒球明星赛中最引人注目的比赛环节,而其轮流上场打击的比赛模式,为网络连线比赛提供了可能性。李南轩 摄

虽然机器学习的变量很多,但是我们至少可以判断维度上是不是有问题。

在中国,我们不仅玩,还有机会可以使用。至少从法规层面,我们还没有严格要求拒绝一个贷款必须跟企业或者客户解释理由。

它用哪些变量,在变量的层面上我们也进行比较。真正实际应用的是特征(变量),关键特征特别是关键维度覆盖性怎么样?传统模型覆盖了多少?10个维度还是20个维度?机器学习的维度到底是多少?都是我们需要考虑的。

但是,如果有人选择信用贷款,特别是到小微贷款这个行业,给大家的感觉像是无奈之举。

如何应用算法?我们现在做任何模型一定是两个算法同时进行,既要做传统模型回归算法,也要做机器学习算法。传统模型主要指的是回归算法(LR),取决于应用场景。机器学习模型,我们主要指的是XGB,集成随机树的算法。

决策树要对着2000个变量找树,统计上可以做限制。每一层分多少?叶子最多是多少?分多少层?有2000个变量足够你找几百棵树,在几百棵树下,至少有几百个子集。

变量越多,算力肯定很沉重,如果我们涉及几千万人,算法用到几百棵树的时候,我们算力的时间不是按小时、分钟,可能是按天计算。

在股票市场,我们要关注两件事:价格和数量。什么价格买?高价买,还是低价买?买多少数量?1千股还是1万股?

建完模型一定要有预测能力,假如用KS表述模型的准确率,你可以通过ROC、AUC等统计控制。

从数据层面,信贷比股票市场更难,信贷行业更需要标准和规范和确切的数据。

记者了解到,展会通过“主会场+分会场+线上展厅”的创新模式,实现线上、线下同步互动展示。无人驾驶、智能5G、AI、VR等最新前沿汽车技术带给观众沉浸式交互体验。

我们从模型数据中判断,最上面的分支我们不做任何人群分类,全体人群做回归模型。出来的20个变量、30个变量,我们暂时判定经过一个算法(如LR),这20个变量是主要的变量、主要的特征。

而前提条件是我们能否把人群分开,每个人(建模师)的经验不同所以做到的程度不同。

Cluster(聚类算法),及在特征变量上两个维度,那麽我们一起构成4个人群分类的方法。决策树用关键(主要)变量(ST2),SK1用聚类算法用全量变量。说是4个方法 (4个圈), 可是每个圈可以是非常复杂的东西。

在此之后做人群分类,不管任何时候,数据驱动一定是我们的方法之一。

当日,“同心力云逐梦”2020闽台棒球交流线上活动于福州市海峡奥林匹克体育中心和嘉义市稻江科技暨管理学院棒球场举办。

在大会第三日的「AI金融专场」中,《AI金融评论》邀请了6位最具代表性的顶尖AI金融专家,分享能够代表未来10年风向的智能技术方法论、产品逻辑和风险管理理念;也在2020这个特别的时间节点上,展望他们眼中的「AI金融新十年」。

假定用决策树,如果特征有2000个变量,这个树可以长到几百个,非常容易。

福建省棒垒球协会常务副会长任智云表示,通过直播连线的方式,在福州和嘉义两地,创造性地实现了闽台青年选手“云联手、云竞技”;3个小时的直播时间里,赛事开播累计观看量达到50万。

在变量层面,总体来说机器学习完全没有概念和业务场景的限制,可以按照数据结构往下走,使用的变量相对较多。比如XGboost有一两百个变量是常态,三五百个变量也是常态。

我今天主要介绍集成算法、降维算法、聚类算法和决策树算法。每个算法都有实实在在的应用和意义,不是为了算法而算法。

你用聚类也可以做很多的聚类人群。

从算法层面,我用两类算法,监督和无监督。

决策树算法和聚类算法是人群分类中常用的两个算法。决策树算法,是用树的方法把底下人群分为几个叶子,每个叶子为一个子人群。

美国的银行在为富人服务,他们并不关心底下的中小企业。而在中国,国家真的会把钱倾斜到中小企业身上。

此外,黄又钢还解释了实操“双轨”建模中的几大过程,详细讲述了人群分类在建模中的重要性,分享了算法探索与创新方面的两个思路。

黄又钢认为,中小微企业解决了国家80%的就业,这些企业的生存和贷款需求问题是需要关心和全力解决。但和上市的公司相比,这类企业信息透露不够充分,数据来源纷杂,数据格式不标准,数据更新周期不稳定,导致面向中小微企业的信贷产品难度更高。中小微企业信用贷款是一个世界性的难题,除了有国家层面的政策扶助,更需要顶尖人才的智慧和付出。

陈三平透露,下一步将根据疫情发展情况,继续推出运动项目促进闽台交流。

第二步是比较评估,我们用两个算法,决策树和

而且,两者都是在处理非常复杂的问题,股票市场需要需要考虑几千家上市公司和几千万散户的博弈,而小微贷款也需要考虑到几千万家企业。

如何判断一家企业的信用、以什么样的利率贷款给企业、如何贷款后收到还款,这些都是非常复杂的问题,需要人才,尤其是顶尖人才去分析。

首先,感谢雷锋网提供这样的平台。

我们比较两个模型时,在变量维度之间要做一个比较。

在美国,机器学习在任何信贷场景都不能落地,也不能使用,原因在于我们无法解释底层拒绝贷款申请的原因是什么。由于不能解释,在美国的法规下就不能应用。所以机器学习只能在底层,我们分析团队、模型团队可以高大上地玩,但只能玩而已,真正实战一律不许用。

如果一个决策树分为300个人群,那麽就会有300个模型,再加上总量的一个模型,就是301个模型。任何一个方法底层意味着几百个模型。