印尼菜

更新时间:2023-03-06 08:43:12 阅读: 评论:0

怎么注册id-读物推荐

印尼菜
2023年3月6日发(作者:8月旅游)

S 嚣

持卡人餐饮标签的设计和实现

刘为怀才华

(中国银联电子支付研究院 上海 201201)

摘要针对银联餐饮商户无法进行菜系划分的问题,引入外部餐饮数据,首先利用结巴分词对外部餐饮数据进行分

词,然后对分词后的外部餐饮数据进行清洗,形成餐饮商户不同菜系的划分标准,补充了银联餐饮商户的菜系划分数据,

以餐饮商户不同菜系的划分数据为基础,与银联持卡人日常餐饮消费数据相结合,形成含有菜系划分的持卡人餐饮标签基

础数据,以持卡人餐饮标签基础数据作为源数据,设计持卡人餐饮标签,实现每个持卡人打上不同的餐饮标签。

关键词餐饮标签,菜系,分词,青睐口味

中图分类号:TP3 文献标识码:A

doi:1 0.3969/j.issn.1 674—7933.201 5.05.001

A Design and Implementation for Cardholder Restaurant Label

LlU Weihuai CAl Hua

(Research Institute of Electronic Payment,China UnionPay,Shanghai 201 201,China)

Abstract For resolving the problem that UnionPay restaurant merchants cannot be divided into detail

cuisine,this paper import external restaurant data which will be segmented and cleaned,and then key words

of every cuisine are built.UnionPay restaurant merchants are enriched by key words of cuisine,UnionPay daily

transaction data combine enriched UnionPay restaurant merchants data,cardholder restaurant labels are formed.

KeyWords Restaurant Label,Cuisine,Segmentation,Favor taste

0引言 1标签设计

跨行业数据整合与利用是大数据领域的重要方向,

不同来源数据的联动能产生化学反应,带来挖掘结果丰

富度与质量的极大提升。

银联拥有全量的交易数据,详细记录了持卡人的

消费行为,为了丰富持卡人画像,根据持卡人日常消

费行为,对持卡人进行打标签。我们选择衣食住行中

的食——餐饮进行研究,以2014年上海市持卡人消费

数据作为研究对象,分析上海市持卡人在餐饮行业的

消费情况。

作者简介:刘为怀,男,1981年生,硕士,助理经理,主要从事及

研究领域:大数据平台数据挖掘及数据聚合的研究,

Email:liuweihuai@unionpay.corn;

才华,硕士,工程师。

进行持卡人餐饮标签研究过程中,首先需要对商户

进行划分,银联数据只能识别商户是否为餐饮类,而无

法细化到商户到底是中餐馆还是西餐馆等详细信息。因

此,我们需要借助外部数据,补充银联商户信息,并与

银联交易数据相结合,形成持卡人餐饮标签基础数据,

在此基础上,对持卡人餐饮具体标签进行细化分析。

在寻找外部数据过程中,我们发现百度地图的餐饮

数据不仅包含了详细的菜系分类,而且还开放了易于调用

的API接口,经过比较,选择百度地图的餐饮数据作为外

部数据,补充银联数据,进行持卡人餐饮标签研究。

银联交易数据与百度地图餐饮数据相结合,对持卡

人就餐行为进行分析和挖掘,得出六个餐饮标签:菜系

分布、爱吃菜系、青睐口味、就餐人群、就餐档次、就

餐时间。

1.1菜系分布

参考百度地图餐饮…、大众点评【2]、百度百科【3]上关

于菜系的定义及分类,将菜系分为6大类,51小类,具体

分类如下:

1)中餐馆:鲁菜,川I菜,粤菜,闽菜,苏菜,浙

菜,湘菜,徽菜,本帮菜,赣菜,鄂菜,晋菜,桂菜,

北京菜,豫菜,黔菜,滇菜,西北菜,台湾菜,清真

菜,客家菜,火锅,自助餐,东北菜,江浙菜,烧烤,

海鲜,小吃;

2)西餐厅:披萨,牛排,意大利菜,法国菜,德国

菜,俄罗斯菜,拉美烧烤,中东料理;

3)料理:日本料理,韩国料理,日式烧烤,寿司,

日式自助;

4)东南亚菜:泰国菜,越南菜,印度菜,菲律宾

菜,印尼菜;

5)快餐:中式快餐,西式快餐;

6)甜点冷饮:面包西点,冰淇淋,甜点饮品。

对持卡人在51种不同菜系的消费金额、消费次数进

行统计,计算出持卡人菜系分布数据。

1.2爱吃菜系

以持卡人菜系分布为源数据,对每一个持卡人在不

同菜系的消费次数和消费金额进行比较,优先比较消费

次数,次数相同则比较消费金额,找出持卡人消费次数

或金额最多的菜系,即是持卡人爱吃菜系。

1.3青睐口味

就餐口味分为酸、甜、咸、辣、海鲜、淡六种,以

51种菜系为基础,进行口味分类,具体分类结果如下:

1)酸:晋菜,桂菜,黔菜,滇菜;

2)甜:苏菜,本帮菜,面包西点,冰淇淋,甜点饮

品:

3)咸:鲁菜,晋菜,客家菜,东北菜;

4)辣:川菜,湘菜,桂菜,黔菜,滇菜,火锅,

烧烤,拉美烧烤;

5)海鲜:闽菜,浙菜,台湾菜,海鲜,It本料理,

寿司,H式自助;

6)淡:料理,闽菜,浙菜,苏菜,本帮菜,台湾菜,江

浙菜,El本料理,韩国料理,寿司,日式自助。

考虑到持卡人如果喜欢一个口味,就会经常去消

费,因此,应该优先以消费次数而不是消费金额作为衡

量持卡人青睐口味的标准。

对于每一个持卡人,每一次餐饮消费的菜系进行口

味划分,不同口味的消费次数进行累加,计算出持卡人

不同口味消费次数,找出消费次数最多的口味作为持卡

人青睐口味。

1.4就餐人群

就餐人群分为爱吃中餐、爱吃西餐、爱吃料理、爱

吃东南亚菜、工作餐、爱吃零食六种,以51个菜系为基

础,进行就餐人群划分,具体分类结果如下:

1)爱吃中餐:鲁菜,川菜,粤菜,闽菜,苏菜,浙

菜,湘菜,徽菜,本帮菜,赣菜,鄂菜,晋菜,桂菜,

北京菜,豫菜,黔菜,滇菜,西北菜,台湾菜,清真

菜,客家菜,火锅,自助餐,东北菜,江浙菜;

2)爱吃西餐:披萨,牛排,意大利菜,法国菜,德

国菜,俄罗斯菜,拉美烧烤,中东料理;

3)爱吃料理:日本料理,韩国料理,日式烧烤,寿

司,El式自助;

4)爱吃东南亚菜:东南亚菜,泰国菜,越南菜,印

度菜,菲律宾菜,印尼菜;

5)工作餐:中式快餐,西式快餐;

6)爱吃零食:小吃,冰淇淋,甜点饮品。

与口味类似,持卡人如果喜欢吃西餐或料理,就会

经常去消费,因此,应该优先以消费次数而不是消费金

额作为评定持卡人属于哪一个就餐人群。

对于每一个持卡人,每一次消费的菜系进行就餐人

群划分,不同就餐人群的消费次数进行累加,计算出持

卡人在不同就餐人群的消费次数,找出消费次数最多的

人群作为持卡人所属就餐人群。

1.5就餐档次

大众点评网餐饮人均消费分为五个档次,根据每次

就餐2 ̄3人规模,计算出五个就餐档次,具体如下:

11 Level1:<1O0

2)Level2:【100,160)

3)Level3:【160,240)

4)Level4:【240,400)

5)Level5:>=400

对于每一个持卡人,统计一年内在餐饮上的消费金

额、消费次数,次均消费金额等于消费金额除以消费次

数。如果消费次数小于2,则就餐档次为1挡;如果消费

次数大于等于2,则找出次均消费金额属于五个档次中的

哪一挡,既是持卡人就餐档次。

1.6就餐时间

我们从两个方面对就餐时间进行划分,一是按照

是否工作时间就餐进行划分,二是按照早中晚餐进行划

分,具体如表1。

表1就餐时间定义表

就餐时间 定义

T作时间就餐 工作日【8:00,18:00】

非工作时间就餐 工作日(18:00,8:00),节假日、周末全天

早餐 (5:30,10:30】

午餐 (1o.3, 】

0 16:00

晚餐 (16:00,22:00】

夜宵 (22:00,5:30】

对于每一个持卡人,每一次餐饮消费时间进行就餐

时间划分,对消费金额和消费次数进行累加,得出持卡

人在不同就餐时间的消费金额和消费次数分布。

根据持卡人就餐时间分布,优先以消费次数而不是

消费金额,找出持卡人最爱外出就餐时间。

2标签实现

银联数据只能识别商户是否为餐饮类,而无法细化

到商户到底是中餐馆还是西餐馆等详细的菜系划分。因

此,我们需要借助外部数据,补充银联商户信息,并与

银联交易数据相结合,形成持卡人餐饮标签基础数据,

在此基础上,对持卡人餐饮具体标签进行细化分析,如

图1所示。

2.1外部数据

百度地图的餐饮数据不能直接与银联数据相结合,

需要经过分类、下载、提取、分词、清洗等预处理过

程,才能为我们所使用,具体处理流程如图1所示。

百度地图Place API是一套免费使用的API接El[4],调

用次数限制为10万次,天。ak是API请求串的必填参数,请

先获取密钥,若无百度账号则首先需要注册百度账号。

以下是一个关于Place API的简单示例,设置检索城

市为上海,检索关键字为“火锅”,检索后返回20条符

合条件的json格式的POI数据。

http://api.map.baidu.com/place/v2/search?q=火

锅&region= ̄海&0utput=json&pagenum=0&page

size=20&scoDe

=2&ak=L5zwYVyvhzw5MkHbkuqmlzDi

从百度地图下载不同菜系的餐饮数据

提取不同菜系的餐馆名称

』』

对餐馆名称进行分词

』』

对分词后的关键词进行清洗

图1百度地图餐饮数据预处理流程

组成说明:

1)域名:api.map.baidu.com

2)服务名:place

3)服务版本号:较之前版本,v2版本新增参数。

4)Place方法名: ̄llsearch表示区域POI查询,q表

示检索关键字,region表示检索城市,output表示输出格

式为jason,page—num表示分页页码,page—size表示

每页返回记录数量,scope表示检索结果详细程度,ak表

示用户的访问密钥。

根据上述Place API接EI,使用java编写了一个http

请求程序,不同菜系中文名称作为关键字进行检索,返

回jason格式的餐馆详细信息,主要包括餐馆名称、经

纬度、具体地址、联系电话、菜系分类、客户评价信息

等,返回的jason数据以文件的形式保存到本地。

从百度地图获取的餐饮数据包含了很多信息,但我

们只需要其中的餐馆名称。通过字符串拆分、截断等技

术提取含有餐馆名称的字段,存放在菜系文件中。

使用Python语言编写一个分词脚本,引入结巴中

文分词模块【5】,所有51个菜系的餐馆名称文件,逐一遍

历,对餐馆名称进行分词,分词后的关键词,存放在对

应菜系的分词文件中。

分词后的关键词,我们发现有很多无用符号,如

…‘

………

~”“+…‘

.…‘\\…‘、n”“?…‘・”“⑨”“!”

等,一些通用词语,如“精品”“批发”“烟草”“有限

公司”“特色”“公司…‘食品…‘超市…‘各类”“餐

饮”“食”等,以及道路、街道、地区、小区、学校、商场等

名称。上述关键词在各个菜系的分词文件中均有出现,导

致不同菜系的关键词区分度下降,因此,需要对分词后的

所有菜系的关键词进行清洗。

清洗工作分两个部分进行,首先建立一个过滤数

疆嬲

业 期 产 一

组,将无用符号、通用词语、道路、街道、地区、小

区、学校、商场等名称放入过滤数组,然后对所有菜系

的分词文件进行遍历,将分词文件中含有过滤数组的关

键词进行剔除,并剔除包含“店”“路”“银行”“医

院”“大学”以及长度为1的关键词。过滤后的关键词,

存入对应菜系的关键词文件中。

2.2基础数据

百度地图餐饮数据经过分类、下载、提取、分词、

清洗等数据预处理后,与银联交易数据相结合,丰富了

银联餐饮信息。

首先,从银联交易数据中获取餐饮行业商户列表,

根据商户名称,利用百度地图不同菜系的关键词数据,

对银联餐饮商户进行菜系划分,然后持卡人餐饮消费记

录与增加了菜系划分的银联餐饮商户进行合并,形成持

卡人餐饮标签基础数据,具体流程如图2所示。

J银联交易数据I

百度地图不同菜系关键词数据 银联餐饮商户表 \ /

持卡人餐饮消费记录 银联餐饮商户菜系划分 \ /

持卡人餐饮标签基础数据

图2持卡人餐饮标签基础数据流程图

以上海地区2014年银联交易数据为样本,提取餐饮

商户信息,包括商户号、商户名称,形成银联餐饮商户

表,经统计,共有银联餐饮商户31 308家。通过百度地

图餐饮数据覆盖的银联餐饮商户有14962家,商户覆盖

率47.8%。抽取1 00个经过菜系划分的银联餐饮商户进行

分析,经过手工验证,商户的菜系划分准确率68%。

上海餐饮消费总卡数为15 947 927个,百度地图

餐饮数据覆盖的银联上海就餐持卡人个数为1 3 393 809

个,持卡人覆盖率84.0%。

2.3标签实现

以持卡人餐饮标签基础数据作为源数据,实现持

卡人六个餐饮标签设计,并对部分餐饮标签数据进行统

计,统计结果如下:

以持卡人青睐口味表为源数据,对上海地区201 4年

持卡人青睐口味进行统计,具体结果如表2所示。

表2青睐口味统计表

青睐口睐 人数 占比

酸 4 641 304 3517%

甜 2111113 16.00%

成 149991 1 14%

辣 2 702865 20.48%

海鲜 1 933120 14 65%

淡 ’656 670 12.56%

以持卡人就餐人群表为基础,对上海地区2014年六

个就餐人群进行统计,具体结果如表3所示。

表3就餐人群统计表

就餐人群 人数 占比

爱吃中餐 7 380130 55.93%

爱吃西餐 1 832 799 13.89%

爱吃料理 1 020 576 7 73%

爱吃东南亚菜 248 498 1.88%

工作餐 1 849405 14 O2%

爱吃零食 863 655 6.55%

持卡人就餐档次表为基础,对上海地区2014年五个

就餐档次进行统计,具体结果如表4所示。

表4就餐档次统计表

就餐档次 人数 占比 金额范围(元)

Level1 8 572 835 53.8% <1O0

LeveI2 1 322 373 8.3% 【1O0。160)

Level3 1 812 352 11 4% 【160,240)

Level4 1 901 204 11.9% 【240.400)

Level5 2 339163 14 7% >=400

此外,我们统计了2014年餐饮消费次数大于等于12

次,就餐等级为level5的持卡人数,结果为354 380人,

占全部就餐人群2.22%,可以看出,平均每个月都外出

就餐,次均消费金额大于400元的就餐人群非常之少。

以持卡人就餐时间表为基础,对上海地区201 4年最

爱外出就餐时间进行统计,具体结果如表5所示。

表5最爱外出就餐时间表

最爱外出就餐时间 人数 占比

工作时间 3435 251 21 54%

非工作时间 12 512 676 78.4Ej%

早餐 156 615 0 98%

午餐 5 791 622 36.32%

晚餐 9476 927 59 42%

夜宵 522 763 3.28%

(下转第46页)

S 荛

3.2增值测试

对电子病历系统的性能、服务器资源及可靠性测试

把用户需求作为出发点。

1)性能测试中,选择具有代表性的和使用频繁的业

务功能或使用核心(特殊)技术的功能作为性能采样点

进行测试,确定系统在不同负载量下的性能表现及系统

所能承受的最大负载量。

2)项目组将对电子病历系统的HlS、LlS、RIS、

PACS等系统的应用服务器、数据库服务器的资源使用

情况进行监测,考察在执行性能测试期间资源消耗是否

会到达临界值,是否会异常波动。

3)稳定性测试在单点性能测试基础上进行,测试过

程中,将对选择的不同业务采样点进行混合负载测试,各

业务采样点按一定配比数进行混合,采用10个,10秒递增

策略,达到并发量峰值后稳定运行24小时,运行时使用

脚本中录制时自动产生的思考时间。同时类似性能测试

过程记录相关的信息。对容灾备份和故障恢复测试,通过

手工检查验证的方式进行,并实时记录测试结果。

由于增值测试,医院用户暂时无特殊需求,故此处

不做详细论述。

4结束语

本文针对目前医院电子病历系统分级测试提出了初

步测试框架和测试实施法,由于电子病历是医疗行业专

业性极强的、崭新类型的信息系统,分级的评估和测试

仍需继续探索研究。随着信息化的发展,测试框架和方

法会将进一步扩充和完善,为医疗信息化建设和发展做

出贡献。

参考文献

[1]中华人民共和国卫生部.医政发[2010]114号电子病历

系统功能规范(试行)【S】.

【2】中华人民共和国卫生部办公厅.电子病历系统功能应用水

平分级评价方法及标准(试行)【S】.2011.10.

[3】3王羽.电子病历系统功能规范与分级评价标准解读【M】.北

京:人民军医出版社,2012—5.

[41上海市卫生局.上海市电子病历应用功能规范实施细则

(试行)fS】.2011-10.

[5】中华人民共和国卫生部信息化工作领导小组办公室.医院

信息系统基本功能规范【S1.2002.2.

(上接第22页)

3结论

持卡人餐饮标签有三个创新点,具体如下:

一是引入百度地图餐饮数据,收集不同菜系的餐馆

名称,对餐馆名进行分词、清洗,分词形成的关键词组

作为不同菜系的划分标准。

二是利用百度菜系的关键词组,判断银联餐饮商户

所属菜系,形成银联餐饮商户的菜系标签。

三是根据不同菜系的口味特点,总结出酸、甜、

辣、成、海鲜、淡六种口味,根据持卡人日常就餐消费

情况,计算出持卡人的青睐口味。

参考文献

[1】百度地图.菜系分类.http://map.baidu.com.

[2]大众点评.菜系分类.http:Hwww.dianping.com.

【3】百度百科.中国菜系.

http://baike.baidu.com/link?url=kebqqDG7Aib4Bm0Go

SfRxSZluliirPN6R4jB7QGceL-0一UNfvqGwtbf-nhsPYy—

ueJILwmXgTfuJAh5Sx3faka.

[4】百度.Place API开发指南.

http:/ydevel0per.baidu.corn/map/index.php?title=webapi/

guide/webservice—placeapi.

【51 GitHub.结巴中文分词.

http://www.iteye.com/news/261 84-jieba.

本文发布于:2023-03-06 08:43:11,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/zuowen/1678063392155588.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:印尼菜.doc

本文 PDF 下载地址:印尼菜.pdf

上一篇:印尼美食
下一篇:返回列表
标签:印尼菜
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 站长QQ:55-9-10-26 专利检索|