产品博客中心

  • 【人工智能机器学习的算法模型的应用实践】

     1956年,美国达特茅斯大学会议标志着人工智能研究的正式诞生,推动了了全球第一次人工智能浪潮。但这一次人工智能的春天只持续了20年,原因是当时过于重视算法和方法论,而导致了人工智能在处理问题范围的局限性。


      如今,人工智能研究的发展已经历了近六十年的沉浮,从硬件的计算能力、到深度学习算法、计算机视觉技术和自然语言处理等各领域都有了本质上的飞跃,人工智能已经从一个学术层面上的探索发展成一种可推动产业结构变革的新兴生产方式。


    人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。


      人工智能在各个行业展开了大范围应用探索,并取得了不少突出进展。目前,人脸识别在各地警方监控、火车机场进出站甚至高校课堂都得到了应用;不少医院也开展了图像辅助诊断尝试;众多多法院引入了AI庭审语音转录系统;无人驾驶汽车大规模路测;国家科技部也公布依托国家新一代人工智能开放创新平台,大力推进面向行业应用领域的技术。人工智能的应用,离不开传统的机器学习算法,传统的机器学习算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。


    决策树


      根据一些 feature(特征) 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。


    Apr 3, 2019
  • 【MYSQL/Oracles数据通过SKL实时和批量同步到hive数据仓库】

    背景


    在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后导入到Hive中,是进行数据仓库生产的重要环节。


    如何准确、高效地把MySQL数据同步到Hive中?一般常用的解决方案是批量取数并Load:直连MySQL去Select表中的数据,然后存到本地文件作为中间存储,最后把文件Load到Hive表中。这种方案的优点是实现简单,但是随着业务的发展,缺点也逐渐暴露出来:


    l 性能瓶颈:随着业务规模的增长,Select From MySQL -> Save to Localfile -> Load to Hive这种数据流花费的时间越来越长,无法满足下游数仓生产的时间要求。


    l 直接从MySQL中Select大量数据,对MySQL的影响非常大,容易造成慢查询,影响业务线上的正常服务。


    l 由于Hive本身的语法不支持更新、删除等SQL原语,对于MySQL中发生Update/Delete的数据无法很好地进行支持。


    为解决这一问题,东方金信开发了海盒数据接入与治理系统(SKL),用户可以用海盒数据接入与治理系统(SKL)直接从传统结构型数据库(oracle/mysql)中获取数据,并存入Hive中。


    SKL定位于企业级的数据湖管理平台(Data Lake Platform),它是基于Spark和NiFi的开源数据湖编排框架,


    解决对数据湖获取、治理、感知和技术支持等诸多问题。SKL 将数据湖的很多功能自动化,包括数据接入、准备、分析发现、Profiling 和管理等等。SKL 提供了符合业务分析人员思路的 GUI 界面以及 IT 运营和数据科学等模块。


    通过 SKL 的 GUI 界面,业务人员可以按照他们关心的方式来操作数据,包括: 创建数 据源、定义数据加载、数据预处理、转换,发布到目标系统。因为不需要部署任何代码,也不需要依赖 IT 部门,业务人员做到了对项目的完全掌控,从而极大的减少了类似项目所需的时间。对于有技术能力的数据科学家、数据管家及 IT 运营人员来说,SKL 提供包括元数据管理、合适的数据加载及类似 Goolgle 的检索能力,可以为业务分析人员赋予不同的权限、提供随时可用的模板,帮助他们使用、监控并提升数据湖的服务 SLA。SKL的意义不止于此,因为它让技术人员和业务人员都能够操作大数据,填平了大数据技术与大数据使用之间的鸿沟。 业务人员可以更快的获得数据洞察,IT 人员则可以专注在工程及数据架构问题,而不是编写代码。


    SKL的自有服务和依赖服务可以分开部署,也可以部署在一台服务器上。SKL既支持单机模式也可以集群方式。组网结构如下所示:


    Jan 15, 2019
  • 【人工智能的产品解决方案】

    随着科学的进步,一个新的概念走进了人们的视野 — 人工智能。人工智能是在计算科学、控制论、信息论、心理学、语言学等多种学科相互渗透的基础上发展起来的一门新型边缘学科。此技术是以人工的方法,对人类的行动和思维进行模仿,同时在人工智能的基础上进行拓展应用。


    当前互联网、大数据、人工智能等新一代信息技术的蓬勃发展,标志着信息化发展进入新阶段。人工智能应用面比较广泛,可代替人类进行各个方面的工作,在我们的日常生活学习中有许多应用,可以说大大提高了人类在日常生活工作中的效率。东方金信趁势而上,在图像处理、人脸识别、语音识别、文本分类、视频理解等方面进行研究,为用户提供以完整的数据驱动、快速迭代、持续优化为特点的技术支持。


    Nov 16, 2018
  • 【人工智能技术及其应用】

    人工智能(Artificial Intelligence),英文缩写为AI,是一门研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。


    人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。


    AI在各个行业展开了大范围应用探索,并取得了不少突出进展。目前,人脸识别在各地警方监控、火车机场进出站甚至高校课堂都得到了应用;不少医院也开展了图像辅助诊断尝试;众多多法院引入了AI庭审语音转录系统;无人驾驶汽车大规模路测;国家科技部也公布依托国家新一代人工智能开放创新平台,大力推进面向行业应用领域的技术。


    随着人工智能的不断发展,目前人工智能呈现在各行业全面渗透,但真正人工智能在行业的应用,已经发展了很多年,甚至最早可追溯到2000年左右,并在持续开展智能客服在行业的应用。到12年左右,伴随着深度学习的突破,人工智能创业显著加速,众多企业开始在金融、安防等领域进行探索。


    Oct 26, 2018
  • 【公众趋势分析】

    公众趋势分析(Public Opinion Analysis)是一种基于引擎搜索和自然语言处理能力,为用户提供全面、快速、准确的全网公开数据分析服务,帮助用户解决舆情分析、品牌监测、竞品分析、数据营销等问题的一种技术。


    随着公众趋势分析技术的日渐成熟,越来越多的场合开始使用这个技术,主要的应用场景有:


    政府机关:帮助政府了解网民心声,广开言路,在政策实施及热点爆发中,真实了解群众诉求。做到以人民群众根本利益为基准,全心全意为人民服务,不断的提升自身的服务质量和群众满意率。


    传媒:通过互联网信息采集和大数据分析技术,提供全面、快速、便捷的新闻线索和互联网热点的挖掘和协作选题决策机制,革新媒体行业采编发流程,帮助媒体人掌握其他媒体及网民观点,为选题决策提供支撑,为您提供全方位的选题洞察能力。


    金融:通过互联网信息采集和大数据分析技术,量化标的物投资价值,审视舆论风险和网民态度,减少投资决策风险,提升企业盈利和风控水平。


    旅游:倾听游客声音,通过大数据分析,了解游客的出行、景点类型、餐饮、服务等相关需求,并获得用户关于景点的各方面反馈,提升旅游服务的体验。


    医疗:通过互联网了解患者,倾听患者,构建和谐医患关系。收集患者对医院、药品等的反馈,并针对患者的负面反馈信息建立快速的沟通机制,维护患者的权益,提升医院的服务水平。


    电商:了解目标用户,分析用户商品评价,追踪产品质量、物流、售后等各方面的用户反馈,不断优化提升各环节,提升产品和服务的竞争力。


    游戏:洞察游戏行业趋势,了解游戏用户需求,收集用户反馈,定位游戏问题,提升游戏品质,弥补游戏漏洞等给用户和企业带来的损失,使游戏产品的研发和运营紧贴用户需求,获得更好的市场收益。


    以电商为例,随着社交媒体发展日益瞩目,博客、微博社交网络等悄然改变着人们的生活方式。微博,微信,包括天猫,京东等用户日益增多,用户主动发布的微博或者评论数量十分可观。在这个社会化的媒体时代,用户成为企业最好的品牌推广大使,如何从这些可观的数据中分析出用户的潜在且准确的购物意愿及用户需求,公众趋势分析将成为提高品牌价值和声誉,改善用户体验的新兴途径。


    那么公众趋势分析具体能干什么?通过热词分析搜索感兴趣的词语,分析出这个词语相关联的词语网络,通过词语网络筛选相应的详细舆情信息,同时可以结合用户情感及舆情媒体来源来快速定位想要查看的信息,帮助企业聚类用户反馈,提升企业形象及优化产品体验。本文以分析微博中用户的行为数据为例,为大家解读公众趋势分析。


    中文微博数据分析逻辑


    微博是现代网络社会沟通的重要工具,以新浪微博为例,很多大型零售商会建立自己主页,发布近期的打折、新品信息。但是,这些信息往往不能针对每个用户的喜好来发布,类似于广播一样,每一条微博是否对每个粉丝(用户)有意义,需要用户自己来过滤。


    但实际上,粉丝自身发布的微博含有大量的数据信息,这些信息包含用户的个人爱好,自己年龄阶段,近期的想购买的款式,甚至是自己希望有的款式与功能等。这些数据大多数为非结构数据。


    营销分析逻辑流程








    上图中显示了整个营销分析流程的逻辑。从客户发布微博开始, 到商家向用户发布商品目录和优惠信息,整个流程分为五个步骤:


    首先,客户发布微博:本文从微博上初步获取的数据为“粗数据”,虽然数据杂乱需要分析,但是其中包含很多用户自己“无意识”的为自己打上的标签,这为后续的语义分析打下了基础。粗数据中包括类似于:性格、年龄阶段、星座、性别、突出喜好,例如“粉红控”、“80 后”、“篮球达人”等。掌握这些用户自定义的标签后,把这些作为用户肖像的一部分。


    其次,获取商家的粉丝:商家的粉丝包括关注商家微博的用户以及签到用户被提及的品牌粉丝等。这些粉丝的发布的微博便作为语义处理的输入。


    第三,分析用户的微博:将用户的微博进行语义分析。基于 Hadoop 的文本分析平台将对中文进行分词,分词后将与字典进行比较和分类,然后对比总结出该用户的兴趣爱好所在,作为用户的一个标签,同时作为客户肖像的一部分。例如,一个用户的微博中经常提到类似于篮球、足球等运动,那么“爱运动”就及可能成为其标签,作为客户肖像的一部分。


    第四,指定相关营销策略:客户肖像制定后,存入数据库,并根据微博内容实时或定时更新客户肖像,根据客户的肖像,向用户推送相应的商品打折、优惠、最新上架产品信息。例如,用户的爱好中包括“运动”,并在微博中提到某品牌的运动鞋,那么可以向该用户推送该运动品牌的打折优惠信息或优惠券。


    最后,消费者便可使用消费券或根据打折信息购买相关产品。这样向用户推送的促销信息会更加符合用户近期的购买意愿和用户的个性特征,可以做到为每个用户个性定制的营销方案,使推送更有效。


     


    公众趋势分析是基于全网公开发布数据、传播路径和受众群体画像,利用语义分析、情感算法和机器学习,分析公众对品牌形象、热点事件和公共政策的认知趋势。东方金信在数据分析也开发出属于自己的产品并投入了生产环境,其中包括海盒大数据R语言开发系统SRS,可为R语言环境提供分析挖掘的开发系统界面;海盒大数据分布式数据挖掘系统SHO,集成了多种分布式的挖掘算法,可供用户通过可视化界面进行调用;海盒基础平台SDB,集成了索引搜索功能等,可以给用户提供了公众趋势分析的诸多工具和算法,方便了开发者和 用户的使用。


    Jul 23, 2018
共 4 页 第 1 页 首页 上一页 下一页 尾页