11月初,贝壳发布2023年第三季度财务业绩。财报显示,贝壳第三季度总交易额6552亿元;净营收178亿元,同比增长1.2%,超出业绩指引上线;净利润11.7亿元,同比增长63.4%,经调整后净利润21.59亿元,同比增长14.4%。此前,“贝壳房源数据被爬取不正当竞争纠纷案”备受行业关注,法院更是首次对平台房源数据集合这一新型数据形式进行司法保护。房地产经纪行业在知识产权保护与创新领域存在哪些问题?企业内部如何对数据进行分类分级管理?如何应对行业出现的新型数据不正当竞争行为?带着诸多问题,知产财经记者对贝壳集团首席合规官陈岩、贝壳集团平台总经理王超进行了独家专访。
受访嘉宾
陈 岩 贝壳集团首席合规官
王 超 贝壳集团平台总经理
专访内容
Q1、当前大数据、云计算等技术迅猛发展,能否介绍一下在房地产经纪领域,科技手段的运用主要体现在哪些方面?为了打造更好的产品以及提升用户体验感,相信贝壳在研发方面应该有较多投入。截至目前贵方所拥有的专利及商标数量是多少?
王 超:贝壳的前身是链家,早在2008年,链家已经开始采用一些技术方式去解决交易问题,公众较为熟悉的是“楼盘字典”。“楼盘字典”是贝壳建立的一个重要的数据资产,如字面意思,就是一本写满了楼盘信息的字典。贝壳的楼盘字典采用的是7级门址:城市、城区、楼盘、楼幢、单元、楼层、房屋,这样就能确定每一套房,然后再给这套房编一个独一无二的代码。
“楼盘字典”建立的初衷,是为了解决当时市场上泛滥的虚假房源问题。自2008年以来,链家组建专门的“楼盘字典”团队,投入大量人力物力,对业务中积累的房源数据进行逐一实地考察和真实性核验,并对房源信息在网上发布前进行严格审核。2011年起,链家面向社会公开承诺“真房源”和“假一赔百”,设置专门的虚假房源举报电话,受理客户投诉。2018年,随着贝壳平台的建立,链家投入数十亿成本所积累和维护的“楼盘字典”成为贝壳平台运营的基础,并使得贝壳凭借高质量的房源数据取得了相应竞争优势。
“楼盘字典”在房产交易过程中发挥着重要的作用。首先,它提供了全面的楼盘信息,包括房屋的户型、面积、价格、位置、物业类型等,帮助经纪人和消费者更好地了解房源情况。其次,它通过数据校验和关联分析,能够更好地识别虚假房源和规避风险,提高了交易的安全性和可靠性。最后,它提供了丰富的数据分析和挖掘功能,帮助经纪人更好地了解市场动态和用户需求,提高了交易的效率和消费者服务体验。
此外,“楼盘字典”也有重要的后续价值。通过数据共享,可以实现行业内信息的互通共享,提高数据的价值和利用效率;通过对“楼盘字典”中的数据进行挖掘和分析,发现隐藏的市场规律和用户行为模式,为房地产经纪行业提供更多的商业洞察和决策支持;通过对“楼盘字典”中的数据进行加工和打包,形成具有高价值的数据产品,以此向平台合作伙伴以及行业的经营者进行赋能,实现数据的商业工具化价值。总体来说,“楼盘字典”是贝壳在房地产经纪行业中构建的一项重要数据资产,体现了产业互联网思维。
在存储、保护原创数据和个人信息,以及法务团队立案、溯源和举证过程中,我们还运用了区块链等技术。随着国家对数据安全重视程度的不断提升,贝壳团队近两年投入了很大精力进行创新。截至2022年底,专利授权量达1345件,商标授权量达7387件。
Q2、当前,数据成为数字经济发展的关键要素。房地产经纪行业的房源数据通常都是如何产生的?能否从收集流程、加工展示、存储运维等方面进行详细介绍?贝壳的房源数据又有哪些亮点与特别之处?
王 超:以贝壳为例,房地产经纪行业的房源数据大致的产生流程一般有如下几步。
首先是收集录入。房源数据的主要来源是经纪人取得房屋权利人也就是业主的委托后,将房屋权属登记簿记载的基础信息、业主信息、共有人信息、代理人信息等必要信息,通过作业系统录入平台。信息录入后并不会直接以房源的形式对外进行展示,系统会对经纪人录入的信息与楼盘字典进行真实性与准确性的验证,确保信息真实准确,并且还配置了人工抽检的机制进行抽查审核。
其次是加工展示。房地产经纪公司会对收集到的房源信息进行加工和整理,包括数据清洗、去重、分类、标签化等。这个过程可以将房源信息转化为结构化数据,以便于分析和展示。同时,公司也会根据市场需求和用户行为,对房源信息进行优化和展示,以确保所展示的信息的价值性,能够提高用户浏览房源获取信息的效率。
第三是存储运维。经过加工和整理的房源数据会被存储在公司的数据库或云端存储系统中,以供后续的数据分析和应用。为了保证数据的可靠性和安全性,房地产经纪公司会采取一系列的措施,包括数据备份、容灾恢复、访问控制、反爬机制、访问权限管理等,确保数据的存储运维安全可靠。
贝壳的房源数据有以下几个特点。一是数据全面、真实。贝壳的房源数据来自于全国各大城市,覆盖了不同类型的房屋,包括公寓、别墅、商铺等。同时,数据也涵盖了不同的物业类型和价格区间,满足了不同用户的需求。此外,贝壳有一套严格的数据采集和审核流程,确保房源信息真实准确。公司对经纪人录入的每一套房源数据,都会从房产权利证明、其他备件上传、业主动态短信码、楼盘字典验真等多维度进行验证,通过验证后的信息方可纳入楼盘字典,生成初步的房源基础信息。在此之后,还会有内部“司南”团队,从备件真实性、完整度、信息准确性等多个标准抽样进行人工审核,进一步确保房源真实性,基础数据的准确性。
第二个特点是高标准的房源图和VR图。贝壳投入了巨大的成本,组建大规模摄影师团队,培训房源实勘图、户型图、VR图的拍摄和绘制技巧,研发房屋VR图片拍摄的硬件设备和软件技术,设计和应用精美的户型图绘图元素,为平台入驻经纪公司和经纪人提供房源图片拍摄和制作服务。这些投入充实和提高了“楼盘字典”房源数据库的数据规模和质量,使贝壳网和链家网发布的房源数据信息愈加丰富和精美,极大提升了用户的看房体验。
第三个特点是数据智能化处理。贝壳对房源数据进行智能化处理,通过自然语言处理、图像识别等技术,将房源信息转化为结构化数据,便于后续的数据分析和应用。可以根据用户的行为和偏好,进行个性化推荐。例如,根据用户的搜索历史、浏览历史等信息,推荐符合其需求的房源,提高用户的满意度。
第四个特点是数据具有安全保障。贝壳重视数据安全,采取了多种措施保障数据安全,包括数据加密、访问控制、备份容灾等。同时,公司也遵守相关法律法规,保护用户的隐私和权益。
Q3、我们都知道,与生产型或其他互联网产业不同,房地产市场具有体量大、覆盖面广但信息不对称性强的特点,尤其是在流通场景方面常存在虚假房源等问题。房地产经纪行业在知识产权保护与创新领域较为集中出现的问题有哪些?当前是否又有新型问题出现?
王 超:贝壳非常重视原创,尤其是数据内容的原创性。我们花费了大量的时间及资金成本去进行线下采集、线上整合渲染以及算力使用。而当前面临的较大挑战之一就是房源信息侵权问题。
房源信息真实(真实存在、真实价格、真实在售、真实图片)是房地产交易中保障客户知情权,提高交易效率,确保交易安全的基础。但由于真实房源信息的保障需要经纪公司投入巨大的成本,从房源信息前期收集、核验,到中期使用、运维,再到后期的存储管理,各个环节都需要持续性的人力、物力的投入。行业中部分经纪人和经纪公司难以或不愿付出相应的成本,转而采取“走捷径”的低成本方式,非法获取他人已公开展示的房源信息,以丰富自己的房源内容,提高自身的竞争优势。又因为房地产市场的信息不对称性,有些经纪人可能会大量发布虚假房源信息,以此吸引客户并获取利润,市场上也存在一些黑灰产工具帮助经纪人发布虚假房源。不仅侵犯了消费者的权益,导致交易效率下降、成本上升,更可能导致业主信息被泄露。
第二个挑战是大模型本身的安全性。原先的数据存储较为分散,通过一些黑产技术进入到系统内部获取完整数据的成本很高。现在大模型将这些数据进行高度提炼和浓缩之后,黑产很容易进行复制拷贝。而模型当中又包含了整个企业的核心资产,因此防盗成本比较高。
此外,新型的问题包括类似于ChatGPT等大模型,如何确保其回复是合法合规的。当前个人隐私保护越发得到重视,随着大数据和人工智能技术的应用,房地产经纪公司可能会收集并处理大量的个人数据,例如客户在同一平台的购房历史、身份信息等,如何保证这些数据的隐私和安全,避免数据泄露和滥用,增加了企业的治理难度。
陈 岩:我补充一下。随着技术的快速发展,还会涉及区块链与数据产权保护问题。区块链技术可以用于记录和保护房地产交易,降低欺诈和纠纷的发生。但同时,如何确保区块链数据的真实性和合法性,防止篡改和伪造,也是一个需要解决的问题。
此外,随着直播兴起,出现了通过直播获取客源,再线下通过不正当方式从贝壳非法获取房源信息的新型侵权形态,这种侵权形态较之前更为复杂,如何解决这类侵权问题是贝壳当前面临的挑战。
Q4、近几年,国家逐步加强对数据市场的安全监管,严格管控未依法依规公开的相关数据直接进入市场。在贝壳的房源数据中,哪些属于公开数据,哪些是不公开数据?内部又是如何分类分级的?对于客户信息等如何进行有效保护?
陈 岩:贝壳房源数据主要分为公开数据和不公开数据两类。公开数据主要包括:房屋的基本信息,如房屋的户型、面积、所在区域、价格、实勘图、户型图、VR等;房屋的描述信息,如房屋的装修程度、建筑年代、朝向等;房屋的周边环境信息,如学校、医院、商场等;经纪人、业主的描述性信息,经纪人基于此房屋的带看情况进行撰写,撰写依据现场实勘、与业主沟通,以及经纪人个人和经纪公司集体对片区周边的了解和经验。同样,此房源的业主亦可从自身角度对于自家房屋撰写“业主自荐”。
不公开数据主要包括:业主的个人信息,如姓名、身份证号码等;房屋的详细历史信息,如房屋的过往租赁价格、租户信息等;房屋的内部装修和设备信息,如房屋的内部布局、家具家电等;房屋的历史成交信息,如房屋的过往成交价格、成交时间等。
在贝壳的房源数据中,公开数据和不公开数据的分类分级主要是根据数据的敏感度和重要性来决定的。对于公开数据,一般可以在平台上公开展示,对于不公开数据,则需要通过审批和授权后方能查询和获取。
对于用户的个人信息保护,贝壳是房产经纪领域中首家通过公安系统做等级保护备案的企业。2020年,贝壳成为国内首家获得ISO/IEC 27001信息安全管理体系及ISO/IEC27701隐私信息管理体系双重认证的居住服务平台。所以在数据安全方面的布控,我们一定是按照最严格的标准来执行的。同时也会根据法律法规和政策要求,不断更新和完善数据的分类分级制度,确保数据的安全和合规。
王 超: 陈律说得比较完整,我从技术角度再补充一下。近几年国家越发重视数据安全问题,相关法律陆续出台,涉及到很多存量信息的治理,以及新增架构的改造。贝壳线上技术系统达上千个,涉及到子服务系统则更多,改动工程量很大。就在去年,公司设立了战略项目,针对国家出台的法律进行逐条拆解和分析,对照公司的情况进行查缺补漏,确保公司数据安全和合规。
从线上收集端来讲,贝壳的策略是收集必要信息,从存储环节来讲,我们将数据分类分级,从C1到C4级,对高级别的数据进行加密存储。且数据集中存储在一个地方,只有审批通过才能拿到对应的数据。另外从今年开始,我们还对数据安全防控做了模拟演练,内部进行红蓝对抗,不断模拟外部的风险攻击,并检验完善自身系统。
Q5、我们了解到,行业中总有黑产利用技术手段抓取、存储房源数据。而随着技术的发展,其盗用手段也在不断演变和更新。当前贝壳遇到的房源数据盗用形式有哪些?又相应采取了哪些技术手段去保护房源数据?
王 超: 我举几个例子。首先是爬虫攻击。利用技术手段抓取、存储房源数据是早期房源数据盗用的主要形式,攻击者通过编写程序模拟人类访问网站,规避平台的反爬机制,批量下载房源信息,然后将其存储在外部服务器上。
其次是恶意软件攻击。攻击者可能会利用恶意软件(如勒索软件、间谍软件等)来入侵贝壳的系统或员工设备,以获取房源数据。这些软件可以窃取、加密或删除数据,以此要求支付赎金,不过得益于贝壳较高的数据安全系统的保护,目前还未发生过此类攻击事故。
还有社会工程学攻击。攻击者可能会利用社交媒体、电话或其他渠道来欺骗贝壳的员工,以获取敏感的房源数据。他们可能会冒充客户、房东或公司高管,试图获取访问权限或直接获取数据。
为了应对这些房源数据盗用形式,贝壳采取了多种技术手段来保护房源数据,主要包括:
1.反爬虫技术:贝壳使用反爬虫技术来检测和阻止攻击者利用技术手段抓取、存储房源数据。这包括使用验证码、限速、封禁IP等手段,以及基于行为分析的自动化检测机制。
2.数据加密技术:贝壳采用加密技术来保护房源数据在传输和存储过程中的安全。这包括使用HTTPS、SSL等加密协议,以及加密数据库和文件存储。
3.图片防盗技术保护措施:基于大规模盗用房源图片的问题,贝壳法务联合基础研发、图像算法、楼盘字典等团队进行技术保护的升级研发,通过自建区块链以及数字水印等能力的研发上线,提高贝壳平台房源实勘图、户型图、VR图的防盗、可追踪能力,从根源上扼制大规模盗图的现象。
4.安全审计:贝壳还定期对系统进行安全审计,以发现潜在的安全漏洞。这包括检查系统配置、密码策略、防火墙设置等,以确保系统受到充分保护。
Q6、在房源数据保护以及维权过程中,不同部门之间的协调配合至关重要,包括数据分析、存证取证等;在实际操作中,贝壳的法务部门与产研部门分别负责哪些事务?又是如何进行有效配合的?
陈 岩:在房源数据保护、诉讼维权过程中,贝壳的法务部门和产研部门分别负责不同的任务,但双方需要进行紧密的协调和配合,以确保数据保护和维权工作的顺利进行,也因此付出了很大的心力。
法务团队主要负责整体主导及法律问题的解决,包括根据法律法规和司法实践,制定针对数据保护和维权问题的整体法律策略;向其他部门提供关于数据保护和维权的法律意见;处理涉及房源数据的侵权事务,维护公司利益。
产研团队负责产品的具体设计与研发,包括技术研发,开发和应用数据保护和维权相关的技术工具和系统,提高数据保护和维权的效率和质量;负责对涉及侵权的数据进行挖掘和分析,提供有关数据保护和维权的风险预警和决策支持;同时会协助法务团队取证,采用技术手段对房源数据进行存证和取证,为维权提供证据支持;此外,产研部门还负责向法务部门提供技术方案和支持,协助法务部门制定法律策略。
法务部门和产研部门会通过定期沟通,分享关于数据保护和维权的信息和经验,以便更好地协调和配合;双方成立联合工作小组,共同制定数据保护和维权的策略和技术方案,确保工作的协调性和一致性;同时通过培训和交流,提高彼此的专业知识和技能,更好地应对数据保护和维权的问题。在发现涉及房源数据的纠纷或问题时,两部门迅速响应,进行合作处理,确保公司的合法权益得到维护。
Q7、当前保护房源数据过程中,贝壳在内部的技术与成本方面是否有遭遇过相关困境?在司法和行政维权保护层面存在哪些难点问题?从贝壳遇到的多起案件来看,是刑事保护更有效,还是民事审判更有威慑力?
陈 岩:在保护房源数据的过程中,贝壳确实面临一些技术和成本方面的挑战。
一方面,随着技术的不断发展,攻击手段也在不断演变和更新。为了应对新的安全威胁,贝壳需要不断更新其技术基础设施和安全措施。同时贝壳作为一个拥有大量房源信息的平台,保护这些数据的安全需要庞大的计算资源和存储资源,需要不断投入大量技术资源和成本,对于公司来说是巨大的挑战。
另一方面,在保护房源数据的过程中,贝壳需要在用户体验和安全性之间做出平衡。例如,一些安全措施可能会影响用户的使用体验,如增加身份验证步骤或减慢数据传输速度。如何在保证安全性的同时提高用户体验,是一个技术上的挑战。
在司法和行政维权保护层面,贝壳也面临一些难点问题。首先是法律适用的不确定性。虽然国家近年来加强对数据的保护,但相关法律法规仍然存在不确定性。例如,对于数据盗取,在知识产权专门法和《反不正当竞争法》之间的优先适用问题,一直存在争议,这给贝壳维权也造成了一定困扰。其次,侵权行为愈发隐蔽,取证难度大。在维权过程中,取证是一项关键的任务。然而,由于网络行为的隐蔽性和技术性,取证难度较大。例如,攻击者可能使用匿名或假名进行攻击,这增加了追踪和定位违法行为人的难度。
此外,另一个相对困难的点还在于各地机构办案的差异化较大,有的地方对于数据类侵权案件比较有经验,也非常重视,办案比较顺利,有些地方承办这类案件较少,办案难度较大。从刑事和民事上来看,我认为针对侵权特别严重,行为涉及到违法犯罪的,移交给司法机关处理较合适,震慑力相对更强。而对于一般违法行为,通过民事审判和诉前保全,增加违法成本,对其打击力度较大。而且要形成有参考价值的典型案例,一方面能加快审判流程,另一方面也能使公众的法律意识逐渐加强。
Q8、在司法实践中,涉及数据不正当竞争的相关案件也在逐年增多。未来数据竞争、数据管理、数据保护都将成为全球的主要话题,贝壳是否已着手准备应对策略?可否介绍一下具体布局?
陈 岩:我们已经注意到在司法实践中涉及数据不正当竞争的相关案件逐年增多的趋势,且未来随着贝壳新功能和新产品的上线,数据量将越来越大,也会涉及更多的经纪人和服务者,因此已经开始着手准备应对策略和具体布局。
首先从内部来讲,贝壳设立了专门的数据保护工作组,负责数据的存储、管理、加密、展示和保护;同时制定了严格的数据管理制度,确保数据的合法、合规和安全。公司对数据的收集、存储和使用都制定了明确的规定,并且要求所有员工遵守这些规定。此外,贝壳采用了先进的数据加密、备份和安全防护技术,确保数据的完整性和安全性。公司还定期进行安全演练和培训,提高员工的数据安全意识和能力。
从外部合作来讲,一方面,贝壳积极参与数据保护的研讨活动,推动行业数据保护的标准化和规范化。同时,与行业内的其他企业和机构开展合作,共同推动数据管理和保护的进步和发展。数据合规和信息保护仅靠一家企业无法完成,贝壳目前已经和清华大学、首都师范大学等高校展开了实质性合作。未来还计划成立数据安全顾问委员会,分别从政策解读和技术安全层面把脉问诊,共同研究和应对涉及数据保护的法律问题。
通过这些措施和布局,贝壳将能够更好地应对数据竞争、数据管理和数据保护的挑战,保障公司的合法权益和客户的安全和利益。
Q9、近期,CHATGPT、文心一言等人工智能技术驱动的自然语言处理工具在全球迅速流行,以推行居住服务数字化、智能化为理念的贝壳,未来是否也会有相应的产品面世?在房源数据的生产中能提供哪些帮助?
王 超: 贝壳未来也会推出相应的产品来提高用户体验和服务效率,推动产业数字化、智能化升级,如当前正在进行内部测试的HOMEGPT产品。
在房源数据的生产中,人工智能可以帮助贝壳对海量房源数据进行筛选,从中挖掘出有价值的信息,比如在一段时间内,不同消费者对房屋的地理位置、价格、面积、户型、装修风格等条件的偏好情况。通过对这些信息进行分析,可以得出有关市场趋势、客户需求、竞争情况等重要信息,从而帮助贝壳做出更准确的决策。
在数据清洗和处理方面,人工智能可以自动识别和纠正房源数据中的错误,比如地址不准确、价格不正确等。同时,还可以将不同来源的数据进行整合和标准化,提高数据的质量和可用性。
在个性化推荐服务方面,基于对用户行为和偏好的分析,人工智能可以为贝壳的用户提供更加个性化、精准的房源推荐服务。比如,根据用户的地理位置、预算、房屋类型等偏好,推荐符合其需求的房源信息。
在智能客服方面,人工智能可以通过自然语言处理技术,实现智能客服的功能。用户可以通过语音、文字等方式与机器人进行交互,查询房源信息、了解租赁流程等,提高用户体验和服务效率。
在自动化流程方面,人工智能可以自动化一些常规的房源数据处理流程,比如数据录入、合同签署、账单管理等。这样可以减少人工干预和错误,提高工作效率和准确性。
我们相信人工智能在未来的房源数据的生产中可以发挥重要作用,帮助贝壳更好地实现数字化、智能化居住服务的目标。