文本处理方法及装置与流程
未命名
09-22
阅读:64
评论:0
1.本技术属于通信技术领域,具体涉及一种文本处理方法及装置。
背景技术:
2.随着经济与科技的发展,以手机为代表的电子设备已经被越来越广泛的使用。
3.目前,电子设备具备将文字转换为语音的功能。但是,电子设备通常只能将文字转换为固定音色的语音,而这无法满足用户的个性化需求。
技术实现要素:
4.本技术实施例的目的是提供一种文本处理方法及装置,能够解决电子设备将文字转换为语音时无法满足用户个性化需求的问题。
5.第一方面,本技术实施例提供了一种文本处理方法,该方法包括:
6.获取待处理文本中的目标文本段,所述目标文本段为待处理文本中待添加情感标识的文本段;
7.显示至少一个情感标识;
8.接收第一输入;
9.响应于所述第一输入,在所述至少一个情感标识中确定所述目标文本段的目标情感标识;
10.根据所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,所述第一语音中目标文本段对应语音的朗读情感与所述目标情感标识相匹配。
11.第二方面,本技术实施例提供了一种文本处理装置,该装置包括:
12.获取模块,用于获取待处理文本中的目标文本段,所述目标文本段为待处理文本中待添加情感标识的文本段;
13.显示模块,用于显示至少一个情感标识;
14.接收模块,用于接收第一输入;
15.响应模块,用于响应于所述第一输入,在所述至少一个情感标识中确定所述目标文本段的目标情感标识;
16.编辑模块,用于根据所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,所述第一语音中目标文本段对应语音的朗读情感与所述目标情感标识相匹配。
17.第三方面,本技术实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
18.第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
19.第五方面,本技术实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
20.第六方面,本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
21.本技术实施例提供了一种文本处理方法,该方法包括:获取待处理文本中的目标文本段,目标文本段为待处理文本中待添加情感标识的文本段;显示至少一个情感标识;接收第一输入;响应于第一输入,在至少一个情感标识中确定目标文本段的目标情感标识;根据目标情感标识、待处理文本以及目标文本段,将待处理文本编辑为第一语音,第一语音中目标文本段对应语音的朗读情感与目标情感标识相匹配。基于该方法,得到的第一语音中的用户指定的目标文本段对应语音的朗读情感符合用户指定的目标情感标识所对应的朗读情感。这满足了用户个性化需求。
附图说明
22.图1为实现本技术实施例的一种文本处理方法的流程示意图;
23.图2为实现本技术实施例的一种电子设备界面显示示意图一;
24.图3为实现本技术实施例的一种电子设备界面显示示意图二;
25.图4为实现本技术实施例的一种电子设备界面显示示意图三;
26.图5为实现本技术实施例的一种文本处理装置的结构示意图;
27.图6为实现本技术实施例的一种电子设备的硬件结构示意图一;
28.图7为实现本技术实施例的一种电子设备的硬件结构示意图二。
具体实施方式
29.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
30.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
31.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的文本处理方法及装置进行详细地说明。
32.本技术实施例提供了一种文本处理方法,如图1所示,该方法包括如下s1100-s1500:
33.s1100、获取待处理文本中的目标文本段。
34.其中,目标文本段为待处理文本中待添加情感标识的文本段。
35.在本技术实施例中,待处理文本为待被编辑成语音的文本。待处理文本对应的语
种类型可以为:英文、中文或者其他,对此本技术实施例不做限定。
36.目标文本段可以为一个词、一句话、一段话等,即在本技术实施例中,对目标文本段的字符长短不做限定。
37.可以理解的是,本技术实施例提供的文本处理方法在上述s1100之前,还包括:获取编辑文本的输入,响应于该输入,显示待处理文本。这也就是说,在上述s1100之前,可首先由用户在可进行文本编辑的界面,编辑待处理文本。在一个示例中,待处理文本201以及文本编辑界面202可示例性的如图2所示。
38.在本技术的一个实施例中,上述s1100可通过如下s1110和s1111来实现:
39.s1110、接收第二输入。
40.在本技术实施例中,第二输入为从待处理文本中选择符合用户个性化需求的文本段的用户操作。
41.在一个示例中,第二输入可以为在符合用户个性化需求的文本段的开头单击以触发光标显示,并拖动光标直至符合用户个性化需求的文本段的结尾位置的操作。
42.通过上述s1110,用户可实现对目标文字段的指定。
43.s1111、响应于第二输入,从待处理文本中确定目标文本段。
44.在本技术实施例中,将第二输入所选择的符合用户个性化需求的文本段作为目标文本段。
45.通过上述s1110和s111则可完成对目标文字段的确定。
46.在一个示例中,在上述s1111之后,如图2所示,可通过加粗的方式或者其他用于突出显示的方式将目标文本段突出显示。这样,可供用户直观的查看到目标文本段对应的内容,以由用户确定目标文本段是否选择正确。
47.基于上述s1100确定出目标文本段后,执行下述步骤对目标文本段的朗读情感进行确定。
48.s1200、显示至少一个情感标识。
49.在本技术实施例中,情感标识用于标识语音对应的朗读情感。其中,朗读情感可以包括但不限于:高兴、伤心、大哭、生气等。
50.在一个示例中,如图2所示,情感标识203可以为反应朗读情感的表情包。
51.在本技术的一个实施例中,上述s1200的具体实现可以为:直接对至少一个情感标识进行显示。例如,将至少一个情感标识显示待处理文本所在文本编辑界面的工具栏或者其他位置处。又例如,如图3所示,在电子设备为具有折叠屏的电子设备的情况下,在待处理文本显示在其中一个屏幕301(记为第一屏幕)中的情况下,将至少一个情感标识显示在另一个屏幕302(记为第二屏幕)中。对于后者,即将待处理文本显示在第一屏幕,上述s1200的具体实现如下述s1210:
52.s1210、在第二屏幕中显示至少一个情感标识。
53.其中,第一屏幕和第二屏幕是折叠屏电子设备中的两个不同的屏幕。
54.在本技术实施例中,待处理文本和至少一个情感标识显示在不同的屏幕,便于用户操作和查看。基于此,如图3所示,还可将文本编辑界面202内的属于工具的标识,例如文字编辑工具都显示在第二电子屏幕302。
55.在本技术的另一个实施例中,上述s1200的具体实现还可以为:在用户的触发下,
显示至少一个情感标识。例如,在用户长按目标文本段的情况下,弹出至少一个情感标识。
56.基于上述s1200显示至少一个情感标识后,执行下述s1300以实现对符合用户个性化需求的情感标识的确定。
57.s1300、接收第一输入。
58.在本技术实施例中,第一输入为从至少一个情感标识中选择符合用户个性化需求的情感标识的用户操作。
59.在一个示例中,第一输入可以为一个点击情感标识的用户输入,或者还可以为拖动一个情感标识至目标文本段的用户输入,或者还可以为拖动目标文本段到一个情感标识的用户输入。
60.通过上述s1300,用户可实现对目标情感标识的指定。
61.s1400、响应于第一输入,确定目标文本段的目标情感标识。
62.在本技术实施例中,将第一输入所选择的情感标识作为目标情感标识。通过响应第一输入,可确定出目标文本段的目标情感标识。
63.在本技术的一个实施例中,为了供用户直观的了解到是否已确定目标文本段的目标情感标识,以及目标情感标识具体为什么,如图4,可在基于上述s1400确定出目标文本段的目标情感标识后,将目标情感标识显示在目标文本段的结束位置处。
64.在基于上述s1400完成目标情感标识的确定后,执行下述s1500实现将待处理文本编辑为语音,以及使得编辑的语音中目标文本段对应的朗读情感与目标情感标识相匹配。
65.s1500、根据目标情感标识、待处理文本以及目标文本段,将待处理文本编辑为第一语音。
66.其中,第一语音中目标文本段对应语音的朗读情感与目标情感标识相匹配。
67.在本技术的一个实施例中,上述s1500的具体实现可以为:将目标情感标识、待处理文本以及目标文本段,输入至自然语言处理(nlp,natural language processing)中,得到第一语音。
68.基于上述s1100-s1500,若目标情感标识对应的朗读情感为开心,目标文本段为“今天天气真好呀”的情况下,第一语音中“今天天气真好呀”语音对应的朗读情感为开心。这样,得到的第一语音中的用户指定的目标文本段对应语音的朗读情感符合用户指定的目标情感标识所对应的朗读情感。这满足了用户个性化需求。
69.在得到第一语音之后,可将第一语音存储在指定路径下。更近一步的,还可将第一语音对应的语音标识显示在待处理文本所显示的页面。
70.本技术实施例提供了一种文本处理方法,该方法包括:获取待处理文本中的目标文本段,目标文本段为待处理文本中待添加情感标识的文本段;显示至少一个情感标识;接收第一输入;响应于第一输入,在至少一个情感标识中确定目标文本段的目标情感标识;根据目标情感标识、待处理文本以及目标文本段,将待处理文本编辑为第一语音,第一语音中目标文本段对应语音的朗读情感与目标情感标识相匹配。基于该方法,得到的第一语音中的用户指定的目标文本段对应语音的朗读情感符合用户指定的目标情感标识所对应的朗读情感。这满足了用户个性化需求。
71.在本技术的一个实施例中,本技术实施例提供的文本处理方法在上述s1500之前还包括s1410-s1412:
72.s1410、显示至少一个语音角色标识。
73.其中,一个语音角色标识对应一种音色。
74.在本技术的实施例中,语音角色标识反映一种语音朗读音色。如图2或图3所示,语音角色标识204可通过与该语音角色标识所表示音色相匹配的人物头像来表示。
75.在一个示例中,语音角色标识可以为萝莉声、中年男声、中年女声等。以及,在语音角色标识为萝莉声,该语音角色标识可以通过一个卡通的萝莉头像表示。在语音角色标识为中年男声,该语音角色标识可以通过一个卡通的中年男子头像表示。在语音角色标识为中年女声,该语音角色标识可以通过一个卡通的中年女子头像表示。
76.需要说明的是,上述s1410中语音角色标识的显示方式可如上述s1200中情感标识的显示方式相同,例如,如图3所示,将语音角色标识204同情感标识203均显示在第二屏幕302中。
77.s1411、接收第三输入。
78.在本技术实施例中,第三输入为用户从至少两个语音角色标识中选择符合用户个性化需求的语音角色标识的用户操作。
79.在一个示例中,第三输入可以为用户拖拽符合自身个性化需求的语音角色标识到待处理文本的用户操作。
80.在另一个示例中,为了供用户对目标语音角色的显示,如图2或3所示,可显示一可实现向前切换控件2051或向后切换的控件2052,第三输入可以为点击向前切换或者向后切换语音角色标识的用户操作。
81.通过上述s1411,用户可实现对目标语音角色标识的指定。
82.s1412、响应于第三输入,在至少一个语音角色标识中确定目标语音角色性标识。
83.在本技术实施例中,将第三输入所选择的语音角色标识作为目标语音角色标识。通过响应第三输入,可确定出待处理文本的目标语音角色标识。在此基础上,执行下述s1510实现将待处理文本编辑为语音,以及使得编辑的语音对应朗读风格与目标语音角色标识相匹配。
84.在上述s1410-s1412的基础上,上述s1500可通过如下s1510来实现:
85.s1510、根据目标语音角色标识、目标情感标识、待处理文本以及目标文本段,将待处理文本编辑为第一语音。
86.其中,第一语音的音色与目标语音角色标识相匹配。
87.在本技术实施例中,上述s1510的具体实现可以为:将目标语音角色标识、目标情感标识、待处理文本以及目标文本段,输入至自然语言处理中,得到第一语音。
88.在本技术实施例中,可由用户为待处理文本指定满足用户个性化需求的朗读音色。进一步的基于该朗读音色将待处理文本编辑为第一语音,该第一语音满足了用户个性化需求。
89.在上一实施例的基础上,为了使得用户能快速的了解到待处理文本是否被编辑为语音,以及在被编辑为语音的情况下语音的音色是什么样的,本技术实施例提供的待处理文本还包括如下s1600:
90.s1600、在待处理文本的预设位置处显示目标语音角色标识。
91.在本技术的一个实施例中,预设位置可以为待处理文本的开头所在位置,还可以
为待处理文本的背景位置,以及还可以如图4所示,为待处理文本的整体的左侧位置。当然,预设位置还可以为其他位置,对此本技术实施例不做限定。
92.需要说明的是,图4中待处理文本为三段为例进行示出。
93.在本技术实施例中,通过上述s1600,用户可直观的获知待处理文本已被编辑为语音,且所编辑成的第一语音的音色为目标语音角色标识所对应的音色。
94.在上述s1410-s1412以及s1510所示实施例的基础上,为了使得用户能够直观且实时的了解到目标语音角色的音色是什么样的,本技术实施例提供的文本处理方法还包括供用户对目标语音角色进行试听的步骤。基于此,本技术实施例提供的文本处理方法还包括如下s1700:
95.s1700、显示试听标识。
96.在本技术实施例中,试听标识供用户触发。在用户触发试听标识的情况下,播放当前选中的目标语音角色标识所对应的语音。
97.在一个示例中,试听标识可示例性的如图2或图3所示的播放控件2053。
98.需要说明的是,上述s1700中试听标识的显示方式可如上述s1200中情感标识的显示方式相同,例如,将试听标识同情感标识均显示在第二屏幕中。
99.在上述s1700的基础上,本技术实施例提供的文本处理方法在上述s1412之后还包括如下s1710和s1711:
100.s1710、接收第四输入。
101.在本技术实施例中,第四输入为用户触发试听标识的用户输入。
102.在一个示例中,第四输入可以为点击如图2或图3所示的试听标识的用户操作。
103.s1711、响应于第四输入,播放与目标语音角色标识匹配的第二语音。
104.在本技术的一个实施例中,上述s1711的具体实现可以为:响应于第四输入,根据目标语音角色标识将待处理文本编辑为第二语音,播放第二语音。
105.在本技术的另一个实施例中,上述s1711的具体实现还可以为:响应于第四输入,根据目标语音角色标识将试听文本编辑为第二语音,播放第二语音。试听文本为预先存储供用户试听的文本。
106.当然,为了使得用户能够直观且实时的了解到目标语音角色的音色是什么,还可通过对目标语音角色标识执行特定的输入,例如双击的方式,实现对目标语音角色标识所对应音色的试听。
107.在使用传统的文本转语音方案中,申请人发现所转换出的语音存在不流畅的情况发生。为了解决该问题,在本技术的一个实施例中,本技术实施例提供的文本处理方法在上述s1500之前还包括如下s1420-s1423:
108.s1420、接收第五输入。
109.在本技术实施例中,第五输入为用户从待处理文本中确定需要停顿的位置以保证第一语音朗读流畅的用户操作。
110.在一个示例中,第五输入可以示例性的为一个拖动光标至待处理文本中需要停顿的位置的用户操作。
111.s1421、响应于第五输入,从待处理文本中确定目标停顿位置。
112.在本技术实施例中,将第五输入所定位的需要停顿的位置作为目标停顿位置。通
过响应第五输入,可从待处理文本中确定出目标停顿位置。
113.基于上述s1420和s1421可实现由用户指示待处理文本中需要停顿的位置,即目标停顿位置。
114.s1422、接收第六输入。
115.在本技术实施例中,第六输入为用户为目标停顿位置添加符合用户个性化需求的停顿时长用户操作。
116.在一个示例中,第六输入可以为一个用户键入具体的符合用户个性化需求的停顿时长的用户操作。
117.s1423、响应于第六输入,确定目标停顿位置的目标停顿时长。
118.在本技术实施例中,将第六输入所输入的符合用户个性化需求的停顿时长作为目标停顿时长。通过响应第六输入,可确定出目标停顿位置的目标停顿时长。
119.通过上述s1422和s1423,用户可实现对目标停顿时长的指定。
120.在上述s1420-s1423的基础上,上述s1500的具体实现可如下述s1520:
121.s1520、根据目标停顿位置、目标停顿位置的目标停顿时长、目标情感标识、待处理文本以及目标文本段,将待处理文本编辑为第一语音。
122.其中,第一语音中目标停顿位置对应的语音处的停顿时长为目标停顿时长。
123.在本技术的一个实施例中,上述s1520的具体实现可以为:将目标停顿位置、目标停顿位置的目标停顿时长、目标情感标识、待处理文本以及目标文本段,输入至自然语言处理中,得到第一语音。
124.在本技术实施例中,可由用户为待处理文本指定需要停顿的目标停顿位置,以及目标停顿位置需要停顿的目标停顿时长。这样,由待处理文本所编辑的第一语音不仅可进行准确的停顿以保证流畅,还可满足用户个性化需求。
125.在上述实施例的基础上,为了使得用户快速地键入目标停顿时长,可显示至少一个合适的待选停顿时长,由用户进行选择以实现键入目标停顿时长。基于此,本技术实施例提供的文本处理方法还包括如下s1800:
126.s1800、显示至少一个待选停顿时长。
127.在本技术的一个实施例中,至少一个待选停顿时长206的显示方式可如图3所示。
128.当然,至少一个待选停顿时长还可通过其他方式来显示,例如通过一个例如滑动按钮的方式来显示。
129.需要说明的是,上述s1800中待选停顿时长的显示方式可如上述s1200中情感标识的显示方式相同,例如,将待选停顿时长同情感标识均显示在第二屏幕中。
130.在上述s1800的基础上,上述s1423可具体通过如下s1423-1来实现:
131.s1423-1、响应于第六输入,从至少一个待选停顿时长中确定目标停顿位置的目标停顿时长。
132.在本技术实施例中,第六输入为用户从至少一个待选停顿时长中选择符合用户个性化需求的停顿时长的用户操作。
133.在上述s1420-s1423和s1520的基础上,为了使得用户直观的确定出是否已在目标停顿位置处添加了目标停顿时长,以及目标停顿时长具体是多少,本技术实施例提供的文本处理方法还包括如下s1900:
134.s1900、在待处理文本的目标停顿位置处显示目标停顿时长。
135.在本技术实施例中,以目标停顿时长为0.5s,目标停顿位置为“呀”字后为例,基于上述s1900所显示的内容如图4所示。基于此,用户可直观的确定出目标停顿位置在哪里,以及已经为目标停顿位置处添加了多长的目标停顿时长。
136.在使用传统的文本转语音方案中,申请人发现所转换出的语音存在个别字读音错误的情况发生,例如对于多音字“行”,在文本中“行”的读音应该为“xing”,但是所转换的语音中“行”的发音却为“hang”。为了解决该问题,本技术实施例提供的文本处理方法在上述s1500之前,还包括如下s1430-s1433:
137.s1430、接收第七输入。
138.在本技术实施例中,第七输入为用户选择需要添加正确读音的文字的用户操作。
139.在一个示例中,第七输入可以为对需要添加正确读音的文字的双击操作。
140.s1431、响应于第七输入,从待处理文本中确定目标文字。
141.在本技术实施例中,将第七输入所选择的需要添加正确读音的文字作为目标文字。通过响应第七输入,可确定出目标文字。
142.通过上述s1430和s1431可由用户介入以指示需要添加正确读音的目标文字。在确定出目标文字之后,执行下述s1432和s1433以实现对目标文字的正确读音的添加。
143.s1432、接收第八输入。
144.在本技术实施例中,第八输入为用户为目标文字添加正确读音的用户操作。
145.在一个示例中,第八输入可以为用户键入正确读音的用户操作。
146.s1433、响应于第八输入,确定向目标文字添加的目标读音。
147.在本技术实施例中,将目标文字的正确读音作为目标读音。通过响应第八输入,可确定出目标文字的目标读音。
148.基于上述s1432和s1433,可由用户介入以指示目标文字的目标读音。
149.在本技术的一个实施例中,为了使得用户能够快速或者准确的向目标文字添加目标读音,本技术实施例提供的文本处理方法在上述s1432之前还包括:显示目标文字的至少两个待选读音。待选读音为目标文字可以读的读音。例如多音字的多个读音可作为该多音字的待选读音。基于此第八输入为从至少两个待选读音中选择目标读音的用户操作。
150.需要说明的是,在本技术实施例中,在确定出目标文字后,可主动显示目标文字的至少两个待选读音。
151.在上述s1430-s1433的基础上,上述s1500的具体实现可如下述s1530:
152.s1530、根据目标文字的目标读音、目标情感标识、待处理文本以及目标文本段,将待处理文本编辑为第一语音。
153.其中,第一语音中对应的目标文字的读音为目标读音。
154.在本技术的一个实施例中,上述s1530的具体实现可以为:将目标文字的目标读音、目标情感标识、待处理文本以及目标文本段,输入至自然语言处理中,得到第一语音。
155.通过上述s1530则可使得第一语音中目标文字的读音为目标读音,即正确的读音。
156.在上述实施例的基础上,本技术实施例提供的语音文本的编辑方法还包括:在待处理文本的目标文字后显示目标读音。示例性的如图4中所示的“xing”。这样,用户可直观的了解到目标文字是否被添加正确读音,以及在添加正确读音的情况下,正确读音具体是
什么。
157.在基于上述任一内容将待处理文本编辑为语音后,若想要对待处理文本进行编辑,以调整待处理文本的内容,为了避免对调整后的语音编辑文本重新进行编辑,本技术实施例提供的文本处理方法还包括如下s11000-s11300:
158.s11000、接收第九输入。
159.在本技术实施例中,第九输入为用户对上述s1100在的待处理文本进行调整的用户输入操作。其中,调整包括但不限于增加、删除、修改文本段。
160.s11100、响应于第九输入,调整待处理文本,得到调整后待处理文本。
161.s11200、根据目标情感标识、调整后待处理文本以及目标文本段,将调整后待处理文本编辑为第三语音。
162.s11300、将第一语音更新为第三语音。
163.在本实施例中,在待处理文本编辑为第一语音后,可继续对待处理文本进行文本上调整,此时无需重新执行上述s1100-s1400的步骤,便可得到调整后待处理文本对应的第三语音。这样可节省计算资源。
164.对于会议记录的场景,会议发言人通常会出现重复一句话的情况发生。或者,说出一段偏离主题的话。基于此场景所生成的文字会议记录中也会出现重复以及偏离主题的问题,为了使得文字会议记录所转换成的语音简洁明了,则可采用本技术实施例提供的上述包含s11000-s11300的实施例。具体的,可首先将文字会议记录作为待处理文本,基于上述s1100-s1500生成第一语音。之后,由用户对该待处理文本中重复的文本段、偏离主题的文本段删除。在此基础上,执行上述s11000-s11300,得到简洁明了的语音。
165.当然,上述实施例还可以应用于其他类似与会议记录相似的场景。
166.结合上述实施例,可实现:用户在文本编辑界面编辑一段文本,作为待处理文本;用户选择显示拖拽一个语音角色标识至待处理文本所在区域;用户选择待处理文本中的一个词语作为目标文本段,并拖拽一个情感标识至目标文本段所在区域;用户选择待处理文本中的一个字,作为目标文字,在该字后面添加该字的正确读音,即目标读音;用户选择待处理文本中的一个字后面的位置,作为目标停顿位置,并在该字后面添加目标停顿时长;点击“编辑”按钮,得到第一语音。第一语音的音色为用户所拖拽的语音角色标识对应的音色,目标文本段的朗读情感与用户所拖拽的情感标识相匹配,目标文字的读音为目标读音,且在目标停顿位置处停顿目标停顿时长。
167.本技术实施例提供的文本处理方法,执行主体可以为文本处理装置。本技术实施例中以文本处理装置执行文本处理方法为例,说明本技术实施例提供的文本处理装置。
168.本技术实施例提供了一种文本处理装置500,如图5所示,包括:
169.获取模块510,用于获取待处理文本中的目标文本段,所述目标文本段为待处理文本中待添加情感标识的文本段;
170.显示模块520,用于显示至少一个情感标识;
171.接收模块530,用于接收第一输入;
172.响应模块540,用于响应于所述第一输入,在所述至少一个情感标识中确定所述目标文本段的目标情感标识;
173.编辑模块550,用于根据所述目标情感标识、所述待处理文本以及所述目标文本
段,将所述待处理文本编辑为第一语音,所述第一语音中目标文本段对应语音的朗读情感与所述目标情感标识相匹配。
174.本技术实施例提供了一种文本处理装置,该装置包括:获取模块,用于获取待处理文本中的目标文本段,目标文本段为待处理文本中待添加情感标识的文本段;显示模块,用于显示至少一个情感标识;接收模块,用于接收第一输入;响应模块,用于响应于第一输入,在至少一个情感标识中确定目标文本段的目标情感标识;编辑模块,用于根据目标情感标识、待处理文本以及目标文本段,将待处理文本编辑为第一语音,第一语音中目标文本段对应语音的朗读情感与目标情感标识相匹配。基于该装置,得到的第一语音中的用户指定的目标文本段对应语音的朗读情感符合用户指定的目标情感标识所对应的朗读情感。这满足了用户个性化需求。
175.在本技术的一个实施例中,所述获取模块510,包括:
176.接收单元,用于接收第二输入;
177.响应单元,用于响应于所述第二输入,从所述待处理文本中确定目标文本段。
178.在本技术的一个实施例中,所述显示模块520,还用于显示至少一个语音角色标识,一个所述语音角色标识对应一种音色;
179.所述接收模块530,还用于接收第三输入;
180.所述响应模块540,还用于响应于所述第三输入,在所述至少一个语音角色标识中确定目标语音角色标识;
181.所述编辑模块550,具体用于根据所述目标语音角色标识、所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为所述第一语音,所述第一语音的音色与所述目标语音角色标识相匹配。
182.在本技术的一个实施例中,所述显示模块520,还用于在所述待处理文本的预设位置处显示所述目标语音角色标识。
183.在本技术的一个实施例中,所述显示模块520,还用于显示试听标识;
184.所述接收模块530,还用于接收第四输入;
185.所述响应模块540,还用于响应于所述第四输入,播放与所述目标语音角色标识匹配的第二语音。
186.在本技术的一个实施例中,所述接收模块530,还用于接收第五输入;
187.所述响应模块540,还用于响应于所述第五输入,从所述待处理文本中确定目标停顿位置;
188.所述接收模块530,还用于接收第六输入;
189.所述响应模块540,还用于响应于所述第六输入,确定所述目标停顿位置的目标停顿时长;
190.所述编辑模块550,具体用于根据所述目标停顿位置、所述目标停顿位置的目标停顿时长、所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,所述第一语音中所述目标停顿位置对应的语音处的停顿时长为目标停顿时长。
191.在本技术的一个实施例中,所述显示模块520,还用于显示至少一个待选停顿时长;
192.所述响应模块540,具体用于响应于所述第六输入,从所述至少一个待选停顿时长中确定所述目标停顿位置的目标停顿时长。
193.在本技术的一个实施例中,所述显示模块520,还用于在所述待处理文本的所述目标停顿位置处显示所述目标停顿时长。
194.在本技术的一个实施例中,所述接收模块530,还用于接收第七输入;
195.所述响应模块540,还用于响应于所述第七输入,从所述待处理文本中确定目标文字;
196.所述接收模块530,还用于接收第八输入;
197.所述响应模块540,还用于响应于所述第八输入,确定向所述目标文字添加的目标读音;
198.所述编辑模块550,具体用于根据所述目标文字的目标读音、所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,所述第一语音中对应的所述目标文字的读音为所述目标读音。
199.在本技术的一个实施例中,所述接收模块530,还用于接收第九输入;
200.所述响应模块540,还用于响应于所述第九输入,调整所述待处理文本,得到调整后待处理文本;
201.所述编辑模块550,还用于根据所述目标情感标识、所述调整后待处理文本以及所述目标文本段,将所述调整后待处理文本编辑为第三语音;
202.所述装置500还包括:
203.更新模块,用于将所述第一语音更新为所述第三语音。
204.在本技术的一个实施例中,所述显示模块520,还用于在第二屏幕中显示至少一个情感标识。
205.本技术实施例中的文本处理装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device,mid)、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,还可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
206.本技术实施例中的文本处理装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
207.本技术实施例提供的文本处理装置能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。
208.可选地,如图6所示,本技术实施例还提供一种电子设备600,包括处理器601和存储器602,存储器602上存储有可在所述处理器601上运行的程序或指令,该程序或指令被处理器601执行时实现上述文本处理方法实施例的各个步骤,且能达到相同的技术效果,为避
免重复,这里不再赘述。
209.图7为实现本技术实施例的一种电子设备的硬件结构示意图。
210.该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
211.本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
212.其中,处理器110,用于获取待处理文本中的目标文本段,所述目标文本段为待处理文本中待添加情感标识的文本段;
213.显示单元106,用于显示至少一个情感标识;
214.输入单元104,用于接收第一输入;
215.处理器110,还用于响应于所述第一输入,在所述至少一个情感标识中确定所述目标文本段的目标情感标识;
216.以及根据所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,所述第一语音中目标文本段对应语音的朗读情感与所述目标情感标识相匹配。
217.本技术实施例提供了一种电子设备,该电子设备至少包括:处理器,用于获取待处理文本中的目标文本段,目标文本段为待处理文本中待添加情感标识的文本段;显示单元,用于显示至少一个情感标识;输入单元,用于接收第一输入;处理器,还用于响应于第一输入,在至少一个情感标识中确定目标文本段的目标情感标识;以及根据目标情感标识、待处理文本以及目标文本段,将待处理文本编辑为第一语音,第一语音中目标文本段对应语音的朗读情感与目标情感标识相匹配。基于该电子设备,得到的第一语音中的用户指定的目标文本段对应语音的朗读情感符合用户指定的目标情感标识所对应的朗读情感。这满足了用户个性化需求。
218.可选地,输入单元104,还用于接收第二输入;
219.处理器110,具体用于响应于所述第二输入,从所述待处理文本中确定目标文本段。
220.可选地,显示单元106,还用于显示至少一个语音角色标识,一个所述语音角色标识对应一种音色;
221.输入单元104,还用于接收第三输入;
222.处理器110,还用于响应于所述第三输入,在所述至少一个语音角色标识中确定目标语音角色标识;
223.以及具体用于根据所述目标语音角色标识、所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为所述第一语音,所述第一语音的音色与所述目标语音角色标识相匹配。
224.可选地,显示单元106,还用于在所述待处理文本的预设位置处显示所述目标语音
角色标识。
225.可选地,显示单元106,还用于显示试听标识;
226.输入单元104,还用于接收第四输入;
227.处理器110,还用于响应于所述第四输入,播放与所述目标语音角色标识匹配的第二语音。
228.可选地,输入单元104,还用于接收第五输入;
229.处理器110,还用于响应于所述第五输入,从所述待处理文本中确定目标停顿位置;
230.输入单元104,还用于接收第六输入;
231.处理器110,还用于响应于所述第六输入,确定所述目标停顿位置的目标停顿时长;
232.以及具体用于根据所述目标停顿位置、所述目标停顿位置的目标停顿时长、所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,所述第一语音中所述目标停顿位置对应的语音处的停顿时长为目标停顿时长。
233.可选地,显示单元106,还用于显示至少一个待选停顿时长;
234.处理器110,具体用于响应于所述第六输入,从所述至少一个待选停顿时长中确定所述目标停顿位置的目标停顿时长。
235.可选地,显示单元106,还用于在所述待处理文本的所述目标停顿位置处显示所述目标停顿时长。
236.可选地,输入单元104,还用于接收第七输入;
237.处理器110,还用于响应于所述第七输入,从所述待处理文本中确定目标文字;
238.输入单元104,还用于接收第八输入;
239.处理器110,还用于响应于所述第八输入,确定向所述目标文字添加的目标读音;
240.以及具体用于根据所述目标文字的目标读音、所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,所述第一语音中对应的所述目标文字的读音为所述目标读音。
241.可选地,输入单元104,还用于接收第九输入;
242.处理器110,还用于响应于所述第九输入,调整所述待处理文本,得到调整后待处理文本;
243.根据所述目标情感标识、所述调整后待处理文本以及所述目标文本段,将所述调整后待处理文本编辑为第三语音;
244.将所述第一语音更新为所述第三语音。
245.可选地,显示单元106,具体用于在第二屏幕中显示至少一个情感标识。
246.应理解的是,本技术实施例中,输入单元104可以包括图形处理器(graphics processing unit,gpu)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入
设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
247.存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器109可以包括易失性存储器或非易失性存储器,或者,存储器x09可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本技术实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。
248.处理器110可包括一个或多个处理单元;可选的,处理器110集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
249.本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述文本处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
250.其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
251.本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述文本处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
252.应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
253.本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述文本处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
254.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及
的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
255.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
256.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
技术特征:
1.一种文本处理方法,其特征在于,包括:获取待处理文本中的目标文本段,所述目标文本段为所述待处理文本中待添加情感标识的文本段;显示至少一个情感标识;接收第一输入;响应于所述第一输入,在所述至少一个情感标识中确定所述目标文本段的目标情感标识;根据所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,所述第一语音中所述目标文本段对应语音的朗读情感与所述目标情感标识相匹配。2.根据权利要求1所述的方法,其特征在于,所述获取待处理文本中的目标文本段,包括:接收第二输入;响应于所述第二输入,从所述待处理文本中确定目标文本段。3.根据权利要求1所述的方法,其特征在于,所述方法在所述根据所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音之前,还包括:显示至少一个语音角色标识,一个所述语音角色标识对应一种音色;接收第三输入;响应于所述第三输入,在所述至少一个语音角色标识中确定目标语音角色标识;所述根据所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,包括:根据所述目标语音角色标识、所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为所述第一语音,所述第一语音的音色与所述目标语音角色标识相匹配。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:显示试听标识;所述在所述响应于所述第三输入,在所述至少一个语音角色标识中确定目标语音角色标识之后,还包括:接收第四输入;响应于所述第四输入,播放与所述目标语音角色标识匹配的第二语音。5.根据权利要求1所述的方法,其特征在于,所述方法在所述根据所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音之前,还包括:接收第五输入;响应于所述第五输入,在所述待处理文本中确定目标停顿位置;接收第六输入;响应于所述第六输入,确定所述目标停顿位置的目标停顿时长;所述根据所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,包括:根据所述目标停顿位置、所述目标停顿位置的目标停顿时长、所述目标情感标识、所述
待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,所述第一语音中所述目标停顿位置对应的语音处的停顿时长为目标停顿时长。6.一种文本处理装置,其特征在于,包括:获取模块,用于获取待处理文本中的目标文本段,所述目标文本段为所述待处理文本中待添加情感标识的文本段;显示模块,用于显示至少一个情感标识;接收模块,用于接收第一输入;响应模块,用于响应于所述第一输入,在所述至少一个情感标识中确定所述目标文本段的目标情感标识;编辑模块,用于根据所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,所述第一语音中所述目标文本段对应语音的朗读情感与所述目标情感标识相匹配。7.根据权利要求6所述的装置,其特征在于,所述获取模块,包括:接收单元,用于接收第二输入;响应单元,用于响应于所述第二输入,从所述待处理文本中确定目标文本段。8.根据权利要求6所述的装置,其特征在于,所述显示模块,还用于显示至少一个语音角色标识,一个所述语音角色标识对应一种音色;所述接收模块,还用于接收第三输入;所述响应模块,还用于响应于所述第三输入,在所述至少一个语音角色标识中确定目标语音角色标识;所述编辑模块,具体用于根据所述目标语音角色标识、所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为所述第一语音,所述第一语音的音色与所述目标语音角色标识相匹配。9.根据权利要求8所述的装置,其特征在于,所述显示模块,还用于显示试听标识;所述接收模块,还用于接收第四输入;所述响应模块,还用于响应于所述第四输入,播放与所述目标语音角色标识匹配的第二语音。10.根据权利要求6所述的装置,其特征在于,所述接收模块,还用于接收第五输入;所述响应模块,还用于响应于所述第五输入,从所述待处理文本中确定目标停顿位置;所述接收模块,还用于接收第六输入;所述响应模块,还用于响应于所述第六输入,确定所述目标停顿位置的目标停顿时长;所述编辑模块,具体用于根据所述目标停顿位置、所述目标停顿位置的目标停顿时长、所述目标情感标识、所述待处理文本以及所述目标文本段,将所述待处理文本编辑为第一语音,所述第一语音中所述目标停顿位置对应的语音处的停顿时长为目标停顿时长。
技术总结
本申请公开了一种文本处理方法及装置,属于通信技术领域。其中,该方法包括:获取待处理文本中的目标文本段,目标文本段为待处理文本中待添加情感标识的文本段;显示至少一个情感标识;接收第一输入,响应于第一输入,在至少一个情感标识中确定目标文本段的目标情感标识;根据目标情感标识、待处理文本以及目标文本段,将待处理文本编辑为第一语音,第一语音中目标文本段对应语音的朗读情感与目标情感标识相匹配。识相匹配。识相匹配。
技术研发人员:彭业
受保护的技术使用者:维沃移动通信有限公司
技术研发日:2023.06.20
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/