使用机器学习模型的音生成方法、机器学习模型的训练方法、音生成装置、训练装置、音生成程序及训练程序与流程
未命名
10-08
阅读:103
评论:0

1.本发明涉及一种能够生成声音的音生成方法、训练方法、音生成装置、训练装置、音生成程序及训练程序。
背景技术:
2.已知基于由使用者指定的音量的时间序列而生成语音信号的应用。例如,在非专利文献1所记载的应用中,从使用者的输入音提取出基本频率、隐变量及响度作为特征量。通过对提取出的特征量进行频谱建模合成而生成语音信号。
3.非专利文献1:jesse engel,lamtharn hantrakul,chenjie gu and adam roberts,"ddsp:differentiable digital signal processing",arxiv:2001.04643v1[cs.lg]14jan 2020
技术实现要素:
[0004]
在使用非专利文献1所记载的应用而生成表示如人的歌唱或演奏那样自然地变化的语音的语音信号时,需要使用者详细地指定振幅、音量、音高、音色(timbre)等任意者的音乐特征量的时间序列。但是,详细地指定振幅、音量、音高、音色等任意者的音乐特征量的时间序列并不容易。
[0005]
本发明的目的在于提供能够容易地取得自然的语音的音生成方法、训练方法、音生成装置、训练装置、音生成程序及训练程序。
[0006]
根据本发明的一个方案的音生成方法是由计算机实现的,接受音乐特征量在时间上变化的第1特征量列,使用对音乐特征量以第1精细度在时间上变化的输入特征量列和与音乐特征量以比第1精细度高的第2精细度在时间上变化的输出特征量列对应的参照音数据列之间的输入输出关系进行了学习的训练好的模型,对第1特征量列进行处理,生成与音乐特征量以第2精细度变化的第2特征量列对应的音数据列。此外,“音乐特征量”这一用语表示特征量是音乐类别(例如,振幅、音高、音色等)。第1特征量列、输入特征量列、输出特征量列、及第2特征量列都是“音乐特征量(特征量)”的时间序列数据的一个例子。即,在第1特征量列、输入特征量列、输出特征量列、及第2特征量列各自中表示其变化的特征量都是“音乐特征量”。
[0007]
根据本发明的其他方案的训练方法是由计算机实现的,从表示音波形的参照数据,提取出音乐特征量以规定精细度在时间上变化的参照音数据列和该音乐特征量的时间序列即输出特征量,根据输出特征量列而生成音乐特征量以比规定精细度低的精细度在时间上变化的输入特征量列,通过使用了输入特征量列和参照音数据列的机器学习,构建对输入特征量列和参照音数据列之间的输入输出关系进行了学习的训练好的模型。
[0008]
根据本发明的又一个方案的音生成装置具有:接受部,其接受音乐特征量在时间上变化的第1特征量列;以及生成部,其使用对音乐特征量以第1精细度在时间上变化的输
入特征量列和与音乐特征量以比第1精细度高的第2精细度在时间上变化的输出特征量列对应的参照音数据列之间的输入输出关系进行了学习的训练好的模型,对第1特征量列进行处理,生成与音乐特征量以第2精细度变化的第2特征量列对应的音数据列。
[0009]
根据本发明的又一个方案的训练装置具有:提取部,其从表示音波形的参照数据,提取出音乐特征量以规定精细度在时间上变化的参照音数据列和该音乐特征量的时间序列即输出特征量列;生成部,其根据输出特征量列而生成音乐特征量以比规定精细度低的精细度在时间上变化的输入特征量列;以及构建部,其通过使用了输入特征量列和参照音数据列的机器学习,构建对输入特征量列和参照音数据列之间的输入输出关系进行了学习的训练好的模型。
[0010]
发明的效果
[0011]
根据本发明,能够容易地取得自然的语音。
附图说明
[0012]
图1是表示包含本发明的一个实施方式涉及的音生成装置及训练装置的处理系统的结构的框图。
[0013]
图2是表示音生成装置的结构的框图。
[0014]
图3是用于说明音生成装置的动作例的图。
[0015]
图4是用于说明音生成装置的动作例的图。
[0016]
图5是用于说明音生成装置的其他动作例的图。
[0017]
图6是表示训练装置的结构的框图。
[0018]
图7是用于说明训练装置的动作例的图。
[0019]
图8是表示由图2的音生成装置进行的音生成处理的一个例子的流程图。
[0020]
图9是表示由图6的训练装置进行的训练处理的一个例子的流程图。
[0021]
图10是表示第2实施方式的接受画面的一个例子的图。
具体实施方式
[0022]
(1)处理系统的结构
[0023]
以下,使用附图详细地说明本发明的第1实施方式涉及的音生成方法、训练方法、音生成装置、训练装置、音生成程序及训练程序。图1是表示包含本发明的一个实施方式涉及的音生成装置及训练装置的处理系统的结构的框图。如图1所示,处理系统100具有ram(随机存取存储器)110、rom(只读存储器)120、cpu(中央运算处理装置)130、存储部140、操作部150及显示部160。作为中央运算处理装置,cpu 130可以是cpu、mpu、gpu、asic、fpga、dsp及通用计算机之中的1个以上,也可以包含它们之中的1个或多个。
[0024]
处理系统100例如是通过pc、平板终端或智能手机等计算机实现的。或者,处理系统100可以通过用以太网等通信路径进行连接的多个计算机的共同动作而实现。ram 110、rom 120、cpu 130、存储部140、操作部150及显示部160与总线170连接。由ram 110、rom 120及cpu 130构成音生成装置10及训练装置20。在本实施方式中,音生成装置10和训练装置20由共通的处理系统100构成,但也可以由单独的处理系统构成。
[0025]
ram 110例如由易失性存储器构成,作为cpu 130的工作区域而使用。rom 120例如
由非易失性存储器构成,对音生成程序及训练程序进行存储。cpu 130通过在ram 110上执行在rom 120存储的音生成程序而进行音生成处理。另外,cpu 130通过在ram 110上执行在rom 120存储的训练程序而进行训练处理。对于音生成处理及训练处理的详细内容,在后面记述。
[0026]
音生成程序或训练程序可以不是存储于rom 120,而是存储于存储部140。或者,音生成程序或训练程序可以以存储于计算机可读取的存储介质的方式提供,也可以安装于rom 120或存储部140。或者,在处理系统100与互联网等网络连接的情况下,也可以将从该网络上的服务器(包含云服务器。)传送的音生成程序安装于rom 120或存储部140。
[0027]
存储部140包含硬盘、光盘、磁盘或存储卡等存储介质。在存储部140存储训练好的模型m、结果数据d1、多个参照数据d2、多个乐谱数据d3及多个参照乐谱数据d4。多个参照数据d2和多个参照乐谱数据d4各自对应。参照数据d2(音数据)和参照乐谱数据d4(乐谱数据)“对应”例如是指,由参照乐谱数据d4示出的乐谱表示的乐曲的各音符(及音韵)和由参照数据d2示出的波形数据表示的乐曲的各音符(及音韵)包含其演奏定时、演奏强度、演奏表现等而彼此相同。训练好的模型m是获取乐谱数据d3的乐谱特征量列和控制值(输入特征量列),对按照上述乐谱特征量列和控制值的结果数据d1(音数据列)进行推定的生成模型。训练好的模型m对乐谱特征量列及输入特征量列和与输出特征量列对应的参照音数据列之间的输入输出关系进行学习,是由训练装置20构建的。在本例中,训练好的模型m是ar(回归)型的生成模型,但也可以是非ar型的生成模型。
[0028]
输入特征量列是音乐特征量以第1精细度(fineness)在时间上变化的时间序列(时间序列数据),例如是音乐特征量针对声音的每个时间部分而离散地或间歇地缓慢变化的时间序列。输出特征量列是音乐特征量以比第1精细度高的第2精细度在时间上变化的时间序列(时间序列数据),例如是音乐特征量不断地或连续地快速变化的时间序列。输入特征量列及输出特征量列各自是特征量列,特征量列是音乐特征量的时间序列数据,还可称为表示音乐特征量的时间变化的数据。音乐特征量例如可以是振幅或其微分值、音高或其微分值。音乐特征量可以取代振幅等而包含谱倾斜或谱重心,也可以包含高频功率相对于低频功率之比(高频带功率/低频带功率)。“音乐特征量”这一用语表示特征量为音乐类别(例如,振幅、音高、音色等),以下,有时简记为“特征量”。本实施方式的输入特征量列、输出特征量列、第1特征量列、及第2特征量列都是“音乐特征量(特征量)”的时间序列数据的一个例子。即,在输入特征量列、输出特征量列、第1特征量列、及第2特征量列各自中示出其变化的特征量都是“音乐特征量”。另一方面,音数据列是能够变换为时间区域的音波形的频率区域的数据的列,例如可以是波形的振幅谱包络的时间序列和音高的时间序列的组合,或者可以是梅尔频谱等。
[0029]
在这里,精细度不是指单位时间内的特征量的数量(时间分辨率),是指单位时间内的特征量的变化的频度或高频率成分的含有量。即,输入特征量列是降低输出特征量列的精细度而得到的特征量列,例如是将输出特征量列以在其大部分成为与前方相邻的值相同的方式进行了加工的特征量列,或者对输出特征量列应用某种低通滤波器而得到的特征量列等。在这里,关于时间分辨率,在输入特征量列和输出特征量列不改变。
[0030]
结果数据d1表示与由音生成装置10生成的声音的特征量列(后述的第2特征量列)对应的音数据列。参照数据d2是为了对训练好的模型m进行训练而使用的波形数据、即音波
形的样本的时间序列(时间序列数据)。而且,将与声音的控制相关联地从各波形数据提取出的特征量(例如,振幅)的时间序列(时间序列数据)称为输出特征量列。乐谱数据d3及参照乐谱数据d4分别表示包含在时间轴上配置的多个音符(音符串)的乐谱。根据乐谱数据d3而生成的乐谱特征量列在由音生成装置10进行的结果数据d1的生成中使用。参照数据d2及参照乐谱数据d4在由训练装置20进行的训练好的模型m的构建中使用。
[0031]
训练好的模型m、结果数据d1、参照数据d2、乐谱数据d3及参照乐谱数据d4可以不存储于存储部140而存储于计算机可读取的存储介质。或者,在处理系统100与网络连接的情况下,训练好的模型m、结果数据d1、参照数据d2、乐谱数据d3或参照乐谱数据d4可以存储于该网络上的服务器。
[0032]
操作部150包含鼠标等定点设备或键盘,由使用者操作以进行规定的输入。显示部160例如包含液晶显示器,对规定的gui(graphical user interface)或音生成处理的结果等进行显示。操作部150及显示部160可以由触摸面板式显示器构成。
[0033]
(2)音生成装置
[0034]
图2是表示音生成装置10的结构的框图。图3及图4是用于说明音生成装置10的动作例的图。如图2所示,音生成装置10包含提示部11、接受部12、生成部13及处理部14。提示部11、接受部12、生成部13及处理部14的功能通过由图1的cpu 130执行音生成程序而实现。提示部11、接受部12、生成部13及处理部14的至少一部分可以由电路等硬件实现。
[0035]
提示部11如图3所示,将接受画面1作为用于接受来自使用者的输入的gui而显示于显示部160。在接受画面1设置参照区域2及输入区域3。在参照区域2,例如基于由使用者选择的乐谱数据d3而显示表示多个音符的时间轴上的位置的参照图像4。参照图像4例如是钢琴卷轴。使用者能够通过对操作部150进行操作而从在存储部140等存储的多个乐谱数据d3选择表示期望的乐谱的乐谱数据d3,或进行编辑。
[0036]
输入区域3配置为与参照区域2对应。使用者使用图1的操作部150,一边观察参照图像4的音符,一边粗略地在输入区域3上输入各特征量,以使得特征量(本例中为振幅)在时间上变化。由此,能够输入第1特征量列。在图3的输入例中,以使得乐谱的第1~第5小节的振幅小、第6~第7小节的振幅大、第8~第10小节的振幅稍微变大的方式,进行振幅的输入。接受部12接受在输入区域3上输入的第1特征量列。
[0037]
存储于存储部140等的训练好的模型m如图4所示,例如包含神经网络(在图4的例子中,dnn(深度神经网络)l1)。由使用者选择出的乐谱数据d3及在输入区域3输入的第1特征量列被赋予至dnn l1。生成部13使用dnn l1对乐谱数据d3及第1特征量列进行处理,生成例如作为乐谱的音高的时间序列和振幅频谱包络的时间序列的组合的结果数据d1。结果数据d1表示与振幅以第2精细度变化的第2特征量列对应的音数据列。另外,在结果数据d1所包含的音高的时间序列中,也与(与振幅相同地)第1特征量列相对应地,音高以高的精细度(比第1特征量列的精细度高的精细度)变化。此外,结果数据可以是表示乐谱的振幅频谱的时间序列(例如,梅尔频谱)的结果数据d1。
[0038]
第1特征量列的各时间点的振幅可以是在第2特征量列中包含该时间点的规定期间内的振幅的代表值。此外,相邻的2个时间点的间隔例如为5ms,规定期间的长度例如为3s,各时间点例如位于对应的规定期间的中心。代表值可以是第2特征量列的规定期间内的振幅的统计值。例如,代表值可以是振幅的最大值、平均值、中央值、众数值、方差或标准偏
差。
[0039]
但是,代表值不限定于第2特征量列的规定期间内的振幅的统计值。例如,代表值可以是第2特征量列的规定期间内的振幅的第1高谐波的最大值和第2高谐波的最大值之比、或该比的对数值。或者,代表值可以是上述的第1高谐波的最大值和第2高谐波的最大值的平均值。
[0040]
生成部13可以将所生成的结果数据d1存储于存储部140等。处理部14例如作为声码器起作用,根据由生成部13生成的频率区域的结果数据d1而生成表示时间区域的波形的语音信号。通过将生成的语音信号供给至与处理部14连接的、包含扬声器等的音响系统,输出基于语音信号的声音。在本例中,音生成装置10包含处理部14,但实施方式不限定于此。音生成装置10也可以不包含处理部14。
[0041]
在图3的例子中,在接受画面1中,输入区域3配置于参照区域2的下方,但实施方式不限定于此。在接受画面1中,输入区域3也可以配置于参照区域2的上方。或者,在接受画面1中,输入区域3可以配置为与参照区域2重叠。
[0042]
另外,在图3的例子中,接受画面1包含参照区域2,在参照区域2显示参照图像4,但实施方式不限定于此。接受画面1可以不包含参照区域2。在该情况下,使用者使用操作部150,在输入区域3上进行示出振幅的期望的时间序列的描绘。由此,能够输入振幅粗略地变化的第1特征量列。
[0043]
在图4的例子中,训练好的模型m包含1个dnn l1,但实施方式不限定于此。训练好的模型m可以包含多个dnn。图5是用于说明音生成装置10的其他动作例的图。在图5的例子中,训练好的模型m包含3个dnn l1、l2、l3。由使用者选择出的乐谱数据d3被赋予至各dnn l1~l3。另外,由使用者在输入区域3输入的第1特征量列被赋予至dnn l1。
[0044]
生成部13使用dnn l1对乐谱数据d3及第1特征量列进行处理,生成振幅在时间上变化的第1中间特征量列。第1中间特征量列的振幅的时间序列的精细度比第1特征量列的振幅的时间序列的精细度(第1精细度)高。第1中间特征量列可以显示于输入区域3。使用者可以使用操作部150对在输入区域3显示的第1中间特征量列进行修正。
[0045]
另外,生成部13使用dnn l2对乐谱数据d3及第1中间特征量列进行处理,生成振幅在时间上变化的第2中间特征量列。第2中间特征量列的振幅的时间序列的精细度比第1中间特征量列的振幅的时间序列的精细度高。第2中间特征量列可以显示于输入区域3。使用者可以使用操作部150对在输入区域3显示的第2中间特征量列进行修正。
[0046]
进一步地,生成部13使用dnn l3对乐谱数据d3及第2中间特征量列进行处理,确定乐谱的音高的时间序列,生成表示所确定出的音高的时间序列的结果数据d1。由结果数据d1示出的第2特征量列的振幅的时间序列的精细度(第2精细度)比第2中间特征量列的振幅的时间序列的精细度高。如以上所说明的那样,可以是,l1如果被输入特征量(例如,振幅)以第1精细度在时间上变化的特征量列(输入特征量列、第1特征量列),则输出特征量以比第1精细度高的精细度在时间上变化的第1中间特征量列。可以是,l2如果被输入第1中间特征量列,则输出特征量以比第1中间特征量列的精细度高的精细度在时间上变化的第2中间特征量列。可以是,l3如果被输入第2中间特征量列,则确定乐谱的音高的时间序列,输出表示所确定出的音高的时间序列的音数据列(参照音数据列、结果数据d1)。将与由l3输出的音数据列对应的波形的特征量的时间序列数据称为第2特征量列。在第2特征量列中,特征
量以比第2中间特征量列的精细度高的精细度在时间上变化,即第2特征量列的精细度(第2精细度)比第2中间特征量列的精细度高。针对l1、l2、l3各自,还可以进一步输入与由l3输出的音数据列对应的乐谱数据(参照乐谱数据d4、乐谱数据d3)、及根据该乐谱数据而生成的乐谱特征量的至少一者。乐谱数据是表示包含在时间轴上配置的多个音符(音符串)的乐谱的数据。
[0047]
(3)训练装置
[0048]
图6是表示训练装置20的结构的框图。图7是用于说明训练装置20的动作例的图。如图6所示,训练装置20包含提取部21、生成部22及构建部23。提取部21、生成部22及构建部23的功能通过由图1的cpu 130执行训练程序而实现。提取部21、生成部22及构建部23的至少一部分也可以由电路等硬件实现。
[0049]
提取部21根据存储于存储部140等的多个参照数据d2各自而提取出参照音数据列和输出特征量列。参照音数据列是参照数据d2示出的时间区域的波形的表示频率区域的频谱的数据,例如可以是对应的参照数据d2示出的波形的振幅频谱包络的时间序列和音高的时间序列的组合,也可以是梅尔频谱等。通过使用规定的时间帧对参照数据d2进行频率解析,生成每隔规定间隔(例如,5ms)的参照音数据的列。输出特征量列是与参照音数据列对应的波形的特征量(例如,振幅)的时间序列,以与所述规定间隔(例如,5ms)对应的规定精细度在时间上变化。各种数据列的数据间隔可以比5ms短,也可以比5ms长,另外可以彼此相同,也可以不同。生成部22根据多个输出特征量列各自而生成输入特征量列。在输入特征量列中,特征量(例如,振幅)以比输出特征量列的特征量(例如,振幅)的时间序列的精细度低的精细度在时间上变化。
[0050]
具体而言,生成部22如图7所示,在输出特征量列中提取包含各时间点t的规定期间t内的振幅的代表值。此外,相邻的2个时间点t的间隔例如为5ms,期间t的长度例如为3s,各时间点t例如位于期间t的中心。在图8的例子中,各期间t的振幅的代表值为该期间t内的振幅的最大值,但也可以为该期间t内的振幅的其他统计值等。生成部22通过将提取出的多个期间t的振幅的代表值分别作为输入特征量列的多个时间点t的振幅进行排列,生成输入特征量列。振幅的最大值取与最大3s的期间相同的值,与时间点的间隔5ms相比,其值变化的间隔长几十倍以上。即,输入特征量列与输出特征量列相比变化的频度低,换言之精细度低。
[0051]
构建部23准备由dnn构成的生成模型m(未训练或预训练好的),基于提取出的参照音数据列、生成的输入特征量列及根据存储于存储部140等的各参照乐谱数据d4而生成的乐谱特征量列,对该生成模型m进行训练。通过该训练,构建对输入特征量列及乐谱特征量列和参照音数据列之间的输入输出关系进行了学习的训练好的模型m。准备的生成模型m可以如图4所示包含1个dnn l1,也可以如图5所示包含多个dnn l1~l3。构建部23使所构建的训练好的模型m存储于存储部140等。
[0052]
(4)音生成处理
[0053]
图8是表示由图2的音生成装置10进行的音生成处理的一个例子的流程图。图8的音生成处理通过由图1的cpu 130执行在存储部140等存储的音生成程序而进行。首先,cpu 130对是否由使用者选择了乐谱数据d3进行判定(步骤s1)。在没有选择乐谱数据d3的情况下,cpu 130直至选择乐谱数据d3为止进行等待。
[0054]
在选择了乐谱数据d3的情况下,cpu 130使图3的接受画面1显示于显示部160(步骤s2)。在接受画面1的参照区域2,显示基于在步骤s1中选择出的乐谱数据d3的参照图像4。接下来,cpu 130在接受画面1的输入区域3上接受第1特征量列(步骤s3)。
[0055]
接着,cpu 130使用训练好的模型m,对在步骤s1中选择出的乐谱数据d3的乐谱特征量列及在步骤s4中接受到的第1特征量列进行处理,生成结果数据d1(步骤s4)。然后,cpu 130根据在步骤s4中生成的结果数据d1而生成作为时间区域的波形的语音信号(步骤s5),将音生成处理结束。
[0056]
(5)训练处理
[0057]
图9是表示由图6的训练装置20进行的训练处理的一个例子的流程图。图9的训练处理通过由图1的cpu 130执行在存储部140等存储的训练程序而进行。首先,cpu 130从存储部140等取得在训练中使用的多个参照数据d2(步骤s11)。接下来,cpu 130从在步骤s11中取得的各参照数据d2提取出参照音数据列(步骤s12)。另外,cpu 130从在步骤s1中取得的各参照数据d2提取出输出特征量列(例如,振幅的时间序列)(步骤s13)。
[0058]
接着,cpu 130根据在步骤s3中提取出的输出特征量列而生成输入特征量列(振幅的最大值的时间序列)(步骤s14)。然后,cpu 130准备生成模型m,根据基于与步骤s1中取得的各参照数据d2对应的参照乐谱数据d4的乐谱特征量列及在步骤s14中生成的输入特征量列、和在步骤s12中提取出的参照音数据列,对该生成模型m进行训练,由此使生成模型m对乐谱特征量列及参照输入特征量列和参照音数据列之间的输入输出关系进行机器学习(步骤s15)。
[0059]
接下来,cpu 130对是否执行了对于生成模型m学习输入输出关系而言充分的机器学习进行判定(步骤s16)。在机器学习不充分的情况下,cpu 130返回至步骤s15。直至执行充分的机器学习为止,一边使参数变化一边反复进行步骤s15~s16。机器学习的反复次数与所构建的训练好的模型m应满足的品质条件相对应地变化。步骤s16的判定是基于作为品质条件的指标的损失函数而进行的。例如,如果表示针对被输入的输入特征量列而由生成模型m输出的音数据列和作为标签而标注于被输入的输入特征量列的参照音数据列之间的差异的损失函数小于规定的值,则判定为机器学习充分。规定的值可以由处理系统100的利用者与期望的品质(品质条件)相对应地适当设定。另外,也可以取代这样的判定或者与这样的判定一起,判定反复次数是否达到了规定的次数。在执行了充分的机器学习的情况下,cpu 130保存通过训练而对乐谱特征量列及输入特征量列、和参照音数据列之间的输入输出关系进行了学习的训练好的模型m(步骤s17),将训练处理结束。通过训练处理,生成模型m对输入特征量列(例如,输入特征量列(x))和作为标签而标注于该输入特征量列的“与该输入特征量列对应的音数据列即参照音数据列(例如,参照音数据列(x))”之间的对应关系进行学习。
[0060]
(6)实施方式的效果
[0061]
如以上所说明的那样,本实施方式涉及的音生成方法是由计算机实现的,接受音乐特征量在时间上变化的第1特征量列,使用训练好的模型,对第1特征量列进行处理,生成与音乐特征量以第2精细度变化的第2特征量列对应的音数据列,该训练好的模型对音乐特征量以第1精细度在时间上变化的输入特征量列、和与音乐特征量以比第1精细度高的第2精细度在时间上变化的输出特征量列对应的参照音数据列之间的输入输出关系进行了学
习。如前述那样,“音乐特征量”这一用语表示特征量为音乐类别(例如,振幅、音高、音色等)。第1特征量列、输入特征量列、输出特征量列、及第2特征量列都是“音乐特征量”的时间序列数据的一个例子。即,在第1特征量列、输入特征量列、输出特征量列、及第2特征量列各自中示出其变化的特征量都是“音乐特征量”。
[0062]
根据该方法,即使在接受到的第1特征量列的音乐特征量的变化是粗略的(换言之,在第1特征量列中,音乐特征量离散地或间歇地缓慢变化的)情况下,也能够生成与第2特征量列对应的音数据列。在第2特征量列中,音乐特征量详细地(换言之,不断地或连续地快速)变化,根据该音数据列而生成自然的语音。因此,使用者无需输入音乐特征量的详细的时间序列。
[0063]
输入特征量列的各时间点的音乐特征量也可以表示在输出特征量列中包含该时间点的规定期间内的音乐特征量的代表值。
[0064]
代表值可以表示输出特征量列的规定期间内的音乐特征量的统计值。
[0065]
音生成方法可以进一步对第1特征量列沿时间轴而显示的接受画面1进行提示,第1特征量列是由用户使用接受画面1输入的。在该情况下,使用者能够一边目视确认第1特征量列的音乐特征量的时间轴上的位置,一边容易地输入第1特征量列。
[0066]
所述精细度可以表示单位时间内的所述音乐特征量的变化的频度、或所述音乐特征量的高频率成分的含有比例。
[0067]
所述音生成方法可以进一步地,将表示频率区域的波形的所述音数据列向时间区域的波形进行变换。
[0068]
本实施方式涉及的训练方法是由计算机实现的,从表示音波形的参照数据,提取出音乐特征量以规定精细度在时间上变化的参照音数据列和该音乐特征量的时间序列即输出特征量列,根据输出特征量列而生成音乐特征量以比规定精细度低的精细度在时间上变化的输入特征量列,通过使用了输入特征量列和参照音数据列的机器学习,构建对输入特征量列和参照音数据列之间的输入输出关系进行了学习的训练好的模型。
[0069]
根据该方法,能够构建下述训练好的模型m,即,即使在输入的第1特征量列的音乐特征量的变化粗略的(换言之,在第1特征量列中,音乐特征量离散地或间歇地缓慢变化的)情况下,也能够生成与音乐特征量详细地(换言之,不断地或连续地快速)变化的第2特征量列对应的音数据列。
[0070]
输入特征量列可以通过下述方式生成,即,作为输入特征量列的各时间点的音乐特征量,在输出特征量列中提取出包含该时间点的规定期间内的音乐特征量的代表值。
[0071]
代表值可以表示输出特征量列的规定期间内的音乐特征量的统计值。
[0072]
参照数据可以表示时间区域的音波形,参照音数据列可以表示频率区域的音波形。
[0073]
(7)使用振幅以外的特征量的例子
[0074]
在上述第1实施方式中,使用者输入振幅的最大值作为控制值而对生成的语音信号进行控制,但实施方式不限定于此。控制值也可以是其他特征量。以下,针对第2实施方式涉及的音生成装置10及训练装置20,对与第1实施方式涉及的音生成装置10及训练装置20共通的点及不同的点进行说明。
[0075]
本实施方式的音生成装置10除了以下的点以外与关于图2说明的第1实施方式的
音生成装置10相同。提示部11基于由使用者选择出的乐谱数据d3,使接受画面1显示于显示部160。图10是表示第2实施方式的接受画面1的一个例子的图。如图10所示,在本实施方式的接受画面1,取代图3的输入区域3而与参照区域2对应地配置3个输入区域3a、3b、3c。
[0076]
使用者使用操作部150,针对与在参照图像4显示的各音符对应的声音的3个部分的特征量(本例中为音高的方差)在时间上变化的3个第1特征量列,分别在输入区域3a、3b、3c上输入各特征量。由此,能够输入第1特征量列。作为第1特征量列,在输入区域3a输入与音符对应的声音的起音部的音高的方差的时间序列,在输入区域3b输入维持(sustain)部的音高的方差的时间序列,在输入区域3c输入释音部的音高的方差。在图10的输入例中,乐谱的第6~第7小节的起音部及释音部的音高的方差大,第8~第9小节的维持部的音高的方差大。
[0077]
生成部13使用训练好的模型m,对基于乐谱数据d3的乐谱特征量列及第1特征量列进行处理,生成结果数据d1。结果数据d1包含以第2精细度变化的音高的时间序列即第2特征量列。生成部13可以使生成的结果数据d1存储于存储部140等。另外,生成部13基于频率区域的结果数据d1而生成时间区域的波形即语音信号并供给至音响系统。此外,生成部13可以使结果数据d1所包含的第2特征量列显示于显示部160。
[0078]
本实施方式的训练装置20除了以下的点以外,与关于图6说明的第1实施方式的训练装置20相同。在本实施方式中,在图9的训练处理的步骤s13中应当提取的输出特征量列即音高的时间序列在前一步骤s12中作为参照音数据列的一部分已提取。cpu 130(提取部21)在步骤s13中,将多个参照数据d2各自的振幅的时间序列没有作为输出特征量列,而是作为将声音分离为3个部分的指标进行提取。
[0079]
在接下来的步骤s14中,cpu 130基于该振幅的时间序列,将参照音数据列所包含的音高的时间序列(输出特征量列)划分为声音的起音部、声音的释音部、及起音部和释音部之间的声音的主体部这3个部分的时间序列,分别进行统计分析而针对各部分求出音高的方差的时间序列(输入特征量列)。
[0080]
另外,cpu 130(构建部23)通过在步骤s15~s16中基于根据各参照数据d2而生成的参照音数据列和与输入特征量列对应的参照乐谱数据d4,反复进行机器学习(生成模型m的训练),从而构建训练好的模型m,该训练好的模型m对与参照乐谱数据对应的乐谱特征量列及输入特征量列和与输出特征量列对应的参照音数据列之间的输入输出关系进行了学习。
[0081]
在本实施方式涉及的音生成装置10中,使用者通过粗略地输入各时间点的音高的方差作为第1特征量列,能够有效地控制在该时间点生成的声音的、详细地变化的音高的变化幅度。另外,通过针对3个部分单独地输入第1特征量,能够单独地控制起音部、主体部及释音部的音高的变化幅度。此外,接受画面1包含输入区域3a~3c,但实施方式不限定于此。接受画面1可以不包含输入区域3a、3b、3c之中任1个或2个输入区域。另外,在本实施方式中,接受画面1也可以不包含参照区域2。在本实施方式中,划分为3个部分而输入3个音高的方差列并对声音进行了控制,但也可以不划分为3个部分,而是输入1个音高的方差列对起音至释音为止的整个声音进行控制。
[0082]
标号的说明
[0083]1…
接受画面,2
…
参照区域,3,3a~3c
…
输入区域,4
…
参照图像,10
…
音生成装
置,11
…
提示部,12
…
接受部,13,22
…
生成部,14
…
处理部,20
…
训练装置,21
…
提取部,23
…
构建部,100
…
处理系统,110
…
ram,120
…
rom,130
…
cpu,140
…
存储部,150
…
操作部,160
…
显示部,170
…
总线,d1
…
结果数据,d2
…
参照数据,d3
…
乐谱数据,d4
…
参照乐谱数据,l1~l3
…
dnn,m
…
训练好的模型,m
…
生成模型
技术特征:
1.一种音生成方法,其是由计算机实现的,接受音乐特征量在时间上变化的第1特征量列,使用对所述音乐特征量以第1精细度在时间上变化的输入特征量列、和与所述音乐特征量以比所述第1精细度高的第2精细度在时间上变化的输出特征量列对应的参照音数据列之间的输入输出关系进行了学习的训练好的模型,对所述第1特征量列进行处理,生成与所述音乐特征量以所述第2精细度变化的第2特征量列对应的音数据列。2.根据权利要求1所述的音生成方法,其中,所述输入特征量列的各时间点的所述音乐特征量表示在所述输出特征量列中包含该时间点的规定期间内的所述音乐特征量的代表值。3.根据权利要求2所述的音生成方法,其中,所述代表值表示所述输出特征量列的所述规定期间内的所述音乐特征量的统计值。4.根据权利要求1至3中任一项所述的音生成方法,其中,进一步对所述第1特征量列沿时间轴而显示的接受画面进行提示,所述第1特征量列是由用户使用所述接受画面输入的。5.根据权利要求1至4中任一项所述的音生成方法,其中,所述精细度表示单位时间内的所述音乐特征量的变化的频度、或所述音乐特征量的高频率成分的含有比例。6.根据权利要求1至5中任一项所述的音生成方法,其中,进一步地,将表示频率区域的波形的所述音数据列向时间区域的波形进行变换。7.一种训练方法,其是由计算机实现的,从表示音波形的参照数据,提取出音乐特征量以规定精细度在时间上变化的参照音数据列和该音乐特征量的时间序列即输出特征量,根据所述输出特征量列而生成所述音乐特征量以比所述规定精细度低的精细度在时间上变化的输入特征量列,通过使用了所述输入特征量列和所述参照音数据列的机器学习,构建对所述输入特征量列和所述参照音数据列之间的输入输出关系进行了学习的训练好的模型。8.根据权利要求7所述的训练方法,其中,所述输入特征量列是通过下述方式生成的,即,作为所述输入特征量列的各时间点的所述音乐特征量,在所述输出特征量列中提取出包含该时间点的规定期间内的所述音乐特征量的代表值。9.根据权利要求8所述的训练方法,其中,所述代表值表示所述输出特征量列的所述规定期间内的所述音乐特征量的统计值。10.根据权利要求7所述的训练方法,其中,所述参照数据表示时间区域的所述音波形,所述参照音数据列表示频率区域的所述音波形。11.一种音生成装置,其具有:接受部,其接受音乐特征量在时间上变化的第1特征量列;以及生成部,其使用对所述音乐特征量以第1精细度在时间上变化的输入特征量列、和与所述音乐特征量以比所述第1精细度高的第2精细度在时间上变化的输出特征量列对应的参
照音数据列之间的输入输出关系进行了学习的训练好的模型,对所述第1特征量列进行处理,生成与所述音乐特征量以所述第2精细度变化的第2特征量列对应的音数据列。12.一种训练装置,其具有:提取部,其从表示音波形的参照数据,提取出音乐特征量以规定精细度在时间上变化的参照音数据列和该音乐特征量的时间序列即输出特征量列;生成部,其根据所述输出特征量列而生成所述音乐特征量以比所述规定精细度低的精细度在时间上变化的输入特征量列;以及构建部,其通过使用了所述输入特征量列和所述参照音数据列的机器学习,构建对所述输入特征量列和所述参照音数据列之间的输入输出关系进行了学习的训练好的模型。13.一种音生成程序,其使1个或多个计算机执行下述步骤:接受音乐特征量在时间上变化的第1特征量列,使用对所述音乐特征量以第1精细度在时间上变化的输入特征量列、和与所述音乐特征量以比所述第1精细度高的第2精细度在时间上变化的输出特征量列对应的参照音数据列之间的输入输出关系进行了学习的训练好的模型,对所述第1特征量列进行处理,生成与所述音乐特征量以所述第2精细度变化的第2特征量列对应的音数据列。14.一种训练程序,其使1个或多个计算机执行下述步骤:从表示音波形的参照数据,提取出音乐特征量以规定精细度在时间上变化的参照音数据列和该音乐特征量的时间序列即输出特征量,根据所述输出特征量列而生成所述音乐特征量以比所述规定精细度低的精细度在时间上变化的输入特征量列,通过使用了所述输入特征量列和所述参照音数据列的机器学习,构建对所述输入特征量列和所述参照音数据列之间的输入输出关系进行了学习的训练好的模型。
技术总结
由接受部接受音乐特征量在时间上变化的第1特征量列的输入。由生成部使用训练好的模型对第1特征量列进行处理,生成与特征量以第2精细度变化的第2特征量列对应的音数据列。训练好的模型是对特征量以第1精细度在时间上变化的输入特征量列和与特征量以比第1精细度高的第2精细度在时间上变化的输出特征量列对应的参照音数据列之间的输入输出关系进行了学习的机器学习模型。习的机器学习模型。习的机器学习模型。
技术研发人员:才野庆二郎 大道龙之介 博纳达
受保护的技术使用者:雅马哈株式会社
技术研发日:2021.12.14
技术公布日:2023/10/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/